22 апреля 2026
OpenAI представила модель генерації зображень ChatGPT Images 2.0, яка вперше серед масових ІІ коректно відтворює текст на картинках. Якщо два роки тому дифузійні ІІ-моделі не могли скласти меню мексиканського ресторану без вигаданих слів на кшталт «enchuita» та «burrto», то нова модель створює зображення з написами, придатними до використання без правок.
Джерело зображення: Growtika / unsplash.com
Ще в 2024 році дифузійні ШІ-моделі систематично спотворювали написи. За словами Асмелаша Тека Хадгу (Asmelash Teka Hadgu), засновника та гендиректора Lesan AI, моделі відновлюють зображення з шуму та засвоюють патерни, що покривають основну масу пікселів, а текст займає незначну частку площі.
Зліва — меню, згенероване ChatGPT Images 2.0: всі написи читаються, жодного вигаданого слова. Справа — три варіанти від Microsoft Designer на основі DALL-E 3: «Enchidas», «Tamrielo», «Churiros», «Margartas» та десятки інших спотворень. Джерело зображень: ChatGPT Images 2.0, Microsoft Designer (DALL-E 3) / techcrunch.com
З тих пір дослідники випробували альтернативні підходи — зокрема, авторегресійні моделі, які передбачають зміст зображення і працюють за принципом, близьким до великих мовних моделей (LLM).
OpenAI не розкрила, яка архітектура лежить в основі Images 2.0. Компанія пояснила лише, що новинка вміє «міркувати» — шукати інформацію в інтернеті, генерувати кілька зображень за одним запитом і перевіряти результати. Завдяки цьому Images 2.0 створює маркетингові матеріали в різних розмірах і навіть комікси. У ШІ-моделі також покращена робота з нелатинськими шрифтами — японським, корейським, хінді та бенгальським. Однак знання Images 2.0 обмежені груднем 2025 року, що може вплинути на точність генерації за запитами про нещодавні події.
Джерело зображення: ChatGPT Images 2.0 / openai.com
«Images 2.0 виводить деталізацію та точність генерації на безпрецедентний рівень. Модель здатна продумати складну композицію і втілити її на практиці: слідувати інструкціям, зберігати задані деталі та відтворювати елементи, на яких зазвичай спотикаються генератори, — дрібний текст, піктограми, елементи інтерфейсу, насичені композиції та тонкі стилістичні обмеження, — і все це в роздільній здатності до 2K», — йдеться в прес-релізі компанії. Генерація при цьому займає більше часу, ніж звичайний текстовий запит до ChatGPT, але навіть багатопанельний комікс укладається в кілька хвилин.
Джерело зображення: ChatGPT Images 2.0 / openai.com
Доступ до Images 2.0 отримають усі користувачі ChatGPT та Codex. Платні підписники зможуть генерувати більш складні зображення. OpenAI також відкриє програмний інтерфейс (API) gpt-image-2 — вартість буде залежати від якості та роздільної здатності вихідних зображень.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Вчиняв сексуальні злочини щодо двох 11-річних дівчат у Києві та Запоріжжі: судитимуть тренера з джиу-джитсу 12 мая 2026
Вчиняв сексуальні злочини щодо двох 11-річних дівчат у Києві та Запоріжжі: судитимуть тренера з джиу-джитсу Обвинуваченому загрожує довічне позбавлення волі
Пакистан таємно переховував іранські літаки - ЗМІ 12 мая 2026
Ісламабад, виступаючи в ролі посередника між Іраном та США, дозволяв іранським військовим літаках паркуватися на своїй базі. У Пакистані це заперечують.
Син екснардепа та Народного артиста Богдана Бенюка долучився до лав ЗСУ 12 мая 2026
Син екснардепа та Народного артиста Богдана Бенюка долучився до лав ЗСУ: про це стало відомо випадково У ЗСУ перебувають також двоє зятів актора