ТОнеТО | OpenAI випустила ChatGPT Images 2.0, яка вперше безпомилково відтворила текст на згенерованих зображеннях | Новости про товары, услуги, компании, технологии

OpenAI випустила ChatGPT Images 2.0, яка вперше безпомилково відтворила текст на згенерованих зображеннях

22 апреля 2026

OpenAI представила модель генерації зображень ChatGPT Images 2.0, яка вперше серед масових ІІ коректно відтворює текст на картинках. Якщо два роки тому дифузійні ІІ-моделі не могли скласти меню мексиканського ресторану без вигаданих слів на кшталт «enchuita» та «burrto», то нова модель створює зображення з написами, придатними до використання без правок.

Джерело зображення: Growtika / unsplash.com

Ще в 2024 році дифузійні ШІ-моделі систематично спотворювали написи. За словами Асмелаша Тека Хадгу (Asmelash Teka Hadgu), засновника та гендиректора Lesan AI, моделі відновлюють зображення з шуму та засвоюють патерни, що покривають основну масу пікселів, а текст займає незначну частку площі.

Зліва — меню, згенероване ChatGPT Images 2.0: всі написи читаються, жодного вигаданого слова. Справа — три варіанти від Microsoft Designer на основі DALL-E 3: «Enchidas», «Tamrielo», «Churiros», «Margartas» та десятки інших спотворень. Джерело зображень: ChatGPT Images 2.0, Microsoft Designer (DALL-E 3) / techcrunch.com

З тих пір дослідники випробували альтернативні підходи — зокрема, авторегресійні моделі, які передбачають зміст зображення і працюють за принципом, близьким до великих мовних моделей (LLM).

OpenAI не розкрила, яка архітектура лежить в основі Images 2.0. Компанія пояснила лише, що новинка вміє «міркувати» — шукати інформацію в інтернеті, генерувати кілька зображень за одним запитом і перевіряти результати. Завдяки цьому Images 2.0 створює маркетингові матеріали в різних розмірах і навіть комікси. У ШІ-моделі також покращена робота з нелатинськими шрифтами — японським, корейським, хінді та бенгальським. Однак знання Images 2.0 обмежені груднем 2025 року, що може вплинути на точність генерації за запитами про нещодавні події.

Джерело зображення: ChatGPT Images 2.0 / openai.com

«Images 2.0 виводить деталізацію та точність генерації на безпрецедентний рівень. Модель здатна продумати складну композицію і втілити її на практиці: слідувати інструкціям, зберігати задані деталі та відтворювати елементи, на яких зазвичай спотикаються генератори, — дрібний текст, піктограми, елементи інтерфейсу, насичені композиції та тонкі стилістичні обмеження, — і все це в роздільній здатності до 2K», — йдеться в прес-релізі компанії. Генерація при цьому займає більше часу, ніж звичайний текстовий запит до ChatGPT, але навіть багатопанельний комікс укладається в кілька хвилин.

Джерело зображення: ChatGPT Images 2.0 / openai.com

Доступ до Images 2.0 отримають усі користувачі ChatGPT та Codex. Платні підписники зможуть генерувати більш складні зображення. OpenAI також відкриє програмний інтерфейс (API) gpt-image-2 — вартість буде залежати від якості та роздільної здатності вихідних зображень.

Хочеш дізнатися більше — читай відгуки