22 апреля 2026
OpenAI представила модель генерації зображень ChatGPT Images 2.0, яка вперше серед масових ІІ коректно відтворює текст на картинках. Якщо два роки тому дифузійні ІІ-моделі не могли скласти меню мексиканського ресторану без вигаданих слів на кшталт «enchuita» та «burrto», то нова модель створює зображення з написами, придатними до використання без правок.
Джерело зображення: Growtika / unsplash.com
Ще в 2024 році дифузійні ШІ-моделі систематично спотворювали написи. За словами Асмелаша Тека Хадгу (Asmelash Teka Hadgu), засновника та гендиректора Lesan AI, моделі відновлюють зображення з шуму та засвоюють патерни, що покривають основну масу пікселів, а текст займає незначну частку площі.
Зліва — меню, згенероване ChatGPT Images 2.0: всі написи читаються, жодного вигаданого слова. Справа — три варіанти від Microsoft Designer на основі DALL-E 3: «Enchidas», «Tamrielo», «Churiros», «Margartas» та десятки інших спотворень. Джерело зображень: ChatGPT Images 2.0, Microsoft Designer (DALL-E 3) / techcrunch.com
З тих пір дослідники випробували альтернативні підходи — зокрема, авторегресійні моделі, які передбачають зміст зображення і працюють за принципом, близьким до великих мовних моделей (LLM).
OpenAI не розкрила, яка архітектура лежить в основі Images 2.0. Компанія пояснила лише, що новинка вміє «міркувати» — шукати інформацію в інтернеті, генерувати кілька зображень за одним запитом і перевіряти результати. Завдяки цьому Images 2.0 створює маркетингові матеріали в різних розмірах і навіть комікси. У ШІ-моделі також покращена робота з нелатинськими шрифтами — японським, корейським, хінді та бенгальським. Однак знання Images 2.0 обмежені груднем 2025 року, що може вплинути на точність генерації за запитами про нещодавні події.
Джерело зображення: ChatGPT Images 2.0 / openai.com
«Images 2.0 виводить деталізацію та точність генерації на безпрецедентний рівень. Модель здатна продумати складну композицію і втілити її на практиці: слідувати інструкціям, зберігати задані деталі та відтворювати елементи, на яких зазвичай спотикаються генератори, — дрібний текст, піктограми, елементи інтерфейсу, насичені композиції та тонкі стилістичні обмеження, — і все це в роздільній здатності до 2K», — йдеться в прес-релізі компанії. Генерація при цьому займає більше часу, ніж звичайний текстовий запит до ChatGPT, але навіть багатопанельний комікс укладається в кілька хвилин.
Джерело зображення: ChatGPT Images 2.0 / openai.com
Доступ до Images 2.0 отримають усі користувачі ChatGPT та Codex. Платні підписники зможуть генерувати більш складні зображення. OpenAI також відкриє програмний інтерфейс (API) gpt-image-2 — вартість буде залежати від якості та роздільної здатності вихідних зображень.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Чому проблему з варикозом треба вирішувати ще до вагітності 22 апреля 2026
Лікарі наполегливо рекомендують спершу подолати варикоз, а вже потім вагітніти.
Мелоні відповіла на образи Соловйова 22 апреля 2026
На відміну від інших, ми не маємо ниток, не маємо господарів і не виконуємо наказів, заявила італійська прем'єрка.
Анонсовані смарт-годинники Oppo Watch X3 в титановому корпусі 22 апреля 2026
Компанія Oppo разом із глобальним анонсом смартфона Find X9 Ultra представила розумні годинники Watch X3. Новинка вирізняється збільшеною тривалістю автономної роботи, а також підтримкою комплексного моніторингу показників здоров'я.