Alibaba випустила ШІ-моделі, які можуть розпізнавати зображення та вести діалог

26 августа 2023

Китайський технологічний гігант Alibaba представив дві мовні моделі - Qwen Large Vision Language Model (Qwen-VL) і Qwen-VL-Chat - демонструють розширені можливості інтерпретації зображень та ведення діалогів природною мовою. Враховуючи зростаючий попит на доступ до передових ІІ-алгоритмів, поява мовних моделей Alibaba може виявитися досить своєчасною.

Источник изображения: maginative.com

Джерело зображення: maginative.com
Представлені мовні моделі не обмежуються розумінням текстових повідомлень. Qwen-VL здатний сприймати і розуміти зображення, текст і дотримуватися обмежень. Алгоритм може обробляти запити, пов'язані з різними зображеннями, та генерувати відповіді на них. Qwen-VL-Chat призначений для більш складної взаємодії. Наприклад, може порівнювати кілька зображень, відповідати на серії питань, писати історії з урахуванням наданих користувачем картинок. Наприклад, користувач може запитати ІІ про місцезнаходження лікарні по фото її вивіски та отримати точну відповідь на це питання.
Одна з переваг представлених мовних моделей полягає в тому, що вони працюють із високою точністю. За даними Alibaba, Qwen-VL значно перевершує існуючі схожі мовні моделі з відкритим вихідним кодом за декількома критеріями оцінки англійської мови. Алгоритм також підтримує нову функцію «спілкування з чергуванням кількох зображень», яка припускає, що користувач надасть ІІ кілька зображень, після чого ставитиме пов'язані з ними питання.
Використовуючи стандартні зразки, фахівці Alibaba оцінили можливості нових алгоритмів при виконанні різних завдань, починаючи від генерації коментарів до зображень та закінчуючи відповідями на запитання щодо завантажених знімків. Обидві моделі також тестувалися за розробленим в Alibaba еталоном, який ґрунтується на оцінці GPT-4 для визначення діалогових можливостей та відповідності людському сприйняттю. Зазначається, що Qwen-VL та Qwen-VL-Chat досягли найкращих результатів у різних категоріях.
Alibaba стала однією з перших китайських компаній, що представили конкурентоспроможну систему генеративного ІІ, що свідчить про швидкий прогрес досліджень у сфері нейромереж у Піднебесній. Випускаючи моделі з відкритим вихідним кодом, Alibaba гарантує, що дослідники, вчені та компанії по всьому світу зможуть використовувати їх для створення власних програм, не вдаючись до трудомісткого та дорогого процесу навчання нейромереж з нуля.
Джерело зображення: maginative.com
Представлені мовні моделі не обмежуються розумінням текстових повідомлень. Qwen-VL здатний сприймати і розуміти зображення, текст і дотримуватися обмежень. Алгоритм може обробляти запити, пов'язані з різними зображеннями, та генерувати відповіді на них. Qwen-VL-Chat призначений для більш складної взаємодії. Наприклад, може порівнювати кілька зображень, відповідати на серії питань, писати історії з урахуванням наданих користувачем картинок. Наприклад, користувач може запитати ІІ про місцезнаходження лікарні по фото її вивіски та отримати точну відповідь на це питання.
Одна з переваг представлених мовних моделей полягає в тому, що вони працюють із високою точністю. За даними Alibaba, Qwen-VL значно перевершує існуючі схожі мовні моделі з відкритим вихідним кодом за декількома критеріями оцінки англійської мови. Алгоритм також підтримує нову функцію «спілкування з чергуванням кількох зображень», яка припускає, що користувач надасть ІІ кілька зображень, після чого ставитиме пов'язані з ними питання.
Використовуючи стандартні зразки, фахівці Alibaba оцінили можливості нових алгоритмів при виконанні різних завдань, починаючи від генерації коментарів до зображень та закінчуючи відповідями на запитання щодо завантажених знімків. Обидві моделі також тестувалися за розробленим в Alibaba еталоном, який ґрунтується на оцінці GPT-4 для визначення діалогових можливостей та відповідності людському сприйняттю. Зазначається, що Qwen-VL та Qwen-VL-Chat досягли найкращих результатів у різних категоріях.

Alibaba стала однією з перших китайських компаній, що представили конкурентоспроможну систему генеративного ІІ, що свідчить про швидкий прогрес досліджень у сфері нейромереж у Піднебесній. Випускаючи моделі з відкритим вихідним кодом, Alibaba гарантує, що дослідники, вчені та компанії по всьому світу зможуть використовувати їх для створення власних програм, не вдаючись до трудомісткого та дорогого процесу навчання нейромереж з нуля.

 

← Вернуться на предыдущую страницу

Читайте также:

Очевидці розповіли деталі атаки армії Росії по Києву 4 мая 2025

"Через вибиті вікна побачили, що горить будинок": очевидці розповіли деталі атаки армії Росії по Києву Через удари російських дронів руйнування та пожежі виникли у трьох районах міста

У Краснодарському краї РФ чотири дні горять плавні 4 мая 2025

У Щербинівському районі продовжують горіти плавні та береги річок - димом заволокло все довкола, місцеві жителі задихаються, пишеть російські пабліки.

У Швейцарії побудували вантажного робота LEVA, який їздить, ходить, завантажується та розвантажується 4 мая 2025

У Швейцарії побудували вантажного робота LEVA, який їздить, ходить, завантажується та розвантажується

 

Вас могут заинтересовать эти отзывы

Коло - Аритейл 5.0
Коло - Аритейл

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше