Microsoft представила Kosmos-1 — ИИ, который понимает текст с картинками и решает головоломки

3 марта 2023

Microsoft представила мультимодальную ИИ-модель Kosmos-1, способную анализировать содержание изображений, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ и понимать команды на естественном языке. Учёные считают, что создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей.

Источник изображения: 0fjd125gk87/pixabay.com

Источник изображения: 0fjd125gk87 / pixabay.com

По мнению исследователей, мультимодальное восприятие является необходимым элементом для создания AGI в контексте получения знаний и связи с реальным миром. Подробности концепции изложены в работе Language Is Not All You Need: Aligning Perception with Language Models, посвящённой структуре нового искусственного интеллекта. В работе рассказывается о том, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к иллюстрациям и проходит визуальный тест на IQ.

Источник изображения: Microsoft

Источник изображения: Microsoft

Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач — именно это является конечной целью OpenAI, ключевого партнёра Microsoft в сфере ИИ. Впрочем, Kosmos-1, похоже, является проектом исключительно Microsoft. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Для понимания изображения по аналогии с ChatGPT новая система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются вычислительной машиной. В дальнейшем текст и другие элементы обрабатываются специальным декодером.

Источник изображения: Microsoft

Источник изображения: Microsoft

Известно, что Microsoft тренировала Kosmos-1, используя информацию из глобальной сети. После обучения возможности системы были проверены с помощью серии тестов, включающих оценку понимания языка, генерации текстов, классификации текстов без оптического распознавания символов. Проверялась возможность описания изображений, ответов на «визуальные» вопросы и выполнения других задач. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей.

Источник изображения: Microsoft

Источник изображения: Microsoft

Наибольший интерес представляет способность модели пройти тест британского психолога Джона К. Рейвена (John C. Raven), позволяющего измерить IQ, демонстрируя испытуемому последовательность форм с предложением продолжить её. Правда, пока Kosmos-1 может пройти тест Рейвена с точностью только 22‒26 %.

Источник изображения: Microsoft

Источник изображения: Microsoft

В настоящий момент модель делает только первые шаги в сфере мультимодальной обработки данных, но нетрудно предположить, что дальнейшие улучшения позволят добиться намного более впечатляющих результатов, позволяя ИИ взаимодействовать с любыми формами информации, что невероятно расширит возможности цифровых ассистентов. В будущем учёные обещают масштабировать модель и добавить ей возможность вести беседы.

В Microsoft сообщили, что планируют сделать Kosmos-1 доступным сторонним разработчикам.

3dnews

Хочешь узнать больше - читай отзывы

← Вернуться на предыдущую страницу

Читайте также:

Meta не змогла уникнути чергового позову щодо залежності підлітків від соціальних мереж 12 апреля 2026

Сьогодні Верховний суд штату Массачусетс постановив, що соціальна мережа Instagram спеціально розроблена компанією Meta, щоб викликати залежність у дітей та підлітків. Це один з тисяч позовів, поданих приватними особами, муніципалітетами, штатами та шкільними округами по всій країні з метою притягнення Meta та інших соціальних платформ до відповідальності за навмисне формування залежності у молодих користувачів.

Трамп заявив, що Іран "не має карт" у переговорах 12 апреля 2026

Президент США використав улюблену метафору з "картами", висловлюючи сумнів у здатності Тегерана протиставити щось Вашингтону.

Уряд США запропонував професійним геймерам стати справжніми авіадиспетчерами 12 апреля 2026

Федеральне управління цивільної авіації (Federal Aviation Administration, FAA) та Міністерство транспорту США сьогодні запустили рекламну кампанію, спрямовану на залучення геймерів до роботи авіадиспетчерами, що є вирішальним для забезпечення безпеки повітряного простору країни. В середньому авіадиспетчери обслуговують близько 45 000 рейсів на день.

 

Вас могут заинтересовать эти отзывы

Unitedboxingacademy 5.0
Unitedboxingacademy

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше