3 марта 2023
Microsoft представила мультимодальную ИИ-модель Kosmos-1, способную анализировать содержание изображений, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ и понимать команды на естественном языке. Учёные считают, что создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей.
Источник изображения: 0fjd125gk87 / pixabay.com
По мнению исследователей, мультимодальное восприятие является необходимым элементом для создания AGI в контексте получения знаний и связи с реальным миром. Подробности концепции изложены в работе Language Is Not All You Need: Aligning Perception with Language Models, посвящённой структуре нового искусственного интеллекта. В работе рассказывается о том, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к иллюстрациям и проходит визуальный тест на IQ.
Источник изображения: Microsoft
Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач — именно это является конечной целью OpenAI, ключевого партнёра Microsoft в сфере ИИ. Впрочем, Kosmos-1, похоже, является проектом исключительно Microsoft. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Для понимания изображения по аналогии с ChatGPT новая система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются вычислительной машиной. В дальнейшем текст и другие элементы обрабатываются специальным декодером.
Источник изображения: Microsoft
Известно, что Microsoft тренировала Kosmos-1, используя информацию из глобальной сети. После обучения возможности системы были проверены с помощью серии тестов, включающих оценку понимания языка, генерации текстов, классификации текстов без оптического распознавания символов. Проверялась возможность описания изображений, ответов на «визуальные» вопросы и выполнения других задач. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей.
Источник изображения: Microsoft
Наибольший интерес представляет способность модели пройти тест британского психолога Джона К. Рейвена (John C. Raven), позволяющего измерить IQ, демонстрируя испытуемому последовательность форм с предложением продолжить её. Правда, пока Kosmos-1 может пройти тест Рейвена с точностью только 22‒26 %.
Источник изображения: Microsoft
В настоящий момент модель делает только первые шаги в сфере мультимодальной обработки данных, но нетрудно предположить, что дальнейшие улучшения позволят добиться намного более впечатляющих результатов, позволяя ИИ взаимодействовать с любыми формами информации, что невероятно расширит возможности цифровых ассистентов. В будущем учёные обещают масштабировать модель и добавить ей возможность вести беседы.
В Microsoft сообщили, что планируют сделать Kosmos-1 доступным сторонним разработчикам.
Хочешь узнать больше - читай отзывы
← Вернуться на предыдущую страницу
Якісний лінолеум – краще рішення для бюджетного ремонту! 18 апреля 2025
Побутовий лінолеум має кілька суттєвих переваг, які роблять його популярним вибором для житлових приміщень
Значение бытовой химии в современном доме 11 апреля 2025
Бытовая химия остается одним из самых востребованных сегментов на потребительском рынке. Это обширная категория, включающая моющие гели, стиральные порошки, средства для стекла, для пола, для кухни, для туалета
Розкладні кутові дивани: плюси, мінуси та найкращі моделі 10 апреля 2025
Розкладні кутові дивани стали невід’ємною частиною сучасних інтер’єрів, поєднуючи функціональність і стильний дизайн. Їхня популярність зумовлена здатністю ефективно використовувати простір