3 марта 2023
Microsoft представила мультимодальную ИИ-модель Kosmos-1, способную анализировать содержание изображений, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ и понимать команды на естественном языке. Учёные считают, что создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей.
Источник изображения: 0fjd125gk87 / pixabay.com
По мнению исследователей, мультимодальное восприятие является необходимым элементом для создания AGI в контексте получения знаний и связи с реальным миром. Подробности концепции изложены в работе Language Is Not All You Need: Aligning Perception with Language Models, посвящённой структуре нового искусственного интеллекта. В работе рассказывается о том, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к иллюстрациям и проходит визуальный тест на IQ.
Источник изображения: Microsoft
Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач — именно это является конечной целью OpenAI, ключевого партнёра Microsoft в сфере ИИ. Впрочем, Kosmos-1, похоже, является проектом исключительно Microsoft. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Для понимания изображения по аналогии с ChatGPT новая система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются вычислительной машиной. В дальнейшем текст и другие элементы обрабатываются специальным декодером.
Источник изображения: Microsoft
Известно, что Microsoft тренировала Kosmos-1, используя информацию из глобальной сети. После обучения возможности системы были проверены с помощью серии тестов, включающих оценку понимания языка, генерации текстов, классификации текстов без оптического распознавания символов. Проверялась возможность описания изображений, ответов на «визуальные» вопросы и выполнения других задач. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей.
Источник изображения: Microsoft
Наибольший интерес представляет способность модели пройти тест британского психолога Джона К. Рейвена (John C. Raven), позволяющего измерить IQ, демонстрируя испытуемому последовательность форм с предложением продолжить её. Правда, пока Kosmos-1 может пройти тест Рейвена с точностью только 22‒26 %.
Источник изображения: Microsoft
В настоящий момент модель делает только первые шаги в сфере мультимодальной обработки данных, но нетрудно предположить, что дальнейшие улучшения позволят добиться намного более впечатляющих результатов, позволяя ИИ взаимодействовать с любыми формами информации, что невероятно расширит возможности цифровых ассистентов. В будущем учёные обещают масштабировать модель и добавить ей возможность вести беседы.
В Microsoft сообщили, что планируют сделать Kosmos-1 доступным сторонним разработчикам.
Хочешь узнать больше - читай отзывы
← Вернуться на предыдущую страницу
На Київщині бойову частину "Шахеда" знайшли на території приватного домогосподарства 25 ноября 2024
На Київщині бойову частину "Шахеда" знайшли на території приватного домогосподарства. Фото Мешканців регіону закликали не ігнорувати повідомлення про небезпеку
Чому коти сплять на хворому місці у людини: що це означає 25 ноября 2024
Здавна існувало повір'я, що коти можуть зцілювати від різних хвороб. Наприклад, люди завжди вірили, що ці домашні улюбленці шукають хворе місце і лягають саме на нього. За деякий час можна відчути полегшення. Тож чому коти сплять на людях - читайте про це в матеріалі ТСН.ua.
В США пригрозили країнам, що спробують заарештувати Нетаньягу 25 ноября 2024
Група сенаторів розробляє закон, що передбачає санкції проти країн, які допомагають в арешті будь-якого політика в Ізраїлі.