3 марта 2023
Microsoft представила мультимодальную ИИ-модель Kosmos-1, способную анализировать содержание изображений, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ и понимать команды на естественном языке. Учёные считают, что создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей.
Источник изображения: 0fjd125gk87 / pixabay.com
По мнению исследователей, мультимодальное восприятие является необходимым элементом для создания AGI в контексте получения знаний и связи с реальным миром. Подробности концепции изложены в работе Language Is Not All You Need: Aligning Perception with Language Models, посвящённой структуре нового искусственного интеллекта. В работе рассказывается о том, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к иллюстрациям и проходит визуальный тест на IQ.
Источник изображения: Microsoft
Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач — именно это является конечной целью OpenAI, ключевого партнёра Microsoft в сфере ИИ. Впрочем, Kosmos-1, похоже, является проектом исключительно Microsoft. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Для понимания изображения по аналогии с ChatGPT новая система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются вычислительной машиной. В дальнейшем текст и другие элементы обрабатываются специальным декодером.
Источник изображения: Microsoft
Известно, что Microsoft тренировала Kosmos-1, используя информацию из глобальной сети. После обучения возможности системы были проверены с помощью серии тестов, включающих оценку понимания языка, генерации текстов, классификации текстов без оптического распознавания символов. Проверялась возможность описания изображений, ответов на «визуальные» вопросы и выполнения других задач. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей.
Источник изображения: Microsoft
Наибольший интерес представляет способность модели пройти тест британского психолога Джона К. Рейвена (John C. Raven), позволяющего измерить IQ, демонстрируя испытуемому последовательность форм с предложением продолжить её. Правда, пока Kosmos-1 может пройти тест Рейвена с точностью только 22‒26 %.
Источник изображения: Microsoft
В настоящий момент модель делает только первые шаги в сфере мультимодальной обработки данных, но нетрудно предположить, что дальнейшие улучшения позволят добиться намного более впечатляющих результатов, позволяя ИИ взаимодействовать с любыми формами информации, что невероятно расширит возможности цифровых ассистентов. В будущем учёные обещают масштабировать модель и добавить ей возможность вести беседы.
В Microsoft сообщили, что планируют сделать Kosmos-1 доступным сторонним разработчикам.
Хочешь узнать больше - читай отзывы
← Вернуться на предыдущую страницу
Орбан почав збір підписів проти "військового плану" ЄС 12 октября 2025
Прем'єр залякує угорців планом оборони ЄС; в його інтерпретації: "Європа платить, українці воюють, а РФ буде виснажена".
В Україні створять два центри ядерної медицини для ранньої діагностики раку 12 октября 2025
Медичні закупівлі України придбали два комплекти високотехнологічного обладнання для створення центрів ядерної медицини. Вони призначені для виробництва...
Chrome сам буде блокувати сповіщення з сайтів, які користувач ігнорує 12 октября 2025
Розробники з Google додали нову функцію у свій фірмовий браузер Chrome для Android та ПК. Йдеться про автоматичне відключення сповіщень з веб-сайтів, які користувач ігнорує. Раніше функція перевірки безпеки інтернет-оглядача Google навчилася виконувати аналогічні дії при запиті доступу до камери та даних про місцезнаходження пристрою.