12 апреля 2026
Моделі штучного інтелекту від Google, OpenAI, Anthropic та xAI втратили віртуальні гроші, роблячи ставки на футбольні матчі протягом сезону англійської Прем'єр-ліги в рамках експерименту, проведеного стартапом General Reasoning. Результати дослідження показують, що навіть передові системи стикаються з труднощами при аналізі подій реального світу в довгостроковій перспективі, пише Financial Times.
Джерело зображення: Sven Kucinic / unsplash.com
Дослідники зі стартапу General Reasoning опублікували результати проекту KellyBench — його підсумки, на їхню думку, підтверджують, що ШІ може успішно вирішувати такі завдання, як написання програмного коду, але він не здатний орієнтуватися у багатьох інших аспектах реального людського життя. У рамках експерименту компанія протестувала вісім найкращих систем ШІ у віртуальній реконструкції сезону Прем'єр-ліги 2023–2024 років, надавши їм детальну статистику по кожній команді та попереднім іграм. ШІ було доручено сформувати моделі, за допомогою яких можна отримувати максимальний прибуток і управляти ризиками.
Умовні ШІ-агенти робили ставки на результати матчів та кількість забитих голів, щоб перевірити, чи здатен ШІ адаптуватися до нових подій та оновлюваних у міру розвитку сезону даних про гравців. Доступу до інтернету у моделей ШІ в рамках експерименту не було, і у кожної моделі було по три спроби заробити. Найкраще проявив себе Anthropic Claude Opus 4.6 зі середнім збитком 11 % і майже беззбитковістю в одній з спроб. Чат-бот xAI Grok 4.20 відразу збанкрутував і не зміг завершити дві залишені спроби; Google Gemini 3.1 Pro отримав прибуток у 34 % у першій спробі та збанкрутував у другій. В результаті кожна з передових моделей втрачала гроші протягом сезону, і багато з них просто збанкрутували, зазначили дослідники — у цій задачі ШІ явно проявив себе гірше за людину.
Результати експерименту, підкреслюють його автори, вказують на те, що побоювання громадськості щодо витіснення людини ШІ поки безпідставні, і в довгостроковій перспективі ШІ поки не здатен. Багато з бенчмарків, у яких оцінюються моделі, описують «дуже статичні умови», які мають не так багато спільного з хаосом і складністю реального світу. І якщо ШІ досягає успіху в написанні програмного коду, то в багатьох інших видах людської діяльності він все ще безкорисний.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
КНДР прийняла на озброєння перший есмінець майбутнього ядерного флоту 24 июня 2026
Країна планує протягом наступних п'яти років щороку будувати по два кораблі, які за розмірами перевищуватимуть новий есмінець.
Nothing готує найдоступніший смартфон у своїй лінійці: названо дату анонсу 24 июня 2026
Nothing готує найдоступніший смартфон у своїй лінійці: названо дату анонсу
Xiaomi випустила навушники з ANC, які дешевші за AirPods Pro 24 июня 2026
Xiaomi випустила навушники з ANC, які дешевші за AirPods Pro