12 апреля 2026
Моделі штучного інтелекту від Google, OpenAI, Anthropic та xAI втратили віртуальні гроші, роблячи ставки на футбольні матчі протягом сезону англійської Прем'єр-ліги в рамках експерименту, проведеного стартапом General Reasoning. Результати дослідження показують, що навіть передові системи стикаються з труднощами при аналізі подій реального світу в довгостроковій перспективі, пише Financial Times.
Джерело зображення: Sven Kucinic / unsplash.com
Дослідники зі стартапу General Reasoning опублікували результати проекту KellyBench — його підсумки, на їхню думку, підтверджують, що ШІ може успішно вирішувати такі завдання, як написання програмного коду, але він не здатний орієнтуватися у багатьох інших аспектах реального людського життя. У рамках експерименту компанія протестувала вісім найкращих систем ШІ у віртуальній реконструкції сезону Прем'єр-ліги 2023–2024 років, надавши їм детальну статистику по кожній команді та попереднім іграм. ШІ було доручено сформувати моделі, за допомогою яких можна отримувати максимальний прибуток і управляти ризиками.
Умовні ШІ-агенти робили ставки на результати матчів та кількість забитих голів, щоб перевірити, чи здатен ШІ адаптуватися до нових подій та оновлюваних у міру розвитку сезону даних про гравців. Доступу до інтернету у моделей ШІ в рамках експерименту не було, і у кожної моделі було по три спроби заробити. Найкраще проявив себе Anthropic Claude Opus 4.6 зі середнім збитком 11 % і майже беззбитковістю в одній з спроб. Чат-бот xAI Grok 4.20 відразу збанкрутував і не зміг завершити дві залишені спроби; Google Gemini 3.1 Pro отримав прибуток у 34 % у першій спробі та збанкрутував у другій. В результаті кожна з передових моделей втрачала гроші протягом сезону, і багато з них просто збанкрутували, зазначили дослідники — у цій задачі ШІ явно проявив себе гірше за людину.
Результати експерименту, підкреслюють його автори, вказують на те, що побоювання громадськості щодо витіснення людини ШІ поки безпідставні, і в довгостроковій перспективі ШІ поки не здатен. Багато з бенчмарків, у яких оцінюються моделі, описують «дуже статичні умови», які мають не так багато спільного з хаосом і складністю реального світу. І якщо ШІ досягає успіху в написанні програмного коду, то в багатьох інших видах людської діяльності він все ще безкорисний.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Наречена Роналду в діамантах та сукні-футлярі з люверсами поласувала піцою у Нью-Йорку. Фото 3 мая 2026
Наречена португальського футболіста Кріштіану Роналду, Джорджина Родрігес з діамантовим кольє та у брендовій сукні поласувала нью-йоркською піцою в авто. Деталі читайте тут.
Названо найкращий сніданок для вашого імунітету 3 мая 2026
Якщо хочете підняти імунітет, тоді варто снідати висівками.
Машину несло боком: у Києві водій напідпитку на великій швидкості врізався в дві автівки й ледь зміг зупинитися. Фото, відео На місце прибула поліція