12 апреля 2026
Моделі штучного інтелекту від Google, OpenAI, Anthropic та xAI втратили віртуальні гроші, роблячи ставки на футбольні матчі протягом сезону англійської Прем'єр-ліги в рамках експерименту, проведеного стартапом General Reasoning. Результати дослідження показують, що навіть передові системи стикаються з труднощами при аналізі подій реального світу в довгостроковій перспективі, пише Financial Times.
Джерело зображення: Sven Kucinic / unsplash.com
Дослідники зі стартапу General Reasoning опублікували результати проекту KellyBench — його підсумки, на їхню думку, підтверджують, що ШІ може успішно вирішувати такі завдання, як написання програмного коду, але він не здатний орієнтуватися у багатьох інших аспектах реального людського життя. У рамках експерименту компанія протестувала вісім найкращих систем ШІ у віртуальній реконструкції сезону Прем'єр-ліги 2023–2024 років, надавши їм детальну статистику по кожній команді та попереднім іграм. ШІ було доручено сформувати моделі, за допомогою яких можна отримувати максимальний прибуток і управляти ризиками.
Умовні ШІ-агенти робили ставки на результати матчів та кількість забитих голів, щоб перевірити, чи здатен ШІ адаптуватися до нових подій та оновлюваних у міру розвитку сезону даних про гравців. Доступу до інтернету у моделей ШІ в рамках експерименту не було, і у кожної моделі було по три спроби заробити. Найкраще проявив себе Anthropic Claude Opus 4.6 зі середнім збитком 11 % і майже беззбитковістю в одній з спроб. Чат-бот xAI Grok 4.20 відразу збанкрутував і не зміг завершити дві залишені спроби; Google Gemini 3.1 Pro отримав прибуток у 34 % у першій спробі та збанкрутував у другій. В результаті кожна з передових моделей втрачала гроші протягом сезону, і багато з них просто збанкрутували, зазначили дослідники — у цій задачі ШІ явно проявив себе гірше за людину.
Результати експерименту, підкреслюють його автори, вказують на те, що побоювання громадськості щодо витіснення людини ШІ поки безпідставні, і в довгостроковій перспективі ШІ поки не здатен. Багато з бенчмарків, у яких оцінюються моделі, описують «дуже статичні умови», які мають не так багато спільного з хаосом і складністю реального світу. І якщо ШІ досягає успіху в написанні програмного коду, то в багатьох інших видах людської діяльності він все ще безкорисний.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
У РФ заявили, що не збираються йти із Західної півкулі 12 апреля 2026
Усупереч Вашингтону, Москва не збирається послаблювати свою присутність у Латинській Америці, зокрема на Кубі.
За перші п'ять років буму штучного інтелекту попит на пам'ять виросте в 625 разів, як вважає голова Dell 12 апреля 2026
Зазвичай учасники ринку комп'ютерного обладнання роблять прогнози щодо динаміки цін на пам'ять та термінів збереження її дефіциту, але засновник компанії Dell Майкл Делл вирішив оцінити приріст ринку пам'яті протягом перших п'яти років з моменту появи ChatGPT. Він вважає, що попит на пам'ять з 2022 по 2028 роки зросте в 625 разів.
Вважалися невиліковними: як ШІ відкриває нові методи лікування 12 апреля 2026
Вважалися невиліковними: як ШІ відкриває нові методи лікування