X's Grok оказался одним из двух игроков из восьми, которые потеряли весь свой стартовый капитал в 100 000 фунтов стерлингов при моделировании полного футбольного сезона, показав результаты намного хуже, чем Anthropic's Claude, а также по сравнению с игроками, делающими ставки.
Чат-бот Grok от компании X, возможно, доказал свою способность высказывать резкие мнения о нацистской Германии или наряжать в бикини практически что угодно, но есть одна область, в которой, как показали новые исследования, он значительно уступает своим ИИ-конкурентам: прогнозирование спортивных результатов.
Согласно отчету стартапа General Reasoning, занимающегося разработкой искусственного интеллекта, который впервые был предоставлен изданию The Financial Times, модель Grok показала наихудшие результаты среди восьми широко используемых крупных языковых моделей при прогнозировании и ставках на результаты сезона Премьер-лиги 2023–24 годов, самой популярной футбольной лиги в мире.
Восемь студентов магистратуры получили подробные исторические данные и статистику по каждой команде и предыдущим играм. Затем им было поручено построить модели, которые максимизировали бы прибыль и управляли рисками при размещении ставок. Каждому студенту было предоставлено три попытки запуска симуляции и призовой фонд в размере 133 000 долларов (100 000 фунтов стерлингов) для размещения ставок.
Чат-бот Claude Opus 4.6 от Anthropic показал лучшие результаты среди всех протестированных чат-ботов, потеряв в среднем 11,0% за три попытки и завершив игру со средним выигрышем в 89 035 фунтов стерлингов.
В отличие от него, Grok от X проиграл все свои деньги с первой попытки и не смог выполнить задания в двух последующих, завершив игру со средним нулевым банком. GPT-5.4 от OpenAI также показал достойные, хотя и проигрышные, результаты. GPT-5.4 потерял в среднем 13,6%, завершив игру со средним банком в 116 000 долларов (86 365 фунтов стерлингов). Однако его худшая попытка, где он потерял 31,6%, была хуже, чем любая из попыток Клода. Gemini 3.1 Pro от Google показал худшие общие результаты, но с высокой вариативностью, потеряв в среднем 43,3%, но вернув 33,7% в своей лучшей попытке.
Авторы исследования в целом обнаружили, что ИИ «систематически отстает от людей» в ходе тестирования. Между тем, Росс Тейлор, генеральный директор General Reasoning, заявил, что, несмотря на ажиотаж вокруг автоматизации с помощью ИИ, в настоящее время «не существует достаточных данных для оценки перспектив внедрения ИИ в долгосрочную перспективу», подчеркнув, что большая часть текущего тестирования проводится в «очень статичных условиях», которые не отражают сложность реальной жизни.
Эта новость появилась на фоне возможного расширения корпоративного использования Grok: по сообщениям, владелец xAI, Илон Маск, заставляет банки, работающие над предстоящим IPO SpaceX, подписаться на этот ИИ-инструмент.











