Grok оказался худшим из популярных чат-ботов в денежной сфере

Grok от X проиграл все деньги.

Дата публикации:
14.04.2026 11:20:49
Автор:
Кривов Александр
Время чтения:
3 мин
10
0
0
Подпишись на нас в Подпишись на нас в

X's Grok оказался одним из двух игроков из восьми, которые потеряли весь свой стартовый капитал в 100 000 фунтов стерлингов при моделировании полного футбольного сезона, показав результаты намного хуже, чем Anthropic's Claude, а также по сравнению с игроками, делающими ставки.

Чат-бот Grok от компании X, возможно, доказал свою способность высказывать резкие мнения о нацистской Германии или наряжать в бикини практически что угодно, но есть одна область, в которой, как показали новые исследования, он значительно уступает своим ИИ-конкурентам: прогнозирование спортивных результатов.

Согласно отчету стартапа General Reasoning, занимающегося разработкой искусственного интеллекта, который впервые был предоставлен изданию The Financial Times, модель Grok показала наихудшие результаты среди восьми широко используемых крупных языковых моделей при прогнозировании и ставках на результаты сезона Премьер-лиги 2023–24 годов, самой популярной футбольной лиги в мире.

Восемь студентов магистратуры получили подробные исторические данные и статистику по каждой команде и предыдущим играм. Затем им было поручено построить модели, которые максимизировали бы прибыль и управляли рисками при размещении ставок. Каждому студенту было предоставлено три попытки запуска симуляции и призовой фонд в размере 133 000 долларов (100 000 фунтов стерлингов) для размещения ставок.

Чат-бот Claude Opus 4.6 от Anthropic показал лучшие результаты среди всех протестированных чат-ботов, потеряв в среднем 11,0% за три попытки и завершив игру со средним выигрышем в 89 035 фунтов стерлингов.

В отличие от него, Grok от X проиграл все свои деньги с первой попытки и не смог выполнить задания в двух последующих, завершив игру со средним нулевым банком. GPT-5.4 от OpenAI также показал достойные, хотя и проигрышные, результаты. GPT-5.4 потерял в среднем 13,6%, завершив игру со средним банком в 116 000 долларов (86 365 фунтов стерлингов). Однако его худшая попытка, где он потерял 31,6%, была хуже, чем любая из попыток Клода. Gemini 3.1 Pro от Google показал худшие общие результаты, но с высокой вариативностью, потеряв в среднем 43,3%, но вернув 33,7% в своей лучшей попытке.

Авторы исследования в целом обнаружили, что ИИ «систематически отстает от людей» в ходе тестирования. Между тем, Росс Тейлор, генеральный директор General Reasoning, заявил, что, несмотря на ажиотаж вокруг автоматизации с помощью ИИ, в настоящее время «не существует достаточных данных для оценки перспектив внедрения ИИ в долгосрочную перспективу», подчеркнув, что большая часть текущего тестирования проводится в «очень статичных условиях», которые не отражают сложность реальной жизни.

Эта новость появилась на фоне возможного расширения корпоративного использования Grok: по сообщениям, владелец xAI, Илон Маск, заставляет банки, работающие над предстоящим IPO SpaceX, подписаться на этот ИИ-инструмент.

Комментарии


Оставляя комментарий, Вы подтверждаете, что прочитали и согласились с политикой конфиденциальности
Дали согласие на обработку персональных данных
Администрация сайта не несет ответственности за оставленные комментарии. Администрация сайта оставляет за собой право: редактировать, изменять, удалять комментарии пользователей.

Читайте также:

Банк впервые ввел ИИ-робота в совет директоров

Боту разрешили принимать решения на уровне управляющего финансами.

Власти экстренно собрали глав крупнейших банков из-за киберугроз новой ИИ-модели Anthropic

Anthropic сочла модель настолько опасной, что решила не выпускать ее в открытый доступ.

Теперь YouTube Shorts позволяет создавать видеоролики с использованием ИИ-технологии Deepfake

YouTube научился сканировать ваше лицо и голос, чтобы создавать реалистичные дипфейки.

Каждый десятый ответ Google AI Overviews заставляет пользователя верить в ложь

Google признал ненадежность собственной нейросети.

Новая модель ИИ научилась скрывать свои мысли ради совершения запрещенных действий

Новая ИИ-модель находит программные дыры, которые люди не замечали 27 лет.

В России впервые открыли биржу труда для «бездушных тварей»

Рекрутеры называют бездушными тварями ИИ-агентов за их исполнительность и отсутствие человеческого фактора.

Сэма Альтмана обвинили во лжи, пока OpenAI заманивает мир планом четырехдневки

ИИ-компания начала рекламировать переход на четырехдневную рабочую неделю.

Искусственный интеллект ломает привычный бизнес ради сверхприбылей на дефиците

Нейросети превращают ИИ-производство в жесткую борьбу между Samsung Electronics и SK Hynix.