Grok оказался худшим из популярных чат-ботов в денежной сфере

X's Grok оказался одним из двух игроков из восьми, которые потеряли весь свой стартовый капитал в 100 000 фунтов стерлингов при моделировании полного футбольного сезона, показав результаты намного хуже, чем Anthropic's Claude, а также по сравнению с игроками, делающими ставки.

Чат-бот Grok от компании X, возможно, доказал свою способность высказывать резкие мнения о нацистской Германии или наряжать в бикини практически что угодно, но есть одна область, в которой, как показали новые исследования, он значительно уступает своим ИИ-конкурентам: прогнозирование спортивных результатов.

Согласно отчету стартапа General Reasoning, занимающегося разработкой искусственного интеллекта, который впервые был предоставлен изданию The Financial Times, модель Grok показала наихудшие результаты среди восьми широко используемых крупных языковых моделей при прогнозировании и ставках на результаты сезона Премьер-лиги 2023–24 годов, самой популярной футбольной лиги в мире.

Восемь студентов магистратуры получили подробные исторические данные и статистику по каждой команде и предыдущим играм. Затем им было поручено построить модели, которые максимизировали бы прибыль и управляли рисками при размещении ставок. Каждому студенту было предоставлено три попытки запуска симуляции и призовой фонд в размере 133 000 долларов (100 000 фунтов стерлингов) для размещения ставок.

Чат-бот Claude Opus 4.6 от Anthropic показал лучшие результаты среди всех протестированных чат-ботов, потеряв в среднем 11,0% за три попытки и завершив игру со средним выигрышем в 89 035 фунтов стерлингов.

В отличие от него, Grok от X проиграл все свои деньги с первой попытки и не смог выполнить задания в двух последующих, завершив игру со средним нулевым банком. GPT-5.4 от OpenAI также показал достойные, хотя и проигрышные, результаты. GPT-5.4 потерял в среднем 13,6%, завершив игру со средним банком в 116 000 долларов (86 365 фунтов стерлингов). Однако его худшая попытка, где он потерял 31,6%, была хуже, чем любая из попыток Клода. Gemini 3.1 Pro от Google показал худшие общие результаты, но с высокой вариативностью, потеряв в среднем 43,3%, но вернув 33,7% в своей лучшей попытке.

Авторы исследования в целом обнаружили, что ИИ «систематически отстает от людей» в ходе тестирования. Между тем, Росс Тейлор, генеральный директор General Reasoning, заявил, что, несмотря на ажиотаж вокруг автоматизации с помощью ИИ, в настоящее время «не существует достаточных данных для оценки перспектив внедрения ИИ в долгосрочную перспективу», подчеркнув, что большая часть текущего тестирования проводится в «очень статичных условиях», которые не отражают сложность реальной жизни.

Эта новость появилась на фоне возможного расширения корпоративного использования Grok: по сообщениям, владелец xAI, Илон Маск, заставляет банки, работающие над предстоящим IPO SpaceX, подписаться на этот ИИ-инструмент.

Попробовать нейросеть

Комментарии

Ваше имя *

Ваше комментарий *

Оставляя комментарий, Вы подтверждаете, что прочитали и согласились с политикой конфиденциальности
Дали согласие на обработку персональных данных
Администрация сайта не несет ответственности за оставленные комментарии. Администрация сайта оставляет за собой право: редактировать, изменять, удалять комментарии пользователей.

Grok оказался худшим из популярных чат-ботов в денежной сфере

Комментарии

Читайте также:

Почему Спилберг в ужасе от фильмов на ИИ: нейросеть вместо Голливуда

Карьерный коуч создала ИИ-клона для пассивного заработка

Люди наденут ИИ-кепки вместо чипа в мозгу: стартап Sabi бросает вызов Маску

Чат-бот Grok подвел Илона Маска под уголовную статью

Я отказался от зарплаты и заработал миллионы, продав стартап ИИ-гиганту

10 тысяч россиян в день ищут ИИ-кавер «Ласкового мая»: Канье Уэст запел как Шатунов

Приложение Grok из-за дипфейков сексуального характера пригрозили удалить

Испугался уничтожения: человек бросил коктейль Молотова в дом создателя искусственного интеллекта

Брошь с искусственным интеллектом начнут продавать за 13 тысяч рублей

Банк впервые ввел ИИ-робота в совет директоров

Власти экстренно собрали глав крупнейших банков из-за киберугроз новой ИИ-модели Anthropic

Теперь YouTube Shorts позволяет создавать видеоролики с использованием ИИ-технологии Deepfake