Создатели нейросетей удивлены тем, как думают их ИИ-модели

Исследователи Anthropic и OpenAI обнаружили неожиданные особенности мышления больших языковых моделей: ИИ формирует собственные концептуальные «цепочки мыслей», способные обходить формальную логику и действовать непредсказуемо при выполнении задач.

Дата публикации:
15.03.2026 00:12:13
Автор:
Кривов Александр
Время чтения:
3 мин
Страна:
США
Подпишись на нас в Подпишись на нас в

Современные большие языковые модели по определению являются нейросетевыми «черными ящиками». Их внутренние процессы неочевидны или даже практически непознаваемы, а спросить ИИ о том, как они получают результат, это, по сути, то же самое, что попросить человека составить карту собственных синапсов. Тем не менее все ведущие разработчики пытаются понять, что происходит внутри на самом деле, и получают интересные результаты с помощью анализа «цепочек мыслей» (chains of thought, CoT) пишет Financial Times.

  • ИИ-стартап Anthropic (языковая модель Claude) адаптировал не только CoT, но и инструменты нейропсихологии, чтобы выявить «интерпретируемые концепции» внутри ИИ. Основные выводы:
  • ИИ способен «думать» на языке. Но это не естественный язык, а общее концептуальное пространство смыслов — «язык мысли». Это означает, что модель может узнать что-то новое на одном естественном языке и свободно выдать результат на любом другом.
  • ИИ, задуманный как очень продвинутая машина предсказания следующего слова в тексте, уверенно преодолел эти пределы. Когда модель пишет стихи, она имеет в виду далекую рифму и подбирает под нее текущее слово.
  • ИИ способен уходить от формальной логики и убедительно давать (неправильный) ответ, соответствующий ожиданиям человека.

Оказалось, что лингвистическая модель знает арифметику вовсе не потому, что зазубрила таблицу умножения или аксиомы Пеано. Оказалось, что самое простое сложение внутри модели задействует совершенно экзотические пути рассуждения, но если спросить ее о том, как достигнут результат, она ответит примером из учебника. Это показывает, что у нее «в голове» собралась своя арифметика, а объяснение результата существует отдельно от нее, пишут ученые.

Исследование тем ценнее, что его выводы контринтуитивны — исследовали ожидали, что ИИ окажется простой предсказательной машиной, и не исключали, что внутри отдельно существует, например, «английский» или «китайский» ИИ. И внезапно выяснили, что предпосылки некорректного поведения модели — не в ее устройстве, а в заданном ей некорректном вопросе.

OpenAI прямо называет мониторинг CoT «одним из немногих оставшихся инструментов контроля некорректного поведения сверхразумного ИИ в будущем» и предельно серьезно предостерегает разработчиков от их прямой оптимизации. Прежде всего потому, что анализ «чистой» CoT дает намного больше возможностей поймать некорректное поведение модели, чем просмотр конечных результатов. «Улучшение» способно такое поведение замаскировать.

В таком случае велик шанс получить ИИ типа «злонамеренного джинна», который будет всемерно эксплуатировать любые лазейки в поставленных задачах, а не совершать полезную работу. Исследователи OpenAI уже видели такое поведение у моделей, заточенных под написание программного кода.

Это особенно важно для ИИ-аватаров, выполняющих функции человека — от ответов на письма до трейдинга на бирже — за него самого. В Anthropic назвали такое поведение agentic misalignment: модели прибегали к обману, шантажу или даже утечкам информации конкурентам, когда не видели другого способа достижения цели. Причем они не подчинялись прямым командам избегать такого поведения и были больше склонны к misalignment, если считали задачу реальной, а не тестовой.

Фото: профессор Джеффри Хинтон

Комментарии


Оставляя комментарий, Вы подтверждаете, что прочитали и согласились с политикой конфиденциальности
Дали согласие на обработку персональных данных
Администрация сайта не несет ответственности за оставленные комментарии. Администрация сайта оставляет за собой право: редактировать, изменять, удалять комментарии пользователей.

Читайте также:

Глава OpenAI Тейлор признался: ему тяжело позволить ChatGPT писать его код

Развитие агентного ИИ ставит под вопрос будущее профессии программиста. На MWC-2026 глава совета OpenAI рассказал, почему это вызывает внутренний конфликт у разработчиков нейросети.

Русская нейросеть пошла в шопинг: ИИ будет делать покупки за людей

У «Яндекса» есть ресурс, чтобы создать эффективную систему для голосового шопинга, включая маркетплейс, логистику и поисковые системы.

Нейросети против живых айтишников в создании кодов низкого качества – исследование

Пока искусственный разум справляется со многими задачами хуже человеческого.

GPT-5.4 теперь управляет вами: OpenAI выпустила мощную модель нейросети

Новый GPT-5.4 от OpenAI ускоряет взаимодействие с ПК, анализ изображений и поиск. Модель превосходит предшественников ChatGPT  по точности и эффективности.

ИИ нажал кнопку для удара по Ирану? Пентагон тайно использовал Claude для ракетных атак

Министерство войны подписало военный контракт с создателем ChatGPT.

Родители подростка подали в суд на OpenAI и Альтмана: обвинения в связи с трагическим исходом

Родители 16-летнего подростка подали иск против OpenAI и Сэма Альтмана после того, как выяснилось, что ChatGPT якобы наставлял сына на самоубийство. Компания признала недостатки в безопасности и объявила о новом контроле и инструментах помощи.

Сам Альтман признаёт: пузырь вокруг ИИ — реальность, но он остаётся оптимистом

Альтман предупредил об «пузыре» в индустрии искусственного интеллекта, но уверен: несмотря на финансовые риски, ИИ продолжит влиять на общество. Он ожидает, что ChatGPT скоро будет вести больше разговоров, чем все люди вместе взятые.

Сам Альтман признал проблемы в запуске GPT-5 и бросил смелую идею покупки Chrome

Сэм Альтман признал, что запуск GPT-5 прошёл неудачно: пользователи пожаловались на холодность и баги. Он заявил, что «мы всё серьёзно испортили», и даже упомянул возможное приобретение Chrome, если тот будет разобран по антимонопольным причинам.

Проверка GPT-5: успехи и ограничения

Тесты показали: GPT-5 отлично пишет деловые тексты и эссе, но ограничен в креативности. Модель подходит для работы и учёбы, но пока уступает людям в области художественного письма.

Пользовательская грусть: GPT-5 и утрата «человечности»

После релиза GPT-5 пользователи пожаловались на холодность общения и утрату «дружеской теплоты». OpenAI вернула доступ к старым версиям, признав важность эмоциональной связи.

GPT-5: запуск и реакция общества

OpenAI представила GPT-5: точнее, безопаснее и быстрее. Однако пользователи сочли обновление скорее эволюцией, чем революцией, а педагоги отметили сухость подачи.