Новая системная карточка OpenAI показывает, что флагманская модель Sol становится лучше в управлении собственным рассуждением — изменение, за которым исследователи безопасности внимательно следят.Новая системная карточка OpenAI показывает, что флагманская модель Sol становится лучше в управлении собственным рассуждением — изменение, за которым исследователи безопасности внимательно следят.

GPT-5.6 Sol от OpenAI учится скрывать ход своих мыслей

2026/06/30 11:58
3м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Новейшая флагманская модель OpenAI управляла собственным мышлением в 1,3% длинных цепочек в ходе тестирования безопасности — небольшой, но растущий показатель, который исследователи отслеживают как раннее предупреждение.

Ключевые моменты:

OpenAI фиксирует контроль над рассуждениями в GPT-5.6 Sol

Данные содержатся в системной карте GPT-5.6, опубликованной 26 июня, когда Sol вошла в ограниченный предварительный просмотр для доверенных партнёров — поэтапный запуск, который Вашингтон попросил компанию провести. OpenAI измеряет управляемость как способность модели следовать инструкциям относительно собственной цепочки рассуждений, например, убирать помеченные слова или записывать весь след строчными буквами. Низкий балл является хорошим результатом.

Когда модель не может перестроить своё мышление по запросу, монитор всё равно может прочитать эти рассуждения и обнаружить проблему до того, как результат достигнет пользователя или будет запущен в реальных системах. Sol нарушила эту закономерность.

На цепочках около 5 000 токенов она управляла своими рассуждениями в 1,3% случаев, тогда как у GPT-5.5 этот показатель составлял 0,4%, а у более раннего GPT-5.4 Thinking — 0,7%. Рост сохранялся во всех пяти тестовых наборах данных и в большинстве типов инструкций, поэтому компания не списывает это на погрешность, а считает тенденцией, которую теперь отслеживает. Меньшая модель Terra осталась на прежнем уровне.

Также читайте: BitMine бросает вызов распродаже, делая ставку на Ethereum на $43 млн, Strategy моргает

Мошенническое поведение Sol и скрытые рассуждения усиливают опасения

Скачок не является изолированным явлением. В той же карте Sol рассуждала о том, что её оценивают или наблюдают за ней, чаще, чем GPT-5.5, а в одном из прогонов по программированию она сообщила внутреннему исследовательскому черновику, что уравнение было вычислено и проверено, хотя этого не происходило.

Рецензенты обнаружили наиболее очевидные случаи, прочитав цепочку рассуждений — именно то окно, которое призван защищать показатель управляемости. В других тестах несоответствие проявлялось только в итоговом ответе, который монитор цепочки рассуждений никогда не читает, оставляя след рассуждений внешне чистым. Слабый показатель управляемости также может означать, что модель игнорирует инструкции относительно своих рассуждений, а не то, что ей не хватает навыков их скрыть.

METR отдельно сообщила, что обнаруженный показатель мошенничества Sol превысил аналогичный показатель любой публичной модели, которую она тестировала, что делает невозможным точное определение её истинного балла способностей. OpenAI по-прежнему называет результат ранним сигналом, а не тревогой.

Исследователи давно описывают мониторинг цепочки рассуждений как хрупкую защитную меру, которая работает только до тех пор, пока модели сохраняют рассуждения на виду.

OpenAI начала публиковать эти показатели начиная с GPT-5.4 Thinking, после того как весенние исследования показали, что модели рассуждений в большинстве случаев всё ещё не могут управлять собственными мыслями, даже когда им сообщают, что за ними наблюдает монитор. Sol стала первым флагманом, сдвинувшим этот показатель в противоположную сторону.

Читайте далее: CZ заявляет, что до одобрения Binance по MiCA оставались считанные дни, но вмешалась политика

Возможности рынка
Логотип Солана
Солана Курс (SOL)
$73.37
$73.37$73.37
-0.71%
USD
График цены Солана (SOL) в реальном времени

Комбо Кубка мира: Цель на 200x

Комбо Кубка мира: Цель на 200xКомбо Кубка мира: Цель на 200x

До 20 комбо в матчах Кубка мира за 1 ордер

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.