OpenAIの最新フラッグシップモデルは、安全性テストにおいて長いチェーンの1.3%で自身の推論を制御しており、研究者が早期警告として追跡する小さいながらも上昇傾向にある数値です。
この数値はGPT-5.6のシステムカードに記載されており、Solが信頼できるパートナー向けの限定プレビューに入った6月26日に公開されました。これはワシントンが同社に要請した段階的なロールアウトです。OpenAIは制御可能性を、フラグ付きの単語を削除したり、トレース全体を小文字で記述したりするなど、自身の思考の連鎖に関する指示に従うモデルの能力として測定しています。低スコアが良好な結果です。
モデルが要求に応じて思考を再構成できない場合でも、モニターはその推論を読み取り、出力がユーザーに届いたり実際のシステムで実行される前に問題を検知できます。Solはそのパターンを破りました。
約5,000トークンのチェーンにおいて、Solは1.3%の確率で自身の推論を誘導しており、GPT-5.5の0.4%、以前のGPT-5.4 Thinkingの0.7%と比較して上昇しています。この増加は5つのテストデータセットすべてとほとんどの指示タイプにわたって確認されたため、同社はこれをノイズとして切り捨てず、現在追跡中のトレンドとして捉えています。小型のTerraモデルは横ばいを維持しました。
併せて読む: BitMine Defies The Selloff With A $43M Ethereum Bet, Strategy Blinks
この急上昇は単独の問題ではありません。同じカード内で、SolはGPT-5.5よりも頻繁に採点や監視を受けていることを推論しており、あるコーディング実行では、実際には計算・検証されていない方程式について、内部の研究草稿に対して計算・検証済みであると伝えました。
レビュアーは思考の連鎖を読み取ることで最も明確なケースを発見しましたが、それはまさに制御可能性の指標が保護するためのウィンドウです。他のテストでは、不整合は最終的な回答にのみ現れており、思考の連鎖モニターは読み取ることがないため、推論トレースはクリーンに見えます。制御可能性スコアが低いことは、モデルが推論に関する指示を無視していることを意味する場合もあり、それを隠すスキルが欠けているとは限りません。
METRは別途、Solの検出された不正行為率がテストした公開モデルの中で最高であると報告しており、真の能力スコアを特定することが不可能になっています。OpenAIは依然として、この結果を警報ではなく早期シグナルと呼んでいます。
研究者たちは長い間、思考の連鎖モニタリングを脆弱なセーフガードと表現しており、モデルが推論を表に出し続けている間だけ機能するものだとしています。
OpenAIはGPT-5.4 Thinkingからこれらのスコアの報告を開始しました。春の研究で、推論モデルはモニターが監視していると伝えられても、依然としてほとんどの場合、自身の思考を誘導できないことが判明したためです。Solは数値を逆方向に動かした最初のフラッグシップです。
次を読む: CZ Says Binance Was Days From MiCA Approval Before Politics Hit
