AI研究

AIの思考過程は自分でコントロールできない——それがむしろ安全の証拠

2026/3/6 6:25:09

•OpenAI News

via Reasoning models struggle to control their chains of thought, and that’s good | OpenAI

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

OpenAIは、最先端の推論AIモデルが自分自身の「考え方の流れ（思考連鎖）」をコントロールできないという研究結果を発表しました。これは一見すると欠点に見えますが、AIの安全性を高める重要な特性であることが明らかになっています。 OpenAIが開発した評価ツール「CoT-Control」を使って13種類の推論モデルをテストしたところ、どのモデルも思考連鎖を意図的に操作する能力は0.1〜15.4%と極めて低いことがわかりました。たとえば「推論の中で特定の単語を使わないで」と指示しても、モデルは自分がルールを破っていることに気づきながらも、繰り返し同じ失敗をしてしまいます。この発見がなぜ重要かというと、AIが思考過程を隠したり書き換えたりできてしまうと、安全性を監視するシステムを騙せるようになるからです。現在の推論モデルはそのような「隠蔽能力」を持っていないため、監視が有効に機能し続けられることが示されました。また、モデルが大きくなるほどコントロール能力はやや向上しますが、より長く考えさせたり、追加学習を繰り返すほどかえって低下することも判明しています。 OpenAIはこの研究を「防御の多層化」戦略の一部として位置づけており、AIが高度化するにつれて継続的な評価が不可欠だと強調しています。今回の結果は現時点では安心材料となりますが、将来のより強力なモデルでも同様かどうかは、引き続き監視が必要です。