AI研究

AIの「思考プロセス」を正しく見抜く方法を開発・評価

2025/12/19 6:14:00
OpenAI News
via Evaluating chain-of-thought monitorability | OpenAI
AIの「思考プロセス」を正しく見抜く方法を開発・評価

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

OpenAIは、AIが複雑な問題を解く際に生成する「思考の連鎖(chain-of-thought)」が、どれだけ正確に観察・監視できるかを評価するための新しいフレームワークと13種類の評価手法を発表しました。 AIが直接監視しにくい決定を下す際、その内部的な思考プロセスを理解することが重要です。特に、GPT-5 Thinkingのような最新のAIは、回答を出す前に段階的な思考プロセスを明示的に生成します。この「思考の連鎖」を監視することで、AIの行動や最終出力だけを監視するよりも、不正な振る舞いを効果的に見つけられる可能性があります。しかし、こうした思考の監視可能性は、学習方法やデータ、AIの規模の変化によって不安定になるという懸念がありました。 今回の研究では、AIの思考の連鎖がどれだけ監視可能であるかを測定する評価手法を体系的に調査しました。この評価結果によると、多くの最先端AIは、完全にとは言えないものの、比較的監視可能であることが示されました。また、AIがより長く思考を重ねるほど、監視の精度は向上する傾向があります。AIの推論能力を高めるための追加計算(推論時の追加計算)が、監視可能性を著しく低下させることはないようです。 さらに、AIの思考プロセスとモデルの規模の間にはトレードオフがあることも発見されました。例えば、より小さなAIモデルをより長い思考プロセスで動かすことで、同等の能力を持ちつつ監視しやすくなる場合があることが示唆されています。これは「監視可能性の税金(monitorability tax)」と表現されており、追加の計算コストがかかることを意味します。また、AIにフォローアップの質問を投げかけ、その結果生成される思考の連鎖を監視することで、さらに監視可能性を高められることも分かりました。