
AIの思考過程は自分でコントロールできない——それがむしろ安全の証拠
2026/3/6

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。
OpenAIは、AIが複数の指示を受けたときに正しい優先順位で従えるよう学習させる訓練データセット「IH-Challenge」を発表しました。AIシステムには、安全ポリシー・開発者の指示・ユーザーのリクエスト・ウェブ上の情報など、さまざまなソースから指示が届きます。このうちどれを優先すべきかを誤ると、不正コンテンツの生成や個人情報の漏洩、悪意ある命令への従属(プロンプトインジェクション)といった問題が起きます。 IH-Challengeでは「システム → 開発者 → ユーザー → ツール」という明確な優先階層をAIに教え込みます。訓練には強化学習を採用しており、優先度の高い指示と低い指示が衝突する会話シナリオを大量に生成し、AIが正しく対応できた場合に報酬を与える仕組みです。単純にPythonスクリプトで採点できるタスク設計にすることで、判定のブレや「過度な拒否」といった学習の落とし穴を回避しています。 この手法で訓練した内部モデル「GPT-5 Mini-R」は、指示階層ベンチマークで最大+15ポイントの精度向上を達成。悪意あるプロンプトインジェクション攻撃への耐性や、システムプロンプトに記載された安全仕様への忠実性が改善され、有害リクエストに対する適切な拒否率が向上しました。一方で、数学・推論能力などの汎用性能はほぼ維持されています。 AIがツールを使ったり、信頼できない文書を読んだりする「エージェント型AI」が普及する中、信頼できる指示を優先する能力はAI安全性の根幹となります。今回の研究はその基盤を強化する重要な一歩として、業界から注目を集めています。