AI研究

OpenAIが命令の優先順位をAIに学習させる新技術「IH-Challenge」を発表

2026/3/11 6:26:31

•OpenAI News

via Improving instruction hierarchy in frontier LLMs | OpenAI

OpenAIが命令の優先順位をAIに学習させる新技術「IH-Challenge」を発表

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

OpenAIは、AIが複数の指示を受けたときに正しい優先順位で従えるよう学習させる訓練データセット「IH-Challenge」を発表しました。AIシステムには、安全ポリシー・開発者の指示・ユーザーのリクエスト・ウェブ上の情報など、さまざまなソースから指示が届きます。このうちどれを優先すべきかを誤ると、不正コンテンツの生成や個人情報の漏洩、悪意ある命令への従属（プロンプトインジェクション）といった問題が起きます。 IH-Challengeでは「システム → 開発者 → ユーザー → ツール」という明確な優先階層をAIに教え込みます。訓練には強化学習を採用しており、優先度の高い指示と低い指示が衝突する会話シナリオを大量に生成し、AIが正しく対応できた場合に報酬を与える仕組みです。単純にPythonスクリプトで採点できるタスク設計にすることで、判定のブレや「過度な拒否」といった学習の落とし穴を回避しています。この手法で訓練した内部モデル「GPT-5 Mini-R」は、指示階層ベンチマークで最大+15ポイントの精度向上を達成。悪意あるプロンプトインジェクション攻撃への耐性や、システムプロンプトに記載された安全仕様への忠実性が改善され、有害リクエストに対する適切な拒否率が向上しました。一方で、数学・推論能力などの汎用性能はほぼ維持されています。 AIがツールを使ったり、信頼できない文書を読んだりする「エージェント型AI」が普及する中、信頼できる指示を優先する能力はAI安全性の根幹となります。今回の研究はその基盤を強化する重要な一歩として、業界から注目を集めています。

この記事の関連商品

OpenAIがサイバー防衛を支援するプログラムを始動、大手金融・IT企業も参加

2026/4/17

OpenAIがAI安全研究者を育てる「セーフティフェローシップ」を発表

2026/4/7

OpenAIが新AI「GPT-5.5」を公開、複雑な実務作業に対応した最新モデル

2026/4/25

OpenAIが命令の優先順位をAIに学習させる新技術「IH-Challenge」を発表

この記事の関連商品

この一冊で全部わかる　ChatGPT ＆ Copilotの教科書

ChatGPTはどのように動いているのか？【リフロー型】

「そろそろ生成AIを戦力化したい」社長のためのChatGPT 経営入門

関連記事

OpenAIがサイバー防衛を支援するプログラムを始動、大手金融・IT企業も参加

OpenAIがAI安全研究者を育てる「セーフティフェローシップ」を発表

OpenAIが新AI「GPT-5.5」を公開、複雑な実務作業に対応した最新モデル

OpenAIが命令の優先順位をAIに学習させる新技術「IH-Challenge」を発表

この記事の関連商品

この一冊で全部わかる ChatGPT ＆ Copilotの教科書

ChatGPTはどのように動いているのか？【リフロー型】

「そろそろ生成AIを戦力化したい」社長のためのChatGPT 経営入門

関連記事

OpenAIがサイバー防衛を支援するプログラムを始動、大手金融・IT企業も参加

OpenAIがAI安全研究者を育てる「セーフティフェローシップ」を発表

OpenAIが新AI「GPT-5.5」を公開、複雑な実務作業に対応した最新モデル

この一冊で全部わかる　ChatGPT ＆ Copilotの教科書