AI研究

AIエージェントをだまそうとする「プロンプト注入」攻撃からの守り方

2026/3/12 6:27:53

•OpenAI News

via Designing AI agents to resist prompt injection | OpenAI

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

OpenAIが、AIエージェントを標的にした「プロンプト注入攻撃」への対策設計指針を公開しました。プロンプト注入とは、外部コンテンツに悪意ある命令を埋め込み、AIに意図しない行動を取らせる攻撃手法のことです。 最近の攻撃は単純な命令上書きから「ソーシャルエンジニアリング（人をだます心理的手法）」へと進化しており、AIファイアウォールなどの入力フィルタリングだけでは防げなくなっています。OpenAIは、こうした攻撃をカスタマーサポート担当者が詐欺師と対峙する状況と同じ「3者間問題」として捉える視点を採用しました。 ChatGPTでは、この考え方に基づき「ソースとシンクの分析」という手法を組み合わせた防御策を実装。攻撃の多くはAIが外部へ情報を送信しようとする際にブロックされるほか、「Safe Url」と呼ばれる仕組みが、会話内で得た情報を第三者へ送ろうとする動きを検知し、ユーザーに確認を求めるか、動作を止めます。同様の保護はDeep Research、Canvas、ChatGPT Appsにも適用されています。 完全自律型のAIエージェントが実用化されるには、外部の悪意ある環境への安全な対応が不可欠です。OpenAIは引き続き、モデルのトレーニングとアプリケーションのセキュリティ設計の両面から研究を進めていく方針を示しています。