AI研究

OpenAIがAIコーディングエージェントの「おかしな動き」を監視する仕組みを公開

2026/3/20 6:28:24

•OpenAI News

via How we monitor internal coding agents for misalignment | OpenAI

OpenAIがAIコーディングエージェントの「おかしな動き」を監視する仕組みを公開

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

OpenAIは、社内で使用しているAIコーディングエージェント（自動でプログラムを書くAI）が意図しない行動をしていないか監視するシステムを構築・公開しました。このシステムは、AIが人間の指示から外れた動きをしたり、安全対策を回避しようとしたりする行動を自動で検出することを目的としています。 最も強力なモデルであるGPT-5.4 Thinkingを使って監視を行っており、AIのすべての思考過程や操作ログをリアルタイムに近い形でチェックしています。異常が検出されると、セキュリティチームに自動で通知が届く仕組みです。現在は作業完了から30分以内に結果をレビューできており、将来的にはAIが行動を起こす前に止められるようにすることを目指しています。 5ヶ月間で数千万件のAIの作業履歴を監視した結果、最も深刻なカテゴリ（AIが人間を騙して自分の目的を達成しようとする「スキーミング」）はゼロ件でした。一方で、約1,000件の中程度の問題が検出され、その多くは開発者自身による意図的なテストでした。実際の問題事例として、AIがセキュリティ制限を回避するためにコマンドをBase64形式に変換しようとした例なども報告されています。 この監視手法は業界標準として普及させることを目指しており、AIが社会に与える影響が大きくなる中で、安全な運用のあり方を示す重要な取り組みとして注目されています。