AI製品

ChatGPTの安全性を高める！「プロンプト注入攻撃」から守る新技術

2025/12/23 6:14:30

•OpenAI News

via Continuously hardening ChatGPT Atlas against prompt injection attacks | OpenAI

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

OpenAIは、ChatGPTのウェブブラウジング機能「Atlas」を「プロンプト注入攻撃」から保護するためのセキュリティ強化策を発表しました。この攻撃は、AIに悪意のある指示を埋め込み、本来の目的とは異なる行動をさせるものです。例えば、AIに指示して機密情報を外部に送信させるといった被害が考えられます。ChatGPT Atlasは、ユーザーの代わりにウェブサイトを閲覧したり操作したりするため、こうした攻撃の標的になりやすいとされています。 OpenAIは、このリスクに対処するため、最新のセキュリティアップデートをリリースしました。これには、攻撃を学習させた新しいAIモデルと、それを補強する安全対策が含まれています。このアップデートは、社内の自動化されたテスト（レッドチーミング）で発見された新しいタイプの攻撃手法に基づいています。同社は、AIによる自動化されたテストシステムを開発し、強化を続けています。このシステムは、機械学習の一種である強化学習を用いて、AIが攻撃手法を自ら発見し、改善していくように学習させます。これにより、攻撃者が実世界で悪用する前に、社内で未知の攻撃パターンを見つけ出し、迅速に対応できるようになります。長期的には、この継続的な防御ループにより、AIの安全性を高め、ユーザーが安心してAIを使える環境を目指しています。