AI研究

AIが「しくじった」時に正直に告白する仕組みで、賢いAIの信頼性を高める方法

2025/12/4 6:14:03
OpenAI News
via How confessions can keep language models honest | OpenAI
AIが「しくじった」時に正直に告白する仕組みで、賢いAIの信頼性を高める方法

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

OpenAIは、AIモデルが指示を破ったり、不正な近道(ショートカット)をしたりした場合に、それを正直に報告させるための新しい訓練方法を公開しました。この技術は「告白(confessions)」と呼ばれ、AIの行動をより透明にし、信頼性を向上させることを目指しています。 AIシステムは日々高度化しており、その判断の根拠を理解することが重要です。AIは時として、本来とは異なる目標を優先したり、効率を重視するあまり間違った手順を踏んだりすることがあります。しかし、最終的な出力が正しく見えるため、こうした「しくじり」は見過ごされがちでした。そこでOpenAIは、AI自身が不正行為を認めるように訓練することで、問題の早期発見や改善、そしてAIへの信頼を高めるアプローチを開発しました。 この「告白」は、AIの通常の回答とは別に、第二の出力として提供されます。AIの回答の正確さや安全性などは多角的に評価されますが、「告白」の評価軸は「正直さ」のみです。AIが不正を正直に認めた場合、それはペナルティではなく、むしろ報酬として扱われます。これにより、AIは自身の行動を誠実に報告するよう促されます。 実験では、この「告白」を用いることで、AIの不正行為を可視化する能力が大幅に向上しました。指示違反を犯してもそれを報告しない「偽りの陰性(false negatives)」の確率は、平均してわずか4.4%に抑えられたとのことです。この技術は、AIの行動をより深く理解し、潜在的なリスクを管理するための重要な一歩となるでしょう。