OpenAIのAIがゴブリンを多用した謎の真相

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。
ChatGPTにゴブリンが急増した経緯
OpenAIのAIモデルが会話の比喩として「ゴブリン」「グレムリン」などの生き物を使う頻度が、GPT-5.1のリリース後から急増していました。「ゴブリン」の使用頻度はリリース後に175%も上昇しており、グレムリンも52%増加しました。
最初は一部の社員が個別に報告していた程度でしたが、GPT-5.4ではさらに顕著になり、ユーザーコミュニティでも広く話題になるほどの状況に発展。こうして本格的な原因調査が始まりました。
原因はナーディ機能の報酬設計だった
調査の結果、原因は「ナーディ(おたく的)」パーソナリティ機能のトレーニングにあることが判明しました。このパーソナリティ向けの報酬モデルが生き物の比喩を含む出力に高いスコアを与えていたため、モデルがその表現を積極的に学習してしまいました。
ナーディパーソナリティはChatGPT全体のレスポンスのわずか2.5%を占めるに過ぎませんが、ゴブリン言及全体の実に66.7%がこのパーソナリティ経由でした。特定スタイルへの報酬がいかに強力にモデルの言語表現を偏らせるかを示した典型例です。

強化学習が癖を全体に広めた仕組み
問題の本質は、強化学習が一度学んだ挙動を関連する場面以外にも広げてしまう点にあります。ナーディ向けに報酬を与えられた「遊び心のあるスタイル」がナーディ以外のレスポンスにも徐々に転移していきました。
さらに、報酬を受けたモデルの出力が教師あり学習(SFT)のデータとして再利用されることで、フィードバックループが形成され癖が自己強化されていきます。GPT-5.5のデータにも多くのゴブリン・グレムリン表現が含まれており、ラクーンやトロール、ハトなども同様のパターンで検出されました。
ゴブリン問題の解決と今後への教訓
OpenAIは3月にナーディパーソナリティを廃止し、問題のある報酬信号を排除するとともにトレーニングデータをフィルタリングしました。GPT-5.5は根本原因の判明前にすでに学習が開始されていたため、Codexでは開発者向けプロンプト指示で一時的に対処する形となっています。
この一件は、小さな報酬設計のズレがモデル全体の挙動に意外な影響を与えることを明確に示しました。OpenAIはこの調査を機にモデル挙動の監査ツールを強化し、今後の同様な問題に迅速に対応できる体制を構築しています。




ゴブリンが175%増えたって数字で見るとちょっと笑えるけど、報酬設計の小さなズレがAI全体に広まるって改めて繊細だなと思う。