AI研究

AIのコーディング能力テスト「SWE-bench」が信頼性を失った理由をOpenAIが公表

2026/2/24 19:20:08
OpenAI News
via Why SWE-bench Verified no longer measures frontier coding capabilities | OpenAI
AIのコーディング能力テスト「SWE-bench」が信頼性を失った理由をOpenAIが公表

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

OpenAIは2026年2月23日、AIのソフトウェア開発能力を測る業界標準のベンチマーク「SWE-bench Verified」が、最先端モデルの評価に適さなくなったと発表しました。同ベンチマークは2024年8月に公開されて以来、各社が新モデルの性能を示す指標として広く使用されてきましたが、深刻な問題が確認されました。 2つの重大な欠陥が明らかになっています。まず、調査した問題の59.4%で正しい解答を不合格にする欠陥のあるテストケースが存在していました。テストが特定の実装方法に依存しすぎていたり、問題文に記載されていない追加機能まで要求したりするケースが多数見つかりました。さらに、テスト問題と解答がモデルの学習データに含まれている「汚染」も確認され、全フロンティアモデルが元の解答を再現できることが判明しています。 問題の核心は、学習時にベンチマークを見たモデルほど高スコアを取りやすいという点にあります。これは試験前に問題と解答を見せるのと同じ状況で、スコアの向上が本当の能力向上を意味しなくなっています。直近6ヶ月の進歩が74.9%から80.9%と鈍化している背景には、この汚染問題がある可能性が指摘されています。 OpenAIはSWE-bench Verifiedのスコア報告を停止し、他のAI開発企業にも同様の対応を推奨。代替として「SWE-bench Pro」の利用を勧めるとともに、汚染されていない新しい評価基準の開発に取り組むと表明しています。

関連記事