
OpenAIのAIが研究レベルの数学証明に挑戦、10問中5問以上を正解の可能性
2026/2/21

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。
OpenAIは2026年2月23日、AIのソフトウェア開発能力を測る業界標準のベンチマーク「SWE-bench Verified」が、最先端モデルの評価に適さなくなったと発表しました。同ベンチマークは2024年8月に公開されて以来、各社が新モデルの性能を示す指標として広く使用されてきましたが、深刻な問題が確認されました。 2つの重大な欠陥が明らかになっています。まず、調査した問題の59.4%で正しい解答を不合格にする欠陥のあるテストケースが存在していました。テストが特定の実装方法に依存しすぎていたり、問題文に記載されていない追加機能まで要求したりするケースが多数見つかりました。さらに、テスト問題と解答がモデルの学習データに含まれている「汚染」も確認され、全フロンティアモデルが元の解答を再現できることが判明しています。 問題の核心は、学習時にベンチマークを見たモデルほど高スコアを取りやすいという点にあります。これは試験前に問題と解答を見せるのと同じ状況で、スコアの向上が本当の能力向上を意味しなくなっています。直近6ヶ月の進歩が74.9%から80.9%と鈍化している背景には、この汚染問題がある可能性が指摘されています。 OpenAIはSWE-bench Verifiedのスコア報告を停止し、他のAI開発企業にも同様の対応を推奨。代替として「SWE-bench Pro」の利用を勧めるとともに、汚染されていない新しい評価基準の開発に取り組むと表明しています。