AI研究

AIが科学研究をどこまでできる?新しい評価方法「FrontierScience」を発表

2025/12/17 6:14:14
OpenAI News
via Evaluating AI’s ability to perform scientific research tasks | OpenAI
AIが科学研究をどこまでできる?新しい評価方法「FrontierScience」を発表

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

OpenAIは、AIが科学研究の専門的なタスクをどの程度こなせるかを評価するための新しいベンチマーク「FrontierScience」を発表しました。 このベンチマークは、物理学、化学、生物学の分野における専門家レベルの科学的推論能力を測るために作られました。数百問の難易度の高いオリジナル問題で構成されており、オリンピック形式の競技能力を測る「Olympiad」と、実際の研究能力を測る「Research」の2つのトラックがあります。専門家によって作成・検証されており、AIが科学研究を加速する可能性を探るための重要な指標となります。 初期評価では、GPT-5.2が「Olympiad」トラックで77%、「Research」トラックで25%のスコアを記録し、他の最先端AIモデルを上回りました。この結果は、現在のAIが構造化された推論を伴う研究の一部を支援できることを示していますが、特にオープンエンドな思考を必要とする研究タスクにおいては、まだ改善の余地が大きいことを示唆しています。 最終的にAIが科学研究に貢献できるかどうかは、AIが新しい発見を生み出すことで証明されます。FrontierScienceは、AIの科学的推論能力を標準化された方法でテストし、AIによる科学研究の進歩を追跡・促進するための強力なツールとなることが期待されています。