OpenAIが音声AIの新モデルを3種発表、リアルタイム翻訳・文字起こしも対応

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。
OpenAIの新音声モデル3種の特徴
OpenAIは2026年5月、開発者向けAPIで利用できるリアルタイム音声モデル3種を新たに発表しました。音声エージェントの実用化に向けた大きな一歩として注目されています。
3つのモデルはそれぞれ役割が異なります。GPT-Realtime-2はGPT-5クラスの推論能力を持つ初の音声モデルで、GPT-Realtime-Translateは70以上の言語から13言語へリアルタイム翻訳、GPT-Realtime-Whisperは話しながら同時に文字起こしを行います。
GPT-Realtime-2の新機能まとめ
GPT-Realtime-2では、複数のツールを並行して呼び出しながら「調べています」「少々お待ちください」と自然な前置きフレーズを挿入できる「プリアンブル」機能が追加されました。処理中であることをユーザーに伝えられるため、会話の途切れ感が減ります。
コンテキストウィンドウは従来の32Kから128Kへと4倍に拡大され、長い会話や複雑なタスクに対応しやすくなりました。推論の深さはminimal・low・medium・high・xhighの5段階で調整でき、速度と精度のバランスを柔軟に設定できます。

ベンチマーク結果と企業パートナーの声
GPT-Realtime-2(high)はBig Bench Audioで前世代モデルより15.2%高いスコアを記録。xhighモードではAudio MultiChallengeで13.8%の向上を示し、推論力・文脈管理・制御精度の改善が数値として確認されています。
不動産検索のZillowでは、最も難しいテストで通話成功率が69%から95%へ26ポイント向上したと報告しています。Deutsche TelekomやPricelineなどグローバル企業も、多言語対応の音声サービスへの活用を進めています。
音声AIが変える3つの活用パターン
OpenAIは音声AIの主要な活用パターンとして3つを定義しています。声で伝えればシステムが動く「Voice-to-action」、システムが状況を音声で能動的に通知する「Systems-to-voice」、言語の壁を超えてリアルタイム翻訳する「Voice-to-voice」です。
Priceline社は旅行全行程を音声で管理する未来を目指しており、フライト検索からホテル変更・空港案内のリアルタイム情報まで音声だけで完結できるシステムを開発中です。音声が日常の主要インターフェースになる可能性を示しています。
関連商品をチェック






リアルタイムで70言語以上を翻訳してくれるのはすごいと思う。旅行先や国際会議で言葉の壁を気にしなくていい未来が近づいてきた感じがして、嬉しい。