AI製品

GoogleがAI音声合成モデル「Gemini 3.1 Flash TTS」を公開、70言語以上で細かい話し方制御が可能に

2026/4/16 6:50:17
DeepMind Blog
via Gemini 3.1 Flash TTS: the next generation of expressive AI speech
GoogleがAI音声合成モデル「Gemini 3.1 Flash TTS」を公開、70言語以上で細かい話し方制御が可能に

当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

Googleは、テキストを自然な音声に変換する新しいAIモデル「Gemini 3.1 Flash TTS」を正式に公開しました。Google AI Studio・Vertex AI・Google Vidsで即日利用可能となっており、開発者や企業がAI音声アプリケーションを構築できる環境が整いました。 このモデルの最大の特徴は、「オーディオタグ」と呼ばれる特殊なコマンドをテキストに埋め込むことで、声のトーン・話すスピード・感情表現を細かく制御できる点です。70言語以上に対応しているほか、複数の話者が自然に会話するマルチスピーカー形式にも対応し、グローバルな音声コンテンツ制作を後押しします。 品質面でも高い評価を受けており、人間の好みを大規模に調査するArtificial Analysis TTSリーダーボードでEloスコア1,211を達成し、高品質かつ低コストの「最優秀ゾーン」に位置づけられています。ゲームやポッドキャスト、教育コンテンツなど幅広い分野での活用が見込まれます。 安全面では、生成された全音声に「SynthID」と呼ばれる目に見えない電子透かしが自動的に埋め込まれ、AI生成コンテンツであることを検出可能にしています。フェイクニュースや音声による誤情報の拡散防止に貢献する仕組みです。

関連記事