ElevenLabs、感情豊かな音声を実現するTTS新モデル「Eleven v3 (Alpha)」を発表

音声AI技術を開発する米イレブンラボ（本社・ニューヨーク州、CEO：Mati Staniszewski）は、新たなテキスト読み上げ（TTS）モデル「Eleven v3（alpha）」を発表した。読み上げ精度に加え、感情や会話の切り替えなど、従来モデルにはなかった表現力を実現したのが特徴。日本語の読み上げ精度も向上し、70を超える言語への対応も果たした。

Eleven Labs Japan / イレブンラボから今までにない表現力を持つTTSモデル「Eleven v3 (alpha)」を発表

Eleven v3は新たなアーキテクチャを採用しており、「読む」だけでなく「演じる」音声生成が可能となった。登場人物の切り替えや、セリフ内でのトーン変化、さらにささやき声や笑い声、息をのむ音、拍手などの表現も自然に再現できるという。

アルファ版のリリースため、従来モデルよりも細かい操作指示が求められるが、それに応じて生成される音声のクオリティも高まる。発話は感情豊かで、まるで人間が演技しているような自然さが得られるという。

新モデルでは対応言語が従来の33から70以上に拡大。これにより世界の人口カバー率は60％から90％へと向上した。日本語や英語はもちろん、グローバルなコンテンツ制作にも活用できる。

主な新機能としては、会話の中での話者切り替えが可能な「対話モード」や、さまざまな感情・効果音をテキストに記述できる「音声タグ」の導入、文章中での気分やテンポの変化などが挙げられる。ストリーミング対応機能や公開APIは今後の提供を予定しており、コールセンターや会話型エージェントなどでの活用も視野に入れている。

同社では、v3のリリースを記念して、2025年6月末までWeb UI版の利用料を80％割引とするキャンペーンを実施している。

Eleven v3 (alpha)
https://elevenlabs.io/ja/v3