音声AI技術を開発する米イレブンラボ(本社・ニューヨーク州、CEO:Mati Staniszewski)は、新たなテキスト読み上げ(TTS)モデル「Eleven v3(alpha)」を発表した。読み上げ精度に加え、感情や会話の切り替えなど、従来モデルにはなかった表現力を実現したのが特徴。日本語の読み上げ精度も向上し、70を超える言語への対応も果たした。
Eleven Labs Japan / イレブンラボから今までにない表現力を持つTTSモデル「Eleven v3 (alpha)」を発表
Eleven v3は新たなアーキテクチャを採用しており、「読む」だけでなく「演じる」音声生成が可能となった。登場人物の切り替えや、セリフ内でのトーン変化、さらにささやき声や笑い声、息をのむ音、拍手などの表現も自然に再現できるという。
アルファ版のリリースため、従来モデルよりも細かい操作指示が求められるが、それに応じて生成される音声のクオリティも高まる。発話は感情豊かで、まるで人間が演技しているような自然さが得られるという。
新モデルでは対応言語が従来の33から70以上に拡大。これにより世界の人口カバー率は60%から90%へと向上した。日本語や英語はもちろん、グローバルなコンテンツ制作にも活用できる。
主な新機能としては、会話の中での話者切り替えが可能な「対話モード」や、さまざまな感情・効果音をテキストに記述できる「音声タグ」の導入、文章中での気分やテンポの変化などが挙げられる。ストリーミング対応機能や公開APIは今後の提供を予定しており、コールセンターや会話型エージェントなどでの活用も視野に入れている。
同社では、v3のリリースを記念して、2025年6月末までWeb UI版の利用料を80%割引とするキャンペーンを実施している。
Eleven v3 (alpha)
https://elevenlabs.io/ja/v3