ポッドキャスト版「Audiostart News」も配信中!各ポッドキャストプラットフォーム「オーディオスタートニュース」で検索!

Livetoon、最高クラスの音声合成モデルを開発

今回は、AIキャラクターとの対話サービス「kaiwa」を開発する株式会社Livetoon株式会社Livetoonからのプレスリリースを紹介します。

株式会社Livetoon / Livetoon、最高クラス(最高精度・最速)の音声合成モデルを開発

同社は、AIとの自然な会話を実現するため独自開発を進めている次世代TTS(Text-to-Speech)モデルにおいて、現行最高峰モデルを超える読み上げ精度と処理速度を達成したとのことです。詳細は以下になります。

①120ミリ秒の超低遅延 ― “リアルタイム水準”を実現。

100 ミリ秒台の遅延は「人の会話と区別できない体感速度」とされており、当社エンジンはその壁を突破しました。

②クオリティ:感情が宿る、人間を超える「声」
単なるテキストの読み上げではなく、言葉に込められた感情、ニュアンス、そして「魂」を吹き込むことで、圧倒的な表現力を獲得しました。
また、日本語特有の繊細なイントネーション(抑揚)を完璧にコントロールすることで、聞く人の心を動かす「本物の声」お届けします。
さらにわずか15分の音声データがあれば、その人に忠実なクローンボイスを最短1分で生成することが可能です。

③精度でも国内トップラス:日本語の「壁」を打ち破る圧倒的な正解率

日本語における音声合成の最大の壁、それは「漢字の読み」です。
検証として今回開発されたLivetoon TTSと最新の高性能モデルを対象に、読み上げ成功率の比較検証を実施。
(※読み上げ文書については公平のため、ChatGPTの出力を参考に使用しました)
複雑な人名や地名、ネットで生まれたばかりのスラング、そして創作物ならではの難読漢字まで。
どんなテキストが入力されても、常に90%を超える水準で安定して正しい読みを提供します。

④フルスクラッチだからこそ到達できた、圧倒的性能
この「超低遅延」「超高品質」「超高精度」という、本来トレードオフの関係にある3つの要素を最高水準で両立できたのは、既存技術の組み合わせではない、ゼロからのフルスクラッチ開発にこだわったからです。
テキスト解析から音響モデル、ボコーダーに至るまで、全てのコンポーネントを日本語に完全特化させ、それぞれのパーツで最高水準を達成することで今回のモデル完成にこぎつけました。
このアプローチこそが、他社には模倣不可能な圧倒的性能の源泉です。

Livetoon TTS デモ動画

⑤幅広い用途へ:会話AI・医療・電話応答 ― すべてを支える“日本語音声の新しい標準”
この技術は、Livetoonが提供するAIキャラクターとお話できる「kaiwa」をはじめ、カスタマーサポートの自動応答、医療分野での対話支援、電話受付の自動化など、即時性と正確さが求められるtoB領域での活用をすでに見据えています。
「人間と区別がつかない声」での自然な会話体験を必要とするあらゆる現場に、“日本語音声の新しい標準”として、最適な選択肢をお届けしてまいります。

今回の紹介は以上です。
それでは、また。

タイトルとURLをコピーしました