rinnaがテキスト入力で音声合成とフェイスモーション生成を同時に行う「Koemotion」発表！

rinnaがテキストを入力するだけで音声合成とフェイスモーション生成を同時にできるサービス「Koemotion（コエモーション）」の提供開始とAPIの公開を発表しました。今回はこのニュースをお伝えします。

rinna / rinna、音声とフェイスモーションの生成AIサービスKoemotionを提供開始
 rinna / Koemotion製品紹介ページ
 rinna / KoemotionサービスURL

関連記事
rinnaがテキスト入力でCGアバターが話す動画作成ソリューションを提供開始

今回提供開始となった「Koemotion」は、AITuberりんなで用いられている音声合成とフェイスモーション生成の技術を発展させ、多種多様な音声の合成と、合成した音声と同期するフェイスモーションを作り出せるAI生成サービス。サービス名も「コエ」「エモーション」「モーション」を組み合わせた絶妙なネーミングセンスになっています。

Koemotionで使われている音声合成には2023年3月に先行公開されていた「Koeiromap」が組み込まれており、従来の音声合成製品のように事前に用意された特定の話者の音声を合成するのではなく、2次元マップから任意の座標を選択することで話者の声色を多種多様に変更して音声を合成することができます。座標の上の方は高い声で女性っぽく、座標の下の方は低い声で男性っぽく、自分の好きな座標を画面でクリックして、音声合成を試してみましたが、独自性のある声を作るのは簡単でした。

さらに座標で指定した話者の声色に、7種類の感情（通常・喜び・悲しみ・怒り・恐れ・驚き・囁き）を指定した上で、音声合成することもできます。また、入力されたテキストから感情を推定・予測して発話する機能も搭載されています。使ってみた感じ、声のバリエーションは豊富すぎて選ぶのに迷うほどです。いろいろやってみましたが、「囁き」で合成した声は他で類を見ない仕上がりでした。