ポッドキャスト版「Audiostart News」も配信中!各ポッドキャストプラットフォーム「オーディオスタートニュース」で検索!

rinnaがテキスト入力で音声合成とフェイスモーション生成を同時に行う「Koemotion」発表!

rinnaがテキストを入力するだけで音声合成とフェイスモーション生成を同時にできるサービス「Koemotion(コエモーション)」の提供開始とAPIの公開を発表しました。今回はこのニュースをお伝えします。

rinna / rinna、音声とフェイスモーションの生成AIサービスKoemotionを提供開始
rinna / Koemotion製品紹介ページ
rinna / KoemotionサービスURL

関連記事
rinnaがテキスト入力でCGアバターが話す動画作成ソリューションを提供開始

今回提供開始となった「Koemotion」は、AITuberりんなで用いられている音声合成とフェイスモーション生成の技術を発展させ、多種多様な音声の合成と、合成した音声と同期するフェイスモーションを作り出せるAI生成サービス。サービス名も「コエ」「エモーション」「モーション」を組み合わせた絶妙なネーミングセンスになっています。

Koemotionで使われている音声合成には2023年3月に先行公開されていた「Koeiromap」が組み込まれており、従来の音声合成製品のように事前に用意された特定の話者の音声を合成するのではなく、2次元マップから任意の座標を選択することで話者の声色を多種多様に変更して音声を合成することができます。座標の上の方は高い声で女性っぽく、座標の下の方は低い声で男性っぽく、自分の好きな座標を画面でクリックして、音声合成を試してみましたが、独自性のある声を作るのは簡単でした。

さらに座標で指定した話者の声色に、7種類の感情(通常・喜び・悲しみ・怒り・恐れ・驚き・囁き)を指定した上で、音声合成することもできます。また、入力されたテキストから感情を推定・予測して発話する機能も搭載されています。使ってみた感じ、声のバリエーションは豊富すぎて選ぶのに迷うほどです。いろいろやってみましたが、「囁き」で合成した声は他で類を見ない仕上がりでした。

Koemotionは、この音声合成Koeiromapで作られた音声と同期したフェイスモーションを生成することができるのが最大の売りです。2D・3Dモデルや画像生成AIと組み合わせることでキャラクターの表情を音声に合わせて動かせることができるようになるというわけです。

フェイスモーションのサンプル動画も公開されました。ユーザーが指定したテキストで作られた音声合成と表情がシンクロするのだからすごいですよね。

このKoemotionの活用イメージとして、アナウンスや電話での音声応答、多くのキャラクターが登場する小説のオーディオブック化や動画制作、ゲームのNPCの音声、AITuber配信などが挙げられています。

利用は、ブラウザ上からもしくはAPI経由の2通り、料金は個人・法人向けに利用目的に合わせたプランが用意されています。月額基本料金は0円から120,000円、1リクエストあたりの課金料金は、0円から2円となっています。

音声合成サービスにフェイスモーションをつけたKoemotion。他社音声合成サービスとはかなり位置づけの違うサービスとして興味深いサービスだと想います。ではまた!

タイトルとURLをコピーしました