ポッドキャストやAIを専門とするジャーナリストのポール・マクナリー氏が、3人のホストがニュースについてチャットするポッドキャスト番組の配信を開始しました。この番組の特筆すべき点は、エピソード作成、発話まで、すべて人間の介在なしに、完全にAIだけで作られている番組ということです。今回はこの番組を紹介したいと思います。
Develop AI by Paul McNally / Use AI to build a complete podcast episode – no mics required
ポール・マクナリー氏は、ChatGPTを活用するようになってから「日々のニュースを訓練された3人の架空の声によるディスカッション形式で、10分間のポッドキャストのエピソードを生成することができる」と考え、実際にその生成作業用のスクリプトを完成させたというもの。
番組は、2名のメインホストがニュースの詳細を説明した後、3人目のホストはそのニュースの行く末を予測させる構成になっています。
これを実現するための仕組みとして、まずテーマとするニュース記事は、Google Newsからその日のトップニュースを自動抽出したもので、抽出したニュースはChatGPTを使って事実をリストアップして、そこからエピソード台本の原稿をAIで生成します。ニュースの行く末を予測するのもChatGPTによる生成です。
原稿を読み上げる部分は、各ホストがそれぞれ異なる声で発言するため、エピソード台本をホストのセリフごとに分割し、それぞれのセリフごとに音声合成を行ってMP3ファイルを個別に生成し、最終的にエピソード台本通りのひとつのMP3ファイルとしてまとめる作業を行っているとのこと。
音声合成エンジンはElevenLabsのGenerative Voice AIを利用しているそうです。
ポール・マクナリー氏は、このシステムの開発においていくつか問題を感じたそうです。1点目として、当初毎日大量のエピソードを自動生成する予定でしたが音声合成はキャラクターごとにコストがかかるため現実的ではなかったこと、2点目として、エピソード1本の生成にかかる時間が予想より長く10分近くかかること、3点目として、エピソードの内容が期待していたより退屈だったこと、を挙げています。
一方、3人のAIホストのおしゃべりは信じられないほどリアルに聞こえ、大きな可能性があることはわかったとも語っています。
ポッドキャスト番組「Develop AI」にて、実際にAIだけで作られたエピソードを聴くことができます。
聴いてみた感想は、内容はともかく、人間がしゃべっているように聞こえるリアルさがすごいの一言です。AIだとわかって聴いても、ほんとにAI?と思うレベルです。誰もが驚くと思いますので、ぜひ聴いてみてください。
この印象の良さは、ElevenLabsの音声合成のレベルの高さもあるかと思います。なおElevenLabsは日本語にも対応していますが、僕が使った限り、日本語は今のところ品質が高いとはとても言えない状況なのが残念です。
開発者のポール・マクナリー氏は、近々このAIツールのアプリを一般公開する予定とのこと。日本語に対応しているかはわかりませんが、これはぜひ試してみたいツールですね。
ではまた!