Googleが音声理解と音声生成のための大規模言語モデル(LLM)、「AudioPaLM」を発表しました。
「AudioPaLM」は、すでに発表されていた、音声ベースの大規模言語モデル「AudioLM」の機能と、テキストベースの大規模言語モデル「PaLM-2」の機能を統合したマルチモーダルアーキテクチャで、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できるというもの。今回はこのシステムを紹介します。
AudioPaLM
arxiv.org / AudioPaLM: A Large Language Model That Can Speak and Listen
関連記事
Googleが100以上の言語に対応する音声認識AI「Universal Speech Model (USM)」を発表
「AudioPaLM」により、音声翻訳タスクにおいて既存のシステムを大幅に上回り、入力言語とターゲット言語の組み合わせがトレーニングで見られなかった多くの言語に対して、ゼロショットの音声テキスト翻訳を実行する能力を備えているといいます。また、短い音声プロンプトに基づいて言語間で音声を翻訳することも可能になっています。
公開されたデモ動画を見るとわかりやすいです。
具体的にできることとして以下の3つがあり、それぞれデモページで音声サンプルが紹介されています。
「音声から音声への翻訳(Speech-to-speech translation)」
外国語の音声データを入力すると、入力されたデータと同じ話者、イントネーションで英語に翻訳された音声データを生成する機能です。
「音声からテキストへの翻訳(Speech-to-text translation)」
外国語の音声データを入力すると英語に翻訳したテキストを生成する機能です。
「自動音声認識((ASR:Automatic Speech Recognition)」
外国語の音声データを音声認識してテキストを生成する機能です。
これらの3つの機能はサンプルページで「JA」を選ぶことで日本語の例を聴くことができます。しかし現時点では残念ながら日本語はリソースの少ない言語となっており思ったよりクオリティーは高くない印象です。言語によって学習データ量に開きがあるため、日本語の学習については今後に期待したいところです。
ではまた!