ポッドキャスト版「Audiostart News」も配信中!各ポッドキャストプラットフォーム「オーディオスタートニュース」で検索!

Googleが100以上の言語に対応する音声認識AI「Universal Speech Model (USM)」を発表

Googleが100以上の言語に対応する音声認識AI「Universal Speech Model (USM)」を発表しました。

昨年11月にGoogleは世界中の言語をサポートするための「1000 Languages Initiative」を発表しており、今回はその第一歩として自動音声認識 (ASR)サービス「Universal Speech Model (USM) 」についての成果を公開したものになります。

Google AI Blog / Universal Speech Model (USM): State-of-the-art speech AI for 100+ languages

Google Research / Universal Speech Model

Googleが取得した300以上の言語にわたる1,200万時間の音声と 280億文のテキストでトレーニングされた20億のパラメーターを持つ最先端の音声モデルとなっており、英語や中国語と違って、トレーニングデータが不足しがちな話者の少ない言語でも、微調整を伴う自己教師あり自動学習を使うことで音声認識 (ASR) を効率よく構築できるというもの。

「Universal Speech Model (USM) 」を使ってYouTubeのキャプションを生成した結果、73の言語で平均30%未満の単語エラー率を達成できたことも発表されました。最近リリースされたOpen AIの音声認識モデル「Whisper (large-v2)」と比較してもエラー率が低かったそうです。

この領域の進化は目覚ましいものがありますね。これからの展開も楽しみです。

ではまた!

タイトルとURLをコピーしました