NVIDIA、多言語音声AI向けオープンデータセットとモデルを公開

今回は、NVIDIAが提供する多言語音声AI向けオープンデータセット「Granary」の記事について紹介します。

NVIDIA / Now We’re Talking: NVIDIA Releases Open Dataset, Models for Multilingual Speech AI

世界には約7,000の言語がありますが、AI言語モデルでサポートされているのはごくわずかです。

NVIDIAは、クロアチア語、エストニア語、マルタ語など、利用可能なデータが限られている言語を含む25のヨーロッパ言語向けの高品質な音声認識・翻訳AIの開発を支援する新しいデータセットとモデルで、この問題に取り組んでいます。

これらのツールにより、開発者はAIアプリケーションをより容易に拡張し、多言語チャットボット、カスタマーサービス音声エージェント、準リアルタイム翻訳サービスといった実稼働規模のユースケースにおいて、高速かつ正確な音声技術を活用して世界中のユーザーをサポートできるようになります。

具体的には以下のとおりです。
・Granary は、約 100 万時間分の音声 (音声認識に約 65 万時間、音声翻訳に 35 万時間以上) を含む、多言語音声データセットの大規模なオープンソース コーパスです。
・NVIDIA Canary-1b-v2は、Granaryで学習した10億パラメータのモデルで、ヨーロッパ言語の高品質な書き起こしに加え、英語と24言語間の翻訳を実現します。

Hugging Faceの多言語音声認識精度オープンモデルランキングでトップにランクされています。
・NVIDIA Parakeet-tdt-0.6b-v3 は、Granary がサポートする言語のリアルタイムまたは大規模な文字起こし向けに設計された、6億パラメータの合理化されたモデルです。

Hugging Face リーダーボードにおいて、多言語モデルの中で最も高いスループットを誇ります。スループットは、文字起こしされた音声の長さを計算時間で割った値です。

Granaryがデータ不足に対処する方法
Granaryデータセットの開発にあたり、NVIDIAの音声AIチームはカーネギーメロン大学およびFondazione Bruno Kesslerの研究者と協力しました。チームは、ラベル付けされていない音声をNVIDIA NeMo音声データプロセッサツールキットを搭載した革新的な処理パイプラインに通し、構造化された高品質なデータに変換しました。このパイプラインにより、研究者たちは、大量のリソースを投入する人手によるアノテーションを必要とせずに、公共の音声データをAI学習に利用可能な形式に強化することができました。このパイプラインはGitHubでオープンソースとして公開されています。Granary のクリーンですぐに使えるデータを利用することで、開発者は、欧州連合のほぼすべての公用語に加え、ロシア語とウクライナ語での文字起こしや翻訳のタスクに対応するモデルの構築を有利に進めることができます。

今回の紹介は以上です。
それでは、また。