Metaが音楽生成AI「MusicGen」を発表!Text-to-Musicを実際に体験してみた

Metaが音楽生成AI「MusicGen」を発表しました。「Text-to-Music」、つまりテキストで指示するだけで音楽を作ることができるサービスで、ポッドキャストのBGMなどでも活用できそうなので、今回はこれを使ってみたレポートをお届けしたいと思います。

MusicGen: Simple and Controllable Music Generation
huggingface / MusicGen

「MusicGen」は論文概要によれば、「圧縮された離散的な音楽表現トークンの複数のストリームに対して動作する単一の言語モデル」と、難解な説明となっています。簡単に言えば、ChatGPTが文章を予測して生成するかのように、音楽を予測して生成していく仕組みです。

実際にMusicGenで生成されたサンプルを他サービスと比較した実証評価結果も発表されました。MusicGen、MusicLMRiffusionMusaiそれぞれで同じプロンプトで音楽を生成した結果も聴き比べることができます。実際聴いてみると確かにMusicGenのサンプルのほうが指示したプロンプトに対して適切な曲が生成されていると思えます。また、テキストのプロンプト入力により曲を生成する以外にも、ベースとなる音楽をMP3形式で与えて、そこに指示を与えることも可能です。クラシックの曲を渡して、ロック調にしてという指示でそれっぽいものが仕上がることもサンプルで確認できます。画像生成AIと同じ感じですね。すごいです。

この「MusicGen」は正式なサービスと言う形ではなく、論文とオープンソースのコードとして発表されています。GitHubのリポジトリから誰もが無料でこのモデルを利用可能となっています。同時に、ちょっと試したいというユーザー向けにhuggingfaceでMusicGenのデモを試すことができます。今回はこちらを使って実際に試していきたいと思います。

「音楽の説明:Describe your music」欄に自分が作って欲しい曲を指定するプロンプトを入力します。
プロンプトの例として
 「An 80s driving pop song with heavy drums and synth pads in the background」
  (80年代のドライビングポップソング、重厚なドラムとシンセパッドをバックに)
 「A cheerful country song with acoustic guitars」
  (アコースティック・ギターを使った陽気なカントリー・ソング)
 「90s rock song with electric guitar and heavy drums」
  (90年代のロック・ソングを、エレキギターと重厚なドラムで印象的に)
 「a light and cheerly EDM track, with syncopated drums and strong emotions bpm: 130」
  (シンコペーションドラム、強いエモーションを持つ、軽快で陽気なEDM、BPMは130で。)
 「lofi slow bpm electro chill with organic samples」
  (Lo-FiのスローなBPMのエレクトロ・チルで、オーガニックなサンプルで構成。)
などが挙げられています。ここはセンスが問われる箇所ですね。

またプロンプト以外に「メロディーの条件:Condition on a melody (optional)」欄に必要あればベースにする音楽ファイル(MP3)を指定できます。

入力後、「生成:Generate」ボタンを押してしばらく待つと曲は完成します。デモ版なので12秒だけですが雰囲気は十分伝わります。

実際に僕が生成してみたサンプルを4つほど紹介します。以下、わかりやすいように説明は日本語で表記していますが、実際のプロンプトの指示は英語で行う必要があります。

1. ジャジーなヒップホップで、クラブに合う感じで。


ローファイ・ヒップホップのNujabesが好きなので、それっぽいBGMをまず作ってみました。初めてやってみたわりには、いきなりそれなりの完成度で驚きです。

2. フューチャーベースで、ダブステップやトラップをより暖かく、少ないリズムでミックスして。


温かみがあってちょっと可愛らしいドラムンベースを狙って、フューチャーベースを指示したもの。エレクトロな感じはあるけど、リズムの乗り方がイマイチの仕上がりに。これは僕の頼み方が悪かったのかもです。

3. シティーポップで、日本で人気のあるスタイル風にして。


今や世界的な人気のシティーポップをオーダー。日本らしいスタイルは残して・・・と思ったんですが、出来上がった曲は、イメージしてない和太鼓のような音作りになってしまい失敗ですね。まったく都会的じゃないですし。

4. ピアノソロ、ウッドベース、フルドラムのモダンジャズ。ジャズバーに合う感じで。


僕は一番好きなジャンルはジャズで、その中でも好みど真ん中はモダンジャズなんです。そこを狙ってシンプルにピアノトリオで指定してみました。ビル・エヴァンス風に仕上がるかと期待したんですがどうでしょうか?なんとなく雰囲気は出てるかなと思います。

なんにせよ、自分のポッドキャスト番組用にぴったりのBGMをAIで生成できるのは最高ですね。簡単なのでやってみることをおすすめします。ではまた!