ポッドキャスト版「Audiostart News」も配信中!各ポッドキャストプラットフォーム「オーディオスタートニュース」で検索!

Spotify Research、AIを活用したポッドキャストの評価について解説

Spotify ResearchがAIを活用したポッドキャストの評価についての解説記事を公開しました。

Spotify Research / Profile-aware LLM-as-a-Judge for Podcasts: A Better Middle Ground Between Offline Metrics and A/B Tests

ポッドキャストの推薦評価は非常に困難です。オフライン指標は迅速ですが偏りがあり、A/Bテストは時間とリソースを犠牲にして厳密な評価を提供します。このギャップを埋めるために、私たちはプロファイルを考慮したLLMを審査員として活用する手法を提案します。

リスナーの嗜好を要約し、LLMにそのプロファイルに基づいて候補となるエピソードやリストを採点させるものです。47人のユーザーを対象とした調査では、このアプローチはリスナーの判断と75%の一致率を達成し、2つの実用グレードのモデル間の有意な差異を明らかにしました。これは、オフライン指標とA/Bテストの実用的な中間点を示しています。

核となるアイデア
私たちは2段階のアプローチを採用しています。まず、ユーザーのポッドキャスト視聴履歴を簡潔で人間が読めるプロファイルに抽出します。
次に、LLMに、候補となるエピソード、あるいはランキングリスト全体がそのプロファイルにどの程度適合しているかを判断させます。
この「プロファイルを考慮したLLM-as-a-Judge」により、長編オーディオのレコメンデーションを、正確でスケーラブルかつ解釈可能な形でオフライン評価することが可能になります。

パイプラインの仕組み
当社の評価フレームワークは2段階で機能します。

ステージ1: ユーザープロファイリング
まず、リスナーの最近のポッドキャスト活動履歴(約90日間)から自然言語プロファイルを生成します。
この履歴には、タイトル、説明、トランスクリプト、トピックタグが含まれており、簡潔で人間が読める要約へと抽出されます。
図1はこのプロセスを示しており、生の聴取データがどのように興味と習慣の一貫したプロファイルに変換されるかを示しています。

ステージ2:判断
プロファイルが構築されると、LLMに2つの入力(プロファイル自体と候補エピソード(またはランク付けされたリスト全体)のメタデータ)を入力として与えます。
LLMは以下の2種類の判断を下します。
・ポイント:このエピソードはリスナーの興味と一致していますか?モデルは「はい」または「いいえ」で回答し、その理由を示します。
・ペアワイズ: ランク付けされた 2 つのリスト (たとえば、モデル A とモデル B) がある場合、どちらがプロファイルに適合しているでしょうか。
このプロセスにより、判定と解釈可能な説明の両方が得られます。図2は、プロファイル → 候補エピソード/リスト → LLM判定 → 根拠と判定というパイプライン全体を示しています。

LLM の審査員はユーザーのフィードバックとどの程度一致していますか?
我々は、2つの匿名化された推薦モデルを比較する対照研究において、プロフィール認識ジャッジを評価しました。モデルAはコンテンツシグナルを重視し、モデルBは協調フィルタリングを重視しました。47名のユーザーが2つのモデルから得た最も優れた推薦についてフィードバックを提供し、277件の人間による注釈が作成されました。個々のエピソードがリスナーの興味に合致するかどうかを判定する点単位の評価では、判定者の精度は75%に達しました。主な誤差要因は誤検知(17%)で、実際には関連性のないエピソードを関連性があると判定してしまうことです。これは、LLMの既知の楽観バイアスを反映しています。

図3(左)は、LLMの判定と人間によるアノテーションを比較したエピソードレベルの混同行列を示しています。ペアワイズリスト評価(モデルAとモデルBのランク付けされたリストの比較)では、LLMの判定者はユーザーと強く一致し、モデルAを好みました。興味深いことに、LLMの判定者はユーザーよりも決断力があり、「同点」の判定は少なかったです。図3(右)は、モデルレベルでの比較を示しています。

最後に
プロファイルを考慮したLLM-as-a-Judgeは、ポッドキャストの推薦を評価するための拡張性と解釈性に優れた方法を提供します。47人のユーザーを対象とした調査では、特にモデルやランキングリストの比較において、人間の判断と非常によく一致しました。視聴履歴を透明性の高いプロファイルにまとめることで、従来のオフライン指標ではしばしば欠けている、正確性と説明可能性の両方を実現します。同様に重要なのは、このアプローチが、高速だが偏りのあるオフライン指標と、時間とコストのかかるA/Bテストの間のギャップを埋めることです。品質の問題を早期に発見し、微妙なモデル比較をサポートし、大規模な実験への依存を軽減します。既に実践されており、A/Bテストの導入を導き、モデル開発の精度向上に役立っています。
詳細については、次の論文をご覧ください:

プロファイルを考慮した LLM によるポッドキャスト推奨の評価
https://research.atspotify.com/publications/evaluating-podcast-recommendations-with-profile-aware-LLM-as-a-Judge

今回の紹介は以上です。
それでは、また。

タイトルとURLをコピーしました