OpenAIが音声AIを刷新！リアルタイム翻訳・文字起こしも対応した3つの新モデルとは

2026.05.26

OpenAIは2026年5月、APIを通じて開発者向けに3つの新しいリアルタイム音声モデルをリリースしました。GPT-5クラスの推論能力を持つ音声モデルの登場により、単純な質問応答を超えた「実際に仕事をこなす」音声エージェントの開発が可能になります。本記事では、各モデルの特徴・性能・料金について詳しくまとめます。

3つの新リアルタイム音声モデルの概要
Realtime APIが正式版（GA）へ移行
主な活用シーン
料金体系
まとめ

3つの新リアルタイム音声モデルの概要

今回OpenAIがAPIに追加した音声モデルは以下の3種類です。

GPT-Realtime-2

GPT-Realtime-2は、OpenAIが初めてGPT-5クラスの推論能力を搭載した音声モデルです。従来のGPT-Realtime-1.5と比較して、より高度なリクエストへの対応と自然な会話の継続を実現しています。

コンテキストウィンドウは従来の32Kトークンから128Kトークンへと大幅に拡張されており、長時間の音声セッションや複雑なマルチステップのエージェント処理が外部メモリなしで実現できます。

音声通話中の「エージェント的な振る舞い」にも対応しており、ツール呼び出しの実行中に「少々お待ちください」「確認します」といった発話（プリアンブル）が可能なため、ユーザーを無音状態で待たせることがありません。また、複数のバックエンドリクエストを並列で実行しながら処理状況を音声で案内するパラレルツールコールにも対応しています。

性能面では、音声AIにおける推論能力を評価するBig Bench Audioにおいて、GPT-Realtime-2（high）がGPT-Realtime-1.5より15.2%高いスコアを記録しています。また、多ターンの会話知性を評価するAudio MultiChallengeでは、GPT-Realtime-2（xhigh）がGPT-Realtime-1.5より13.8%高いスコアを示し、指示への追従性・文脈管理・制御性の向上が確認されています。

GPT-Realtime-Translate

GPT-Realtime-Translateは、話者の発話スピードに追いつきながらリアルタイムで音声翻訳を行う新しいモデルです。70以上の入力言語から13の出力言語への翻訳に対応しています。

GPT-Realtime-Whisper

GPT-Realtime-Whisperは、話者が話している最中にリアルタイムでテキスト文字起こしを行うストリーミング型の音声認識モデルです。低遅延での高精度な文字起こしを実現します。

Realtime APIが正式版（GA）へ移行

今回のリリースに合わせ、OpenAIのRealtime APIがベータ版から正式版（General Availability）へ移行しました。これにより、プロダクション環境での音声エージェント開発に向けた信頼性・安定性が担保された状態で利用できるようになっています。

主な活用シーン

OpenAIが想定している活用シーンには、音声から直接アクションを実行するワークフロー、ソフトウェアが音声でユーザーをガイドするリアルタイム案内、そして異なる言語間でのリアルタイム音声会話などが挙げられています。早期テストでは、顧客対応や従業員サポートのための音声エージェント構築に活用した事例も報告されています。

料金体系

各モデルの料金は以下のとおりです。

GPT-Realtime-2：音声入力トークン $32 / 100万トークン、キャッシュ済み入力トークン $0.40 / 100万トークン、音声出力トークン $64 / 100万トークン
GPT-Realtime-Translate：$0.034 / 分
GPT-Realtime-Whisper：$0.017 / 分

まとめ

OpenAIは今回の3モデルのリリースによって、リアルタイム音声AIを単純な呼びかけ・応答のフォーマットから脱却させ、「聞く・推論する・翻訳する・文字起こしする・行動する」という複合的な能力を持つ音声エージェントの時代へと移行させることを目指しています。Realtime APIの正式版移行とあわせて、音声を活用したプロダクト開発の加速が期待されます。

参照元：https://openai.com/ja-JP/index/advancing-voice-intelligence-with-new-models-in-the-api/