AI 音声 API 比較 — Deepgram / Whisper / ElevenLabs / Google Cloud Speech（2026 年 4 月）

この記事が役に立つ人

音声認識（STT）や音声合成（TTS）を Web アプリやモバイルアプリに組み込みたい
日本語の音声処理品質を重視している
リアルタイムストリーミングでの遅延を気にしている

掲載内容は 2026 年 4 月時点 の公式情報に基づきます。音声 AI は進化が速い分野であり、モデルのバージョンアップで精度が大きく変わることがあります。料金は構造と桁感のみ記載し、正確な数値は各社公式サイトで確認してください。

結論を先に

🗺️ 用途別クイック選定マップ

「音声認識（STT）」と「音声合成（TTS）」は別の市場

🎙️ STT — リアルタイム重視

Deepgram

ストリーミング STT のレイテンシが低く、リアルタイム字幕やコールセンター分析に強い。日本語モデルも提供。

🎙️ STT — 精度と手軽さ

OpenAI Whisper API

多言語対応の精度が高く、API が数行で呼べるシンプルさ。バッチ処理での書き起こしに適している。

🔊 TTS — 自然さ最重視

ElevenLabs

音声クローンと感情表現に強く、生成される音声の自然さでは現時点で最上位。日本語音声も対応。

🎙️🔊 STT + TTS — 統合型

Google Cloud Speech

Speech-to-Text と Text-to-Speech の両方を 1 つのプラットフォームで提供。GCP 内で完結したい場合に。

📌

STT と TTS は別々に選んでよい

音声認識（Speech-to-Text）と音声合成（Text-to-Speech）は技術的に独立しており、別のサービスを組み合わせて使うのが一般的です。「STT は Deepgram、TTS は ElevenLabs」のように、用途ごとに最適なサービスを選んでください。

対象 4 サービスの位置づけ

Deepgram（STT 特化）

独自の音声認識モデルを開発する STT 専業の API プロバイダ。エンタープライズ向けのリアルタイム書き起こし・コールセンター分析で実績がある。WebSocket 接続によるストリーミング STT のレイテンシの低さが特徴。

OpenAI Whisper API（STT）

OpenAI が公開した Whisper モデルの API 版。多言語対応の精度が高く、日本語を含む 100 言語以上を認識できる。API は音声ファイルを POST するだけのシンプルな設計。

ElevenLabs（TTS 特化）

音声合成に特化した API。音声クローン（既存の音声からプロファイルを作成）と、感情やトーンの調整が可能。ポッドキャスト・オーディオブック・ゲームの音声生成で採用されている。

Google Cloud Speech（STT + TTS）

Google Cloud の音声関連 API 群。Speech-to-Text V2 と Text-to-Speech の両方を提供し、GCP エコシステム内で完結できる。医療やコールセンター向けのカスタムモデルトレーニング機能もある。

音声認識（STT）の比較

項目	Deepgram	OpenAI Whisper API	Google Cloud STT
接続方式	REST + WebSocket	REST のみ	REST + gRPC ストリーミング
リアルタイムストリーミング	対応（低レイテンシ）	非対応（バッチのみ）	対応
日本語認識精度	中〜高（モデル依存）	高	高
カスタムモデル	対応（エンタープライズ）	非対応	対応
話者分離	対応	非対応（API 版）	対応
句読点自動挿入	対応	対応	対応

⚠️

Whisper API はストリーミング非対応

OpenAI の Whisper API は音声ファイルを一括送信するバッチ処理のみで、リアルタイムストリーミングには対応していません。ライブ字幕やリアルタイム翻訳には Deepgram または Google Cloud STT を検討してください。なお、Whisper モデルをセルフホストすればストリーミング化は可能ですが、インフラ運用の負担が発生します。

音声合成（TTS）の比較

項目	ElevenLabs	Google Cloud TTS	OpenAI TTS
日本語音声	対応（複数話者）	対応（WaveNet / Neural2）	対応（複数話者）
音声クローン	対応	非対応	非対応
感情・トーン調整	対応	SSML で部分対応	限定的
ストリーミング出力	対応	対応	対応
カスタム音声作成	対応	Custom Voice（エンタープライズ）	非対応
音声数	数千以上	数百以上	数種類

💡

日本語 TTS の自然さは急速に改善している

2025 年以降、各社の日本語 TTS モデルは大幅に改善されており、ElevenLabs と Google Neural2 の日本語はイントネーションの不自然さがかなり軽減されています。ただし、敬語・方言・専門用語の読み上げ精度にはまだ差があるため、実際のユースケースでテストすることを強く推奨します。

料金構造

⚠️

課金単位が異なるため単純比較はできない

Deepgram は音声時間（秒・分）単位、OpenAI Whisper は音声時間単位、ElevenLabs は文字数単位、Google Cloud は音声時間または文字数単位です。同じ「1 分の処理」でも課金ロジックが違うため、自分の利用パターンで試算してください。

項目	Deepgram	OpenAI Whisper	ElevenLabs	Google Cloud
課金単位	音声秒数	音声分数	文字数	音声秒 or 文字数
無料枠	一定時間の無料クレジット	なし（従量課金）	月間文字数制限あり	月 60 分（STT）+ 一定文字数（TTS）
桁感	1 時間あたり数ドル	1 分あたり数セント	1,000 文字あたり数セント〜	1 分あたり数セント
従量課金の傾向	中	安	中〜高	中

レイテンシとストリーミング

🔧 ストリーミング対応状況

リアルタイム処理の可否が用途を決める

<!-- Deepgram -->
<text x="20" y="65" fill="rgb(99 102 241)" font-size="13" font-weight="700">Deepgram</text>
<rect x="80" y="45" width="200" height="36" rx="8" fill="rgb(52 211 153 / 0.15)" stroke="rgb(52 211 153 / 0.3)" stroke-width="1"/>
<text x="180" y="68" fill="rgb(167 243 208)" font-size="11" font-weight="600" text-anchor="middle">対応（WebSocket）</text>
<rect x="400" y="45" width="200" height="36" rx="8" fill="rgb(100 116 139 / 0.1)" stroke="rgb(100 116 139 / 0.3)" stroke-width="1"/>
<text x="500" y="68" fill="rgb(148 163 184)" font-size="11" font-weight="500" text-anchor="middle">TTS 提供あり</text>

<!-- Whisper -->
<text x="20" y="120" fill="rgb(52 211 153)" font-size="13" font-weight="700">Whisper</text>
<rect x="80" y="100" width="200" height="36" rx="8" fill="rgb(239 68 68 / 0.1)" stroke="rgb(239 68 68 / 0.3)" stroke-width="1"/>
<text x="180" y="123" fill="rgb(252 165 165)" font-size="11" font-weight="500" text-anchor="middle">非対応（バッチのみ）</text>
<rect x="400" y="100" width="200" height="36" rx="8" fill="rgb(100 116 139 / 0.1)" stroke="rgb(100 116 139 / 0.3)" stroke-width="1"/>
<text x="500" y="123" fill="rgb(148 163 184)" font-size="11" font-weight="500" text-anchor="middle">別 API（OpenAI TTS）</text>

<!-- ElevenLabs -->
<text x="20" y="175" fill="rgb(192 132 252)" font-size="13" font-weight="700">ElevenLabs</text>
<rect x="80" y="155" width="200" height="36" rx="8" fill="rgb(100 116 139 / 0.1)" stroke="rgb(100 116 139 / 0.3)" stroke-width="1"/>
<text x="180" y="178" fill="rgb(148 163 184)" font-size="11" font-weight="500" text-anchor="middle">STT 非提供</text>
<rect x="400" y="155" width="200" height="36" rx="8" fill="rgb(52 211 153 / 0.15)" stroke="rgb(52 211 153 / 0.3)" stroke-width="1"/>
<text x="500" y="178" fill="rgb(167 243 208)" font-size="11" font-weight="600" text-anchor="middle">対応（低レイテンシ）</text>

<!-- Google -->
<text x="20" y="230" fill="rgb(59 130 246)" font-size="13" font-weight="700">Google</text>
<rect x="80" y="210" width="200" height="36" rx="8" fill="rgb(52 211 153 / 0.15)" stroke="rgb(52 211 153 / 0.3)" stroke-width="1"/>
<text x="180" y="233" fill="rgb(167 243 208)" font-size="11" font-weight="600" text-anchor="middle">対応（gRPC）</text>
<rect x="400" y="210" width="200" height="36" rx="8" fill="rgb(52 211 153 / 0.15)" stroke="rgb(52 211 153 / 0.3)" stroke-width="1"/>
<text x="500" y="233" fill="rgb(167 243 208)" font-size="11" font-weight="600" text-anchor="middle">対応</text>

日本語対応の実態

日本語の音声処理は英語に比べて各社で精度差が大きい分野です。

STT（音声認識）:

OpenAI Whisper — 日本語の認識精度はトップクラス。アクセントや方言にも比較的強い
Google Cloud STT — V2 モデルで日本語精度が向上。医療・金融向けのカスタムモデルも構築可能
Deepgram — 日本語モデルを提供しているが、英語モデルほどの精度差はまだある。ノイズ環境での認識精度を要検証

TTS（音声合成）:

ElevenLabs — 日本語対応の多言語モデルを提供。感情表現の自然さは英語に近づいている
Google Cloud TTS — WaveNet / Neural2 の日本語音声は安定した品質。SSML で読み上げの細かい調整が可能
OpenAI TTS — 日本語音声を提供しているが、話者バリエーションは少ない

🚨

日本語のイントネーション問題は完全には解決していない

すべての TTS サービスで、日本語特有のイントネーション（助詞のピッチ、複合語のアクセント）に不自然さが残るケースがあります。特に固有名詞、地名、専門用語は読み間違いが発生しやすく、本番導入前には必ず対象テキストで試聴テストを行ってください。

まとめ

📋 AI 音声 API 選定チェックリスト

STT と TTS は別々に選ぶのが基本

STT リアルタイム

Deepgram

WebSocket ストリーミングで低レイテンシ。ライブ字幕に

STT 精度重視

Whisper API

多言語精度トップクラス。バッチ書き起こしに最適

TTS 自然さ最重視