この記事が役に立つ人

  • 音声認識(STT)や音声合成(TTS)を Web アプリやモバイルアプリに組み込みたい
  • 日本語の音声処理品質を重視している
  • リアルタイムストリーミングでの遅延を気にしている

掲載内容は 2026 年 4 月時点 の公式情報に基づきます。音声 AI は進化が速い分野であり、モデルのバージョンアップで精度が大きく変わることがあります。料金は構造と桁感のみ記載し、正確な数値は各社公式サイトで確認してください。

結論を先に

🗺️ 用途別クイック選定マップ
「音声認識(STT)」と「音声合成(TTS)」は別の市場
🎙️ STT — リアルタイム重視
Deepgram
ストリーミング STT のレイテンシが低く、リアルタイム字幕やコールセンター分析に強い。日本語モデルも提供。
🎙️ STT — 精度と手軽さ
OpenAI Whisper API
多言語対応の精度が高く、API が数行で呼べるシンプルさ。バッチ処理での書き起こしに適している。
🔊 TTS — 自然さ最重視
ElevenLabs
音声クローンと感情表現に強く、生成される音声の自然さでは現時点で最上位。日本語音声も対応。
🎙️🔊 STT + TTS — 統合型
Google Cloud Speech
Speech-to-Text と Text-to-Speech の両方を 1 つのプラットフォームで提供。GCP 内で完結したい場合に。
📌
STT と TTS は別々に選んでよい

音声認識(Speech-to-Text)と音声合成(Text-to-Speech)は技術的に独立しており、別のサービスを組み合わせて使うのが一般的です。「STT は Deepgram、TTS は ElevenLabs」のように、用途ごとに最適なサービスを選んでください。

対象 4 サービスの位置づけ

Deepgram(STT 特化)

独自の音声認識モデルを開発する STT 専業の API プロバイダ。エンタープライズ向けのリアルタイム書き起こし・コールセンター分析で実績がある。WebSocket 接続によるストリーミング STT のレイテンシの低さが特徴。

OpenAI Whisper API(STT)

OpenAI が公開した Whisper モデルの API 版。多言語対応の精度が高く、日本語を含む 100 言語以上を認識できる。API は音声ファイルを POST するだけのシンプルな設計。

ElevenLabs(TTS 特化)

音声合成に特化した API。音声クローン(既存の音声からプロファイルを作成)と、感情やトーンの調整が可能。ポッドキャスト・オーディオブック・ゲームの音声生成で採用されている。

Google Cloud Speech(STT + TTS)

Google Cloud の音声関連 API 群。Speech-to-Text V2 と Text-to-Speech の両方を提供し、GCP エコシステム内で完結できる。医療やコールセンター向けのカスタムモデルトレーニング機能もある。

音声認識(STT)の比較

項目 Deepgram OpenAI Whisper API Google Cloud STT
接続方式 REST + WebSocket REST のみ REST + gRPC ストリーミング
リアルタイムストリーミング 対応(低レイテンシ) 非対応(バッチのみ) 対応
日本語認識精度 中〜高(モデル依存)
カスタムモデル 対応(エンタープライズ) 非対応 対応
話者分離 対応 非対応(API 版) 対応
句読点自動挿入 対応 対応 対応
⚠️
Whisper API はストリーミング非対応

OpenAI の Whisper API は音声ファイルを一括送信するバッチ処理のみで、リアルタイムストリーミングには対応していません。ライブ字幕やリアルタイム翻訳には Deepgram または Google Cloud STT を検討してください。なお、Whisper モデルをセルフホストすればストリーミング化は可能ですが、インフラ運用の負担が発生します。

音声合成(TTS)の比較

項目 ElevenLabs Google Cloud TTS OpenAI TTS
日本語音声 対応(複数話者) 対応(WaveNet / Neural2) 対応(複数話者)
音声クローン 対応 非対応 非対応
感情・トーン調整 対応 SSML で部分対応 限定的
ストリーミング出力 対応 対応 対応
カスタム音声作成 対応 Custom Voice(エンタープライズ) 非対応
音声数 数千以上 数百以上 数種類
💡
日本語 TTS の自然さは急速に改善している

2025 年以降、各社の日本語 TTS モデルは大幅に改善されており、ElevenLabs と Google Neural2 の日本語はイントネーションの不自然さがかなり軽減されています。ただし、敬語・方言・専門用語の読み上げ精度にはまだ差があるため、実際のユースケースでテストすることを強く推奨します。

料金構造

⚠️
課金単位が異なるため単純比較はできない

Deepgram は音声時間(秒・分)単位、OpenAI Whisper は音声時間単位、ElevenLabs は文字数単位、Google Cloud は音声時間または文字数単位です。同じ「1 分の処理」でも課金ロジックが違うため、自分の利用パターンで試算してください。

項目 Deepgram OpenAI Whisper ElevenLabs Google Cloud
課金単位 音声秒数 音声分数 文字数 音声秒 or 文字数
無料枠 一定時間の無料クレジット なし(従量課金) 月間文字数制限あり 月 60 分(STT)+ 一定文字数(TTS)
桁感 1 時間あたり数ドル 1 分あたり数セント 1,000 文字あたり数セント〜 1 分あたり数セント
従量課金の傾向 中〜高

レイテンシとストリーミング

🔧 ストリーミング対応状況
リアルタイム処理の可否が用途を決める
ストリーミング入力(STT) ストリーミング出力(TTS)
<!-- Deepgram -->
<text x="20" y="65" fill="rgb(99 102 241)" font-size="13" font-weight="700">Deepgram</text>
<rect x="80" y="45" width="200" height="36" rx="8" fill="rgb(52 211 153 / 0.15)" stroke="rgb(52 211 153 / 0.3)" stroke-width="1"/>
<text x="180" y="68" fill="rgb(167 243 208)" font-size="11" font-weight="600" text-anchor="middle">対応(WebSocket)</text>
<rect x="400" y="45" width="200" height="36" rx="8" fill="rgb(100 116 139 / 0.1)" stroke="rgb(100 116 139 / 0.3)" stroke-width="1"/>
<text x="500" y="68" fill="rgb(148 163 184)" font-size="11" font-weight="500" text-anchor="middle">TTS 提供あり</text>

<!-- Whisper -->
<text x="20" y="120" fill="rgb(52 211 153)" font-size="13" font-weight="700">Whisper</text>
<rect x="80" y="100" width="200" height="36" rx="8" fill="rgb(239 68 68 / 0.1)" stroke="rgb(239 68 68 / 0.3)" stroke-width="1"/>
<text x="180" y="123" fill="rgb(252 165 165)" font-size="11" font-weight="500" text-anchor="middle">非対応(バッチのみ)</text>
<rect x="400" y="100" width="200" height="36" rx="8" fill="rgb(100 116 139 / 0.1)" stroke="rgb(100 116 139 / 0.3)" stroke-width="1"/>
<text x="500" y="123" fill="rgb(148 163 184)" font-size="11" font-weight="500" text-anchor="middle">別 API(OpenAI TTS)</text>

<!-- ElevenLabs -->
<text x="20" y="175" fill="rgb(192 132 252)" font-size="13" font-weight="700">ElevenLabs</text>
<rect x="80" y="155" width="200" height="36" rx="8" fill="rgb(100 116 139 / 0.1)" stroke="rgb(100 116 139 / 0.3)" stroke-width="1"/>
<text x="180" y="178" fill="rgb(148 163 184)" font-size="11" font-weight="500" text-anchor="middle">STT 非提供</text>
<rect x="400" y="155" width="200" height="36" rx="8" fill="rgb(52 211 153 / 0.15)" stroke="rgb(52 211 153 / 0.3)" stroke-width="1"/>
<text x="500" y="178" fill="rgb(167 243 208)" font-size="11" font-weight="600" text-anchor="middle">対応(低レイテンシ)</text>

<!-- Google -->
<text x="20" y="230" fill="rgb(59 130 246)" font-size="13" font-weight="700">Google</text>
<rect x="80" y="210" width="200" height="36" rx="8" fill="rgb(52 211 153 / 0.15)" stroke="rgb(52 211 153 / 0.3)" stroke-width="1"/>
<text x="180" y="233" fill="rgb(167 243 208)" font-size="11" font-weight="600" text-anchor="middle">対応(gRPC)</text>
<rect x="400" y="210" width="200" height="36" rx="8" fill="rgb(52 211 153 / 0.15)" stroke="rgb(52 211 153 / 0.3)" stroke-width="1"/>
<text x="500" y="233" fill="rgb(167 243 208)" font-size="11" font-weight="600" text-anchor="middle">対応</text>

日本語対応の実態

日本語の音声処理は英語に比べて各社で精度差が大きい分野です。

STT(音声認識):

  • OpenAI Whisper — 日本語の認識精度はトップクラス。アクセントや方言にも比較的強い
  • Google Cloud STT — V2 モデルで日本語精度が向上。医療・金融向けのカスタムモデルも構築可能
  • Deepgram — 日本語モデルを提供しているが、英語モデルほどの精度差はまだある。ノイズ環境での認識精度を要検証

TTS(音声合成):

  • ElevenLabs — 日本語対応の多言語モデルを提供。感情表現の自然さは英語に近づいている
  • Google Cloud TTS — WaveNet / Neural2 の日本語音声は安定した品質。SSML で読み上げの細かい調整が可能
  • OpenAI TTS — 日本語音声を提供しているが、話者バリエーションは少ない
🚨
日本語のイントネーション問題は完全には解決していない

すべての TTS サービスで、日本語特有のイントネーション(助詞のピッチ、複合語のアクセント)に不自然さが残るケースがあります。特に固有名詞、地名、専門用語は読み間違いが発生しやすく、本番導入前には必ず対象テキストで試聴テストを行ってください。

まとめ

📋 AI 音声 API 選定チェックリスト
STT と TTS は別々に選ぶのが基本
STT リアルタイム
Deepgram
WebSocket ストリーミングで低レイテンシ。ライブ字幕に
STT 精度重視
Whisper API
多言語精度トップクラス。バッチ書き起こしに最適
TTS 自然さ最重視
ElevenLabs
音声クローン + 感情表現。ポッドキャスト・ゲームに
STT + TTS 統合型
Google Cloud Speech
両方を 1 プラットフォームで。GCP エコシステム内で完結