この記事が役に立つ人
- 音声認識(STT)や音声合成(TTS)を Web アプリやモバイルアプリに組み込みたい
- 日本語の音声処理品質を重視している
- リアルタイムストリーミングでの遅延を気にしている
掲載内容は 2026 年 4 月時点 の公式情報に基づきます。音声 AI は進化が速い分野であり、モデルのバージョンアップで精度が大きく変わることがあります。料金は構造と桁感のみ記載し、正確な数値は各社公式サイトで確認してください。
結論を先に
🗺️ 用途別クイック選定マップ
「音声認識(STT)」と「音声合成(TTS)」は別の市場
🎙️ STT — リアルタイム重視
Deepgram
ストリーミング STT のレイテンシが低く、リアルタイム字幕やコールセンター分析に強い。日本語モデルも提供。
🎙️ STT — 精度と手軽さ
OpenAI Whisper API
多言語対応の精度が高く、API が数行で呼べるシンプルさ。バッチ処理での書き起こしに適している。
🔊 TTS — 自然さ最重視
ElevenLabs
音声クローンと感情表現に強く、生成される音声の自然さでは現時点で最上位。日本語音声も対応。
🎙️🔊 STT + TTS — 統合型
Google Cloud Speech
Speech-to-Text と Text-to-Speech の両方を 1 つのプラットフォームで提供。GCP 内で完結したい場合に。
📌
STT と TTS は別々に選んでよい
音声認識(Speech-to-Text)と音声合成(Text-to-Speech)は技術的に独立しており、別のサービスを組み合わせて使うのが一般的です。「STT は Deepgram、TTS は ElevenLabs」のように、用途ごとに最適なサービスを選んでください。
対象 4 サービスの位置づけ
Deepgram(STT 特化)
独自の音声認識モデルを開発する STT 専業の API プロバイダ。エンタープライズ向けのリアルタイム書き起こし・コールセンター分析で実績がある。WebSocket 接続によるストリーミング STT のレイテンシの低さが特徴。
OpenAI Whisper API(STT)
OpenAI が公開した Whisper モデルの API 版。多言語対応の精度が高く、日本語を含む 100 言語以上を認識できる。API は音声ファイルを POST するだけのシンプルな設計。
ElevenLabs(TTS 特化)
音声合成に特化した API。音声クローン(既存の音声からプロファイルを作成)と、感情やトーンの調整が可能。ポッドキャスト・オーディオブック・ゲームの音声生成で採用されている。
Google Cloud Speech(STT + TTS)
Google Cloud の音声関連 API 群。Speech-to-Text V2 と Text-to-Speech の両方を提供し、GCP エコシステム内で完結できる。医療やコールセンター向けのカスタムモデルトレーニング機能もある。
音声認識(STT)の比較
| 項目 |
Deepgram |
OpenAI Whisper API |
Google Cloud STT |
| 接続方式 |
REST + WebSocket |
REST のみ |
REST + gRPC ストリーミング |
| リアルタイムストリーミング |
対応(低レイテンシ) |
非対応(バッチのみ) |
対応 |
| 日本語認識精度 |
中〜高(モデル依存) |
高 |
高 |
| カスタムモデル |
対応(エンタープライズ) |
非対応 |
対応 |
| 話者分離 |
対応 |
非対応(API 版) |
対応 |
| 句読点自動挿入 |
対応 |
対応 |
対応 |
⚠️
Whisper API はストリーミング非対応
OpenAI の Whisper API は音声ファイルを一括送信するバッチ処理のみで、リアルタイムストリーミングには対応していません。ライブ字幕やリアルタイム翻訳には Deepgram または Google Cloud STT を検討してください。なお、Whisper モデルをセルフホストすればストリーミング化は可能ですが、インフラ運用の負担が発生します。
音声合成(TTS)の比較
| 項目 |
ElevenLabs |
Google Cloud TTS |
OpenAI TTS |
| 日本語音声 |
対応(複数話者) |
対応(WaveNet / Neural2) |
対応(複数話者) |
| 音声クローン |
対応 |
非対応 |
非対応 |
| 感情・トーン調整 |
対応 |
SSML で部分対応 |
限定的 |
| ストリーミング出力 |
対応 |
対応 |
対応 |
| カスタム音声作成 |
対応 |
Custom Voice(エンタープライズ) |
非対応 |
| 音声数 |
数千以上 |
数百以上 |
数種類 |
💡
日本語 TTS の自然さは急速に改善している
2025 年以降、各社の日本語 TTS モデルは大幅に改善されており、ElevenLabs と Google Neural2 の日本語はイントネーションの不自然さがかなり軽減されています。ただし、敬語・方言・専門用語の読み上げ精度にはまだ差があるため、実際のユースケースでテストすることを強く推奨します。
料金構造
⚠️
課金単位が異なるため単純比較はできない
Deepgram は音声時間(秒・分)単位、OpenAI Whisper は音声時間単位、ElevenLabs は文字数単位、Google Cloud は音声時間または文字数単位です。同じ「1 分の処理」でも課金ロジックが違うため、自分の利用パターンで試算してください。
| 項目 |
Deepgram |
OpenAI Whisper |
ElevenLabs |
Google Cloud |
| 課金単位 |
音声秒数 |
音声分数 |
文字数 |
音声秒 or 文字数 |
| 無料枠 |
一定時間の無料クレジット |
なし(従量課金) |
月間文字数制限あり |
月 60 分(STT)+ 一定文字数(TTS) |
| 桁感 |
1 時間あたり数ドル |
1 分あたり数セント |
1,000 文字あたり数セント〜 |
1 分あたり数セント |
| 従量課金の傾向 |
中 |
安 |
中〜高 |
中 |
レイテンシとストリーミング
🔧 ストリーミング対応状況
リアルタイム処理の可否が用途を決める
日本語対応の実態
日本語の音声処理は英語に比べて各社で精度差が大きい分野です。
STT(音声認識):
- OpenAI Whisper — 日本語の認識精度はトップクラス。アクセントや方言にも比較的強い
- Google Cloud STT — V2 モデルで日本語精度が向上。医療・金融向けのカスタムモデルも構築可能
- Deepgram — 日本語モデルを提供しているが、英語モデルほどの精度差はまだある。ノイズ環境での認識精度を要検証
TTS(音声合成):
- ElevenLabs — 日本語対応の多言語モデルを提供。感情表現の自然さは英語に近づいている
- Google Cloud TTS — WaveNet / Neural2 の日本語音声は安定した品質。SSML で読み上げの細かい調整が可能
- OpenAI TTS — 日本語音声を提供しているが、話者バリエーションは少ない
🚨
日本語のイントネーション問題は完全には解決していない
すべての TTS サービスで、日本語特有のイントネーション(助詞のピッチ、複合語のアクセント)に不自然さが残るケースがあります。特に固有名詞、地名、専門用語は読み間違いが発生しやすく、本番導入前には必ず対象テキストで試聴テストを行ってください。
まとめ
📋 AI 音声 API 選定チェックリスト
STT と TTS は別々に選ぶのが基本
STT リアルタイム
Deepgram
WebSocket ストリーミングで低レイテンシ。ライブ字幕に
STT 精度重視
Whisper API
多言語精度トップクラス。バッチ書き起こしに最適
TTS 自然さ最重視
ElevenLabs
音声クローン + 感情表現。ポッドキャスト・ゲームに
STT + TTS 統合型
Google Cloud Speech
両方を 1 プラットフォームで。GCP エコシステム内で完結