Google Cloud Vision API は、画像を投げると「そこに何が写っているか」を多面的に返してくれる画像解析サービスだ。OCR によるテキスト抽出、物体検出とラベリング、顔検出、不適切コンテンツのセーフサーチ判定、ロゴ・ランドマーク認識まで、ひとつの API でカバーする。
実務で効くのは OCR とモデレーション
特に使われるのが二つ。ひとつは OCR で、手書き文字にもある程度対応するため、名刺・レシート・帳票の読み取り自動化に組み込みやすい。日本語の認識精度も実用域にある。もうひとつがセーフサーチ判定で、ユーザー投稿型サービスで露骨な画像を自動で弾く一次フィルターとして機能する。人手のモデレーションをゼロにはできないが、明らかにアウトな画像を機械で先に落とせる効果は大きい。
OCR の出力は後処理込みで考える
Vision の OCR は画像内の文字を高い精度で拾うが、返ってくるのは「文字列とその座標」であって、レシートの「合計金額」や名刺の「会社名」といった項目の意味づけまではしてくれない。帳票の自動化を本気で組むなら、座標やレイアウトから項目を切り出す後処理が必要になる。定型帳票が対象なら、構造化抽出に特化した Document AI 系のサービスの方が後処理を減らせる場合がある。
料金と適用範囲の線引き
料金は月あたりの解析ユニットで一定数まで無料、超過は機能ごとの従量課金になる。注意点は、同じ画像に複数の解析(OCR と物体検出など)をかけるとそれぞれ別ユニットとして計上されることだ。必要な解析だけを指定するのがコスト面で効く。大量の画像を扱うなら、1 枚ずつ同期呼び出しするより、バッチ処理のエンドポイントでまとめて投げる方がスループットとコストの両面で有利になる。
向かないのは動画のリアルタイム解析で、フレームを切り出して Vision に投げる発想は割高かつ非効率になる。動画が対象なら Video Intelligence API という別サービスが用意されている。