Googleのテキスト音声変換APIにメジャー・アップデート――音声認識も改善

今日（米国時間4/9）、Googleは数週間前に公開したクラウド・テキスト音声変換サービスのAPIにメジャーアップデートを行ったことをを発表した。Googleは同時に逆方向のサービスである音声テキスト変換のクラウド音声認識APIにも大きな改善を行った。Googleのテストによれば、新しいAPIは認識エラーを全体で54%減らしたという。ただし一部のケースでは改善はこれをはるかに上回った。
アップデートされた音声テキスト変換APIを利用するとデベロッパーは　複数のユースケースをベースにした機械学習モデルから適したものを選ぶことができる。新APIは現在4つのモデルを提供している。そのひとつは検索と命令のための短い発話だ。また電話の音声認識、ビデオファイルの音声認識も提供されており、Googleがすべてのデベロッパーにデフォールトとして推薦するのが4番めの新しいモデルだ。
こうした新しい音声テキスト変換モデルに加え、Googleはパンクチュエーション（句読法）のモデルをアップデートした。Googleの開発チーム自身も認めているとおり、音声認識でこれまで最大の問題となってきたのは正しいパンクチュエーションの生成だった。ことに話者が通常と異なる発話の癖を持っている場合、パンクチュエーションを含めたテキスト起こしはきわめて困難になる
これはトランプ大統領の発言をパンクチュエーションを含めてテキ

リンク元