2016年にローンチしたGoogleのCloud Speech APIは、話された言葉をテキストに書き起こす。このAPIが今日(米国時間8/14)、大幅にアップデートされた。
中でもいちばんおもしろいのは、これまでの89言語に加えて新たに30の言語が加わったことだろう。ただしこれらの数字には、英語とスペイン語とアラビア語の地域的な変種が複数含まれている。今回新たに加わったのは、ベンガル語、ラトビ(ヴィ)ア語、スワヒリ語などで、Googleによると、それらを話す人は約10億人いる。
重要な新しい機能もいくつか加わった。たとえば、言葉にタイムスタンプが付くこと。これにより元の音声と書き起こしテキストに同じタイムスタンプが付くので、前者から後者、あるいはその逆の、対照ができる。書き起こされたテキストを見た人が、それらの実際の発音を知ることができる。また、このAPIを使って人間が介助する書き起こしや翻訳サービスをしているところは、仕事のスピードアップができる。このAPIを使って1分10セントでインタビューの書き起こしサービスを提供しているHappy Scribeの協同ファウンダーAndré Bastieはこう述べる: “タイムスタンプでオーディオをテキストにマップできるので、書き起こしの校正に要する時間が大幅に短縮できる”。
アップロードできるファイルの大きさは、こ
コメント