音声認識は最近のスマートフォンの標準的機能だ。人工知能を利用した分析は驚くほど正確なこともあればひどい混乱に陥ることもある。しかし最大の問題は、Siri、Alexa、Googleアシスタントなどが返事を返してくるのが遅れることだ。Googleの最新の音声認識は完全にオフラインで動作するため遅延を完全に排除できる。ただし認識失敗はやはりときおり起きる。
遅延がなぜ起きるのかといえば、ユーザーの音声データはローカルデバイスからネットワークを通じてはるばる音声認識エンジンが存在するサーバーまで旅しなければならないからだ。データはそこで分析されてからユーザーに戻される。当然ながらこれには時間がかかる。応答を待つ時間はミリ秒単位ですむ場合もある。しかしまるまる数秒かかることあり、そうなればユーザーは苛立たしい思いをする。最悪の場合、経路の途中でデータの一部が行方不明になり、まるきり応答が返ってこないこともある。
それなら音声認識をローカルデバイス上で実行すればいいではないか?プロバイダーもそれが理想的な解決法だと考えている。しかし音声をミリ秒単位でテキストデータに変換する処理は膨大なコンピューティングパワーを食う。つまりマイクが拾うのは単なる「音」であって「発話」ではない。音声をテキスト化するためには言語と発話が行われたコンテキストに関する膨大な情報が必要だ。
もちろんローカルデバイス上で実
コメント