GoogleがProject Euphoniaの包括的な音声認識を支えるAIの詳細を発表

アクセシビリティに向けた新たな取り組みの一環として、Googleは5月のGoogle I/OでProject Euphonia（プロジェクト・ユーホニア）を発表した。これは標準的ではない発声を行う人や、障害を持つ人の発話を理解する音声認識を開発しようとする試みである。同社は、この新しい機能を可能にしてくれるAIの一部を説明する投稿とその論文を公開した。
問題を理解することは簡単だ。筋萎縮性側索硬化症（ALS）などの変性疾患によって生じる運動障害を持つ人の話し声は、単純に既存の自然言語処理システムでは理解されないのだ。
その様子は、自らも発話に問題を抱えるGoogleリサーチサイエンティストのDimitri Kanevsky（ディミトリ・カネフスキー）氏が、Googleのプロダクトの1つと対話しようとする以下のビデオの中に見ることができる（最後には関連する仕事であるParrotronの助けを借りている）。
研究チームはこのプロジェクトを次のように説明している。「ASR（自動音声認識）システムは、ほとんどの場合、『典型的な』音声を使ってトレーニングされています。つまり、発話障害や強いアクセントを持っていたりする少数派のグループは、同じような利便性を受けることができません。現在の最先端のASRモデルは、ALSによって中程度の発話障害しか持たない話者に対して高い単語エラー率（WER：Wo

リンク元