ここ数年、スマートスピーカーや運転支援モードの普及に伴って、音声認識は便利なものから重要なものへと変化してきたが、誰の声でも同じようにきちんと認識できるわけではない。Speechmatics(スピーチマティック)は、最も包括的で正確なモデルを持っていると主張する。特に一般的な米国のアクセント以外のスピーチに関しては、Amazon(アマゾン)やGoogle(グーグル)などを凌駕しているという。
関連記事インドやフィリピンなどアクセントが異なる英語の認識が向上した音声認識モデル「Speechmatics」安価なApple Music VoiceプランはSiriの改良を進める作戦である可能性が高いコンピュータービジョンにとどまらず企業の非構造化データを管理するClarifaiが68億円調達
同社は、2019年にスタンフォード大学で行われた「Racial Disparities on Speech Recognition(音声認識における人種格差)」と題した研究の内容から精度の問題関心が向いたと説明している。たとえばAmazon、Apple(アップル)、Google、IBM、Microsoft(マイクロソフト)の音声エンジンは「人種による大きな格差が見られている。たとえば平均ワードエラー率(WER)をみると、白人話者に対しては0.19であったのに対し、黒人の話者の場合は0.35だった」とあ
コメント