・Googleは、混雑した場所でも特定の音声に焦点を当てることができる新しいAIを開発。
・視覚信号と聴覚信号の両方を組み合わせて、音声を分離。
・音声認識を前処理することによって、重複する話者に対してより良いビデオキャプションシステムを提供。
人間は、混雑した場所で特定の音声を拾うことが非常に得意で、その他の音を勝手にミュートしてしまいます。しかし、これは機械にとってとっても難しい問題!2人以上の人が話しているとき、あるいは背景に雑音があるときは、個々のスピーチを分離するのはまだ上手ではありませんでした。
しかし現在、Googleは、音声と背景雑音の混合から単一の音声信号に焦点を当てることができる深い学習に基づく視聴覚モデルを開発したんです!!AIは、その他のすべての音を抑えながら、ビデオを分析したり、特定の人の声を高めたりすることができます。
特別なオーディオ形式やビデオ形式は必要なし。一般的なビデオ形式では、1つのオーディオトラックを使用して動作します。ユーザは、聴きたいビデオの中で特定の顔を選択することができ、あるいは、そのアルゴリズムに基づいてアルゴリズムを実行。
この技術は、映像の視覚信号と聴覚信号の両方を組み合わせて、音声を分離します。アルゴリズムは、口の動きに基づいて現在話している人を識別可能。混合した音声であ
コメント