ここ数年、音声や動画のコンテンツやインターフェースが爆発的に増えているのは明らかだが、それらのメディアを扱う方法はまだ発展途上だ。そんな中、AssemblyAIが2800万ドル(約32億1000万円)の新たな資金調達により、音声解析のための主要なソリューションとなることを目指す。同社の超シンプルなAPIを利用することで、一度に数千の音声ストリームの文字起こし、要約、その他何が起きているのかを把握することができる。
電話や会議がビデオ通話になり、ソーシャルメディアの投稿が10秒のクリップ動画になり、チャットボットが発話し、音声を理解するようになるなど、マルチメディアは信じられないほど短期間に多くのものの標準となった。数え切れないほどの新しいアプリケーションが登場してきているが、他の新しい成長産業と同様に、アプリケーションを適切に実行したり、アプリケーションの上に新しいものを構築したりするためには、アプリケーションが生成するデータを操作できる必要がある。
問題は、音声はもともと簡単に扱えるものではないことだ。音声ストリームの「検索」はどのように行えば良いだろう。波形を見たり、通して聴いたりすることもできるが、それよりもまずは文字に書き起こして、その結果得られたテキストを検索する方が良いだろう。そこでAssemblyAIの出番となる。音声文字起こしサービスは数多くあるものの、自社のアプリ
コメント