ブログで100万の秘訣ってなに?
詳しくはコチラ

NVIDIAの最新技術はAIの声をより表現豊かでリアルな人間の声のように

Amazon(アマゾン)のAlexaやGoogleアシスタントなどのAIアシスタントの音声は、昔のGPSなどに比べればずっと良いが、それでもリズムや抑揚などは本物の人間に及ばない。しかしNVIDIAがこのほど発表した研究とツールは、そうした自然な発話を捕捉するためにユーザーがAIを自分の声で訓練できる。発表は、Interspeech 2021カンファレンスで行われた。
AIが行なう音声の合成を改良するためにNVIDIAのテキスト読み上げ研究チームは、アバターの本物らしさを競う、放送事業者の大会NAB Showのコンペで優勝したシステムであるRAD-TTSと呼ばれるモデルを開発した。このシステムは、人が自分の声でテキストから音声への読み上げを訓練することができ、AIの習得内容には発話のテンポや調性、音色なども含まれる。
 
もう1つのRAD-TTSの特長は、声の変換だ。ユーザーが別の人物の声で話者の語りを伝えて、その人物の声でAIを訓練できる。それにより、合成音声のピッチや持続、声の強さなどを個々のフレームのレベルで微調整できる。
この技術を使ってNVIDIAの研究者たちは、本物の会話のように聞こえるナレーションを作り、同社のビデオシリーズ「I Am AI」用に、人間の声でなく合成音声を使うことができた。その狙いはナレーションをビデオのトーンとスタイルに合わせるためであり

リンク元

コメント

タイトルとURLをコピーしました