據英國《每日郵報》12月28日報道,谷歌將推出新款文語轉換(TTS)系統Tacotron 2,可讓AI語音助手的聲音更加自然。
不同於其他以復雜語言學和聲學特征為輸入的TTS系統,Tacotron 2通過學習人類對話和文本記錄並進行訓練,以生成更貼近人聲的語音。研究團隊表示,聽眾評價Tacotron 2的語音水平與專業錄音相當。
基於之前的研究成果Tacotron和WaveNet,Tacotron 2使用序列-序列模型,該模型將字母映射到編碼音頻的特征上。該過程結合了發音、音量、速度和語調。然后,這些特征被轉換成24 kHz的波形。
一項系統演示展示了Tacotron 2如何節奏流利地朗讀不同的文本(包括繞口令)。但是,一些較難的詞語仍然絆住了它。
研究團隊稱,雖然該系統在聽眾試驗中取得了不錯的反響,但還不夠完美。“我們的樣本聽起來不錯,但仍有一些棘手的問題有待解決。例如,我們的系統在復雜詞語發音上存在困難,在極端情況下甚至會隨機產生奇怪的噪音。而且,它還無法生成實時音頻。我們還不能控制它所產生的語音,無法引導它具有高興或悲傷的情緒。”(實習編譯:陳倩雲 審稿:李宗澤)