人工智能(AI)設備已經能處理來自獨立個人的請求,但跟我們一樣,它們在嘈雜的雞尾酒會上或幾個人同時發言的情況下,也會感到“糾結”。《新科學家》雜志官網近日文章稱,美國劍橋三菱電機研究實驗室的研究人員開發出的聲音識別AI設備,能實時分離多個聲源,大大提升了自動語言識別能力。
這項技術首次在日本東京先進技術綜合展覽會上公開展示,被團隊稱為“深度聚類”機器學習,可識別多個聲源“聲紋”中的獨特功能。然后,將每個演講者聲音的不同特征組合在一起,允許它從多個聲音中將特定特征的聲音選出來,最后重建每個人的話語。智能技術使用了多名人士講的英語進行了培訓和學習,即便說話人是日本人,也能輕鬆地分辨出來。
據介紹,傳統識別語音的方法,利用兩個收音器模擬聽眾兩耳朵的位置,隻能達到51%的准確性,形成的“雞尾酒會效應”困擾了AI研究幾十年。
新智能系統可以將兩個人的語音成功分離,而且,重建單人語音的精確度高達90%,新技術可幫助家庭和汽車更好地執行智能任務,一次可分離多達5個人的聲音,可用於電梯、空調機組和家用產品的智能操控。(記者 房琳琳)