天貓雙11狂歡節再一次創造了新的商業奇跡,也直接推動了機器智能技術邁向新的高度。11月14日,據阿裡巴巴披露,雙11期間共處理了超9000萬次語音請求,其中8500多萬次語音識別請求,超過300萬次語音合成請求。
智能語音技術的廣泛應用,對於消費者來說最直觀的體驗便是搶紅包從動手變成了動嘴。語音密令紅包、店鋪問答紅包等隨處可見。面對海量的用戶訪問,語言又是各具地方特色,如何做到快速理解、准確響應呢?阿裡巴巴iDST智能語音團隊為此提供了技術支持,並將其集成到阿裡雲ET當中。
粉絲趴:用戶說出品牌的口號,即可獲得獎品
以店鋪問答場景為例,研究人員為這些店鋪定制了專屬語音模型,可以滿足各類商家動態調整的需求。整個定制過程也實現了自動化,可分鐘級的將模型定制上線,突破傳統天級甚至周級的語音識別模型訓練上線周期。
正是基於這樣的技術,確保了系統對新詞、未知詞識別的准確率。即使是一家賣光學儀器的店鋪設置的專業問答,人工智能也能聽的懂。
在雙11晚會的“明星到家”活動中,很多觀眾可以看到明星能夠親臨你家並能與你互動。但其實,這並非是明星提前錄制的聲音,而是人工智能在模仿明星說話。在這個項目中,明星隻需要錄制200句話便可以完成對人工智能的訓練。之后,人工智能就可以想說什麼說什麼了,幾乎做到了以假亂真。
盧靖姍“穿越”到用戶家中互動
為此,研究人員使用了基於線性變換和低秩分解的神經網絡說話人自適應技術,即錄制說話人的少量句子,就能發出該說話人的聲音。
雖然普通消費者是第一次體驗這樣的技術,但事實上這些技術已經在多個垂直領域落地。iDST將這一技術集成到阿裡雲ET上后,已經在法庭庭審識別、智能客服、視頻審核和字幕、聲紋驗証、物聯網等多個場景成功應用。全國有近300家法院和超過6000家法庭在使用ET,每年有超過1.2億通客服電話由ET在協助人類接聽。