人工智能描述圖片 幫視障者“看”到更多

2018年02月12日08:18  來源:科技日報
 
原標題:AI描述圖片,幫視障者“看”到更多

劉彪正在使用qq空間。(信息無障礙研究會供圖)

劉彪打開手機QQ空間,觸摸到好友發的圖片。

以前,他耳邊響起的是讀屏提示音“圖片”。現在,他聽到了更多內容——“圖片:一個長發女孩在夕陽下的照片。”

這是新的安卓版QQ空間客戶端基於人工智能技術推出的“圖片語音即時描述”功能。

“這個感覺很不一般。”劉彪是視障者,也是公益組織信息無障礙研究會的技術主管。雖然語音只是描述出了圖片的主要信息,但對劉彪而言,體驗從此大不相同。“以前好友發圖,就隻能‘繞道’。現在知道他大概發了什麼,還能在評論區互動一下。”在人工智能的幫助下,視障者成功地在圖片動態下刷了把存在感。

讓科技在社交場所落地

很早之前,信息無障礙研究會就和QQ空間建立了合作,協助他們進行軟件的無障礙優化。

所謂信息無障礙,簡單來講,就是讓包括視障者、聽障者、讀寫障礙者在內的所有用戶,都能夠順暢使用互聯網。它是互聯網世界裡的無障礙設施,就好像馬路上的盲道、地鐵站裡的無障礙電梯。

視障者,同樣也是互聯網產品的用戶。他們靠語音輔助程序或讀屏軟件,讀新聞、點外賣、購物、打車……

以及社交。

劉彪說,現在越來越多的人喜歡晒圖和發小視頻,但他們看不見,就隻能去問一句——你發了什麼?“我們就跟QQ空間的工程師反饋了這個痛點——如果圖片能識別出來,那多酷。”

QQ空間產品開發技術人員告訴科技日報記者,目前QQ空間用戶發表的動態中,60%以上包含圖片。如果無法讀圖,對視障人群來講,確實是相當大的信息缺失。雙方都覺得這個功能挺酷,於是說干就干,著手優化。QQ空間也和騰訊人工智能團隊溝通,尋找科技解決方案。這次的圖片語音即時描述功能,就用到騰訊AI Lab的技術。

“騰訊AI Lab圖片描述生成技術一般都是基於編碼器—解碼器框架。這一技術的難點在於設計出能夠充分理解圖像內容的模型,進而將相應編碼的圖像內容再‘翻譯’成自然語句。”騰訊AI Lab技術人員解釋,這樣的模型不僅需要深度理解圖像,也需要理解自然語言,更重要的是學習圖像與自然語言之間的多模態交互關系。

要真正落地,技術還要應對一大難題,那就是用戶上傳的圖片具有高度多樣性。他們發星辰大海,也發生活中的細枝末節。由於圖片題材廣泛,騰訊AI Lab技術人員坦言,有時圖像的自然語句描述不會特別精確。“這需不斷積累數據,不斷提升算法的性能,兩者互相促進,提升算法精確度。”

為無障礙錦上添花

其實就在幾年前,對國內互聯網公司來說,“信息無障礙”還是個有些陌生的概念。

當時,科技日報記者曾採訪現在的信息無障礙產品聯盟秘書長梁振宇。他表示,對互聯網產品團隊來說,每個問題都有優先級。“無障礙優化”這一看起來有些小眾的需求,有時就被放在了一旁。

“這兩年,社會各界對信息無障礙的關注都在提升。”劉彪介紹,信息無障礙研究會和百度、騰訊以及阿裡旗下的多款產品都建立了合作關系。至少,現在主流的互聯網公司都知道何為無障礙,有條件的,也願意為此努力。

QQ空間產品團隊就表示,在信息無障礙技術方面,手機QQ空間從2014年開始,持續在好友動態、消息、個人主頁等核心場景優化體驗,並把信息無障礙作為每一個功能發布的必備特性,堅持每個版本解決一些問題,並從內測階段即邀請視障用戶參與產品測評,再根據反饋的建議和意見,持續進行版本優化。“讓QQ空間更好地服務障礙用戶,為障礙者提供舒適的社交體驗。”

要做到信息無障礙,其實並不需要前沿什麼技術。劉彪介紹,開發者了解用戶需求並按照一定規范進行APP的設計開發,產品就能實現“信息無障礙”,從而造福廣大視障用戶。而人工智能,則可以錦上添花。

“語音輸入讓我們的輸入效率變得更高,OCR文字識別讓我們能夠‘認’出藥瓶上的字。那些改變你們生活的應用,也提高了我們的生活質量。”劉彪也在用智能音箱等智能家居產品。“我們以前用空調、洗衣機等家電時,是靠記憶來按按鈕,有了人工智能技術,可以進行語音控制,也省去了這些麻煩。”他提醒道,“有些智能家居有手機APP操控功能,這些APP也要注意進行無障礙優化。”(記者 張蓋倫)

(責編:於露、張希)