人工智能描述圖片幫視障者“看”到更多

2018年02月12日08:18 來源：科技日報

原標題：AI描述圖片，幫視障者“看”到更多

劉彪正在使用qq空間。（信息無障礙研究會供圖）

劉彪打開手機QQ空間，觸摸到好友發的圖片。

以前，他耳邊響起的是讀屏提示音“圖片”。現在，他聽到了更多內容——“圖片：一個長發女孩在夕陽下的照片。”

這是新的安卓版QQ空間客戶端基於人工智能技術推出的“圖片語音即時描述”功能。

“這個感覺很不一般。”劉彪是視障者，也是公益組織信息無障礙研究會的技術主管。雖然語音只是描述出了圖片的主要信息，但對劉彪而言，體驗從此大不相同。“以前好友發圖，就隻能‘繞道’。現在知道他大概發了什麼，還能在評論區互動一下。”在人工智能的幫助下，視障者成功地在圖片動態下刷了把存在感。

讓科技在社交場所落地

很早之前，信息無障礙研究會就和QQ空間建立了合作，協助他們進行軟件的無障礙優化。

所謂信息無障礙，簡單來講，就是讓包括視障者、聽障者、讀寫障礙者在內的所有用戶，都能夠順暢使用互聯網。它是互聯網世界裡的無障礙設施，就好像馬路上的盲道、地鐵站裡的無障礙電梯。

視障者，同樣也是互聯網產品的用戶。他們靠語音輔助程序或讀屏軟件，讀新聞、點外賣、購物、打車……

以及社交。

劉彪說，現在越來越多的人喜歡晒圖和發小視頻，但他們看不見，就隻能去問一句——你發了什麼？“我們就跟QQ空間的工程師反饋了這個痛點——如果圖片能識別出來，那多酷。”

QQ空間產品開發技術人員告訴科技日報記者，目前QQ空間用戶發表的動態中，60%以上包含圖片。如果無法讀圖，對視障人群來講，確實是相當大的信息缺失。雙方都覺得這個功能挺酷，於是說干就干，著手優化。QQ空間也和騰訊人工智能團隊溝通，尋找科技解決方案。這次的圖片語音即時描述功能，就用到騰訊AI Lab的技術。

“騰訊AI Lab圖片描述生成技術一般都是基於編碼器—解碼器框架。這一技術的難點在於設計出能夠充分理解圖像內容的模型，進而將相應編碼的圖像內容再‘翻譯’成自然語句。”騰訊AI Lab技術人員解釋，這樣的模型不僅需要深度理解圖像，也需要理解自然語言，更重要的是學習圖像與自然語言之間的多模態交互關系。

要真正落地，技術還要應對一大難題，那就是用戶上傳的圖片具有高度多樣性。他們發星辰大海，也發生活中的細枝末節。由於圖片題材廣泛，騰訊AI Lab技術人員坦言，有時圖像的自然語句描述不會特別精確。“這需不斷積累數據，不斷提升算法的性能，兩者互相促進，提升算法精確度。”

為無障礙錦上添花

其實就在幾年前，對國內互聯網公司來說，“信息無障礙”還是個有些陌生的概念。

當時，科技日報記者曾採訪現在的信息無障礙產品聯盟秘書長梁振宇。他表示，對互聯網產品團隊來說，每個問題都有優先級。“無障礙優化”這一看起來有些小眾的需求，有時就被放在了一旁。

“這兩年，社會各界對信息無障礙的關注都在提升。”劉彪介紹，信息無障礙研究會和百度、騰訊以及阿裡旗下的多款產品都建立了合作關系。至少，現在主流的互聯網公司都知道何為無障礙，有條件的，也願意為此努力。

QQ空間產品團隊就表示，在信息無障礙技術方面，手機QQ空間從2014年開始，持續在好友動態、消息、個人主頁等核心場景優化體驗，並把信息無障礙作為每一個功能發布的必備特性，堅持每個版本解決一些問題，並從內測階段即邀請視障用戶參與產品測評，再根據反饋的建議和意見，持續進行版本優化。“讓QQ空間更好地服務障礙用戶，為障礙者提供舒適的社交體驗。”

要做到信息無障礙，其實並不需要前沿什麼技術。劉彪介紹，開發者了解用戶需求並按照一定規范進行APP的設計開發，產品就能實現“信息無障礙”，從而造福廣大視障用戶。而人工智能，則可以錦上添花。

“語音輸入讓我們的輸入效率變得更高，OCR文字識別讓我們能夠‘認’出藥瓶上的字。那些改變你們生活的應用，也提高了我們的生活質量。”劉彪也在用智能音箱等智能家居產品。“我們以前用空調、洗衣機等家電時，是靠記憶來按按鈕，有了人工智能技術，可以進行語音控制，也省去了這些麻煩。”他提醒道，“有些智能家居有手機APP操控功能，這些APP也要注意進行無障礙優化。”（記者張蓋倫）