幾位來自人工智能行業的專家分享完畢后,主持人把問題拋給蘇州市廣播電視總台總工程師郭昌雄:“他們把人工智能描述得這麼好,您對‘人工智能+媒體’有什麼期待?”
“現在已經有機器人寫稿了,但是還沒有機器人可以真正的編視頻。”在近日開幕的2017媒體融合發展論壇上,作為廣播電視界的媒體代表,郭昌雄說出了對人工智能的“另一種”需求。
的確,人工智能可以寫體育賽事、寫股市消息,甚至播報九寨溝的地震,但是在新聞領域,它需要做的可不止這些。
已經有媒體開始探索將人工智能應用於視頻處理。“現在媒體素材面臨的問題是,如何對視頻畫面進行自動描述,為以后的檢索使用提供便利。比如在海量視頻數據中自動把關於花草樹木的視頻找出來。”郭昌雄說,這必須考慮人工智能。
蘇州市廣播電視總台能夠實現的是,將長達17萬小時的視頻資源,用人工智能進行自動編目。也就是按照國家視頻編目標准,對視頻中的關鍵幀進行識別和定義。除此之外,這家媒體還實現了利用人工智能對視頻資源進行高速檢索,甚至可以將新聞類視頻按照內容自動剪切成一段段的短視頻。
“我們最近研發了一個視頻索引技術,把人工智能對圖像、語音、自然語言的處理,全部融合到對視頻的處理過程當中。”微軟(中國)有限公司資深架構師羅彤介紹了人工智能界的努力。其效果是,可以自動識別視頻中的特定人物,並將其作為索引加以標注。同時還可以將視頻中的對話識別成文字,再通過關鍵字識別對視頻內容進行定義。
對於郭昌雄的期待,商湯科技高級研究總監張偉回應,他們公司正在探索視頻摘要技術,也就是把長視頻中的精彩鏡頭剪輯出來,供觀眾快速瀏覽視頻。“這樣的技術進展很快,半年之內就可以落地。”張偉說。
羅彤告訴科技日報記者,人工智能對視頻進行處理,本質上都是對圖像進行處理,因為視頻本身是由若干幀圖像組成的。目前能夠做到的識別視頻中的人物,一般依靠人臉識別技術,以及對人物體態的追蹤來實現。一些媒體嘗試的對視頻關鍵幀的定義,靠的則是人工智能對視頻場景轉換規律或畫面主要內容的判斷。對視頻進行摘要的原理與此也有類似之處。
“這些視頻處理是非常局部的。”羅彤介紹,理論上可以通過訓練深度學習網絡模型,用特定方法來對特定類型的素材進行整體上的剪輯。但是這種剪輯方式並不具備“普適性”,換一種素材或剪輯方式,就需要重新訓練網絡模型,這正是目前人工智能技術存在的不足。
另外,正如人工智能處理語言文字時會遭遇語義理解的難題,人工智能在處理視頻時遇到的困難是:如何理解視頻畫面所傳達的內涵,甚至根據畫面的上下文把握視頻的“畫外之音”。
“這個確實非常難。”羅彤承認,通過視頻素材來講故事並表達一定的思想和主題,與藝術創作類似,是人類高智力的表現。“讓人工智能做到像導演和視頻剪輯師一樣,恐怕還很遙遠。”(記者 劉園園)