機器人會寫稿了何時學會編視頻

2017年08月24日10:10 來源：科技日報

原標題：機器人會寫稿了何時學會編視頻

　　幾位來自人工智能行業的專家分享完畢后，主持人把問題拋給蘇州市廣播電視總台總工程師郭昌雄：“他們把人工智能描述得這麼好，您對‘人工智能+媒體’有什麼期待？”

　　“現在已經有機器人寫稿了，但是還沒有機器人可以真正的編視頻。”在近日開幕的2017媒體融合發展論壇上，作為廣播電視界的媒體代表，郭昌雄說出了對人工智能的“另一種”需求。

　　的確，人工智能可以寫體育賽事、寫股市消息，甚至播報九寨溝的地震，但是在新聞領域，它需要做的可不止這些。

　　已經有媒體開始探索將人工智能應用於視頻處理。“現在媒體素材面臨的問題是，如何對視頻畫面進行自動描述，為以后的檢索使用提供便利。比如在海量視頻數據中自動把關於花草樹木的視頻找出來。”郭昌雄說，這必須考慮人工智能。

　　蘇州市廣播電視總台能夠實現的是，將長達17萬小時的視頻資源，用人工智能進行自動編目。也就是按照國家視頻編目標准，對視頻中的關鍵幀進行識別和定義。除此之外，這家媒體還實現了利用人工智能對視頻資源進行高速檢索，甚至可以將新聞類視頻按照內容自動剪切成一段段的短視頻。

　　“我們最近研發了一個視頻索引技術，把人工智能對圖像、語音、自然語言的處理，全部融合到對視頻的處理過程當中。”微軟（中國）有限公司資深架構師羅彤介紹了人工智能界的努力。其效果是，可以自動識別視頻中的特定人物，並將其作為索引加以標注。同時還可以將視頻中的對話識別成文字，再通過關鍵字識別對視頻內容進行定義。

　　對於郭昌雄的期待，商湯科技高級研究總監張偉回應，他們公司正在探索視頻摘要技術，也就是把長視頻中的精彩鏡頭剪輯出來，供觀眾快速瀏覽視頻。“這樣的技術進展很快，半年之內就可以落地。”張偉說。

　　羅彤告訴科技日報記者，人工智能對視頻進行處理，本質上都是對圖像進行處理，因為視頻本身是由若干幀圖像組成的。目前能夠做到的識別視頻中的人物，一般依靠人臉識別技術，以及對人物體態的追蹤來實現。一些媒體嘗試的對視頻關鍵幀的定義，靠的則是人工智能對視頻場景轉換規律或畫面主要內容的判斷。對視頻進行摘要的原理與此也有類似之處。

　　“這些視頻處理是非常局部的。”羅彤介紹，理論上可以通過訓練深度學習網絡模型，用特定方法來對特定類型的素材進行整體上的剪輯。但是這種剪輯方式並不具備“普適性”，換一種素材或剪輯方式，就需要重新訓練網絡模型，這正是目前人工智能技術存在的不足。

　　另外，正如人工智能處理語言文字時會遭遇語義理解的難題，人工智能在處理視頻時遇到的困難是：如何理解視頻畫面所傳達的內涵，甚至根據畫面的上下文把握視頻的“畫外之音”。

　　“這個確實非常難。”羅彤承認，通過視頻素材來講故事並表達一定的思想和主題，與藝術創作類似，是人類高智力的表現。“讓人工智能做到像導演和視頻剪輯師一樣，恐怕還很遙遠。”（記者劉園園）