日前,《麻省理工科技評論》刊文評出了2018年十大突破性技術,“對抗性神經網絡”(GAN)赫然在列。
什麼是對抗性神經網絡?為什麼它能入選MIT十大突破性技術?它的發展脈絡如何?與我們此前耳熟能詳的神經網絡有什麼區別?能夠應用在人工智能的哪些場景?還有哪些關鍵問題有待攻克?
中國自動化學會混合智能專委會副主任、中國人工智能學會機器學習專委會常委、復旦大學博士生導師張軍平教授在接受科技日報記者採訪時做了深入淺出的解釋。
故事中的GAN幻影
張軍平告訴記者,雖然GAN是科技領域的“新貴”,但其實在很久以前的中外小說中就能看到這個想法的影子。
這個想法最早可以追溯到奧地利小說家斯蒂芬·茨威格寫於1941年的小說《象棋的故事》。
在該小說中,主人公B博士被長期囚禁在納粹集中營中。在想盡了各種擺脫空虛和孤獨的辦法卻徒勞無功后,B博士意外得到了一本國際象棋棋譜。
他背完書裡的上千棋譜后,用送來的面包做了副國際象棋,開始自己跟自己下棋,最終演變成一盤接一盤的相互瘋狂挑戰,這令他棋力大漲。出獄后,在一艘游艇上,他居然輕鬆地在首盤就擊敗當時的世界冠軍。
在中文小說裡也有類似的影子,它出現在金庸寫於1957年的武俠小說《射雕英雄傳》中。
王重陽的師弟周伯通被東邪“黃藥師”困在桃花島的地洞裡。為了打發時間,周伯通就用左手與右手打架,自娛自樂。其武功決竅在於要先“左手畫圓、右手畫方”,分心二用,保証可以同時使出兩種武功,從而使得武力倍增。
這兩部小說主人公功力大增的關鍵都是“自己跟自己決斗,試圖傾盡全力擊敗對方”,而結果都是練成后,去跟高手過招時能輕鬆秒殺對手。用一句俗話來解釋,叫“雙拳難敵四手”。
讓機器學會“左右互搏”
GAN網絡的原理本質上就是這兩篇小說中主人公練功的人工智能或機器學習版本。
一個網絡中有兩個角色,修煉的過程中左手扮演攻方,即生成器(generator),試圖生成和自然世界中擬完成任務足夠相似的目標﹔右手扮演守方,即判別器(discriminator),試圖把這個假的、生成的目標和真實目標區分開來。經過反復多次雙手互搏,左手右手的功力都會倍增,從而達到“舍我其誰”的目標。
明白這個道理,就不難明白為什麼GAN網絡一出,就有獨孤求敗的感覺了。
正是因為GAN網絡的機理是“雙手互搏、一心兩用”,所以,雖然最初的應用場景是針對圖像相關任務,但其機理是普適性的。隻要能用這個“訣竅”的地方,都能把自己的功力提升一個檔次。不過,需要注意的是,GAN隻把雙手互搏用來訓練自己“雙手”的功力。在多數實際應用中,它隻用了自己千錘百煉出來的生成器,就得到了非常好的結果。
於是,自2014年GAN網絡被Ian J. Goodfellow等人提出,至今其演繹出的各種版本就像攻城掠地般在各個領域蔓延。
在今年的人工智能頂級會議IJCAI、機器學習頂級會議ICML和NIPS、深度學習著名會議ICLR上,光讀參會論文的標題,就能發現大量GAN網絡的工作痕跡。圖像處理、計算機視覺、自然語言處理、語音識別、智能駕駛、安全監控……似乎GAN已經無所不能了。
張軍平用幾個比較火的人工智能應用場景舉例——
在年齡估計中,GAN能通過攻守互搏,基於給定的人臉圖像實現對其人衰老或年輕時的樣貌生成。
在多視角人臉識別、跨視角步態識別領域,採用類似的機理,實現對人臉角度和步態角度的自動旋轉,從而有效提高了多視角、跨視角人臉和步態識別的精度。
在自動駕駛領域,需要對智能汽車進行復雜環境下的虛擬訓練。此時,就可以利用GAN來實現與實際交通場景分布一致的圖像生成。具體來說,可以先給GAN輸入一張隨機噪聲圖像,通過其生成器來最小化與真實場景接近的圖像,同時判別器最大化生成場景與真實場景間的差異。經過反復迭代的攻守博弈,從而獲得與真實環境一致的交通場景。
“不光在應用領域上有了突破,互搏的方式也有了不少變化。既然可以雙手互搏,那當然可以三手甚至更多手的互搏,也可以組團逐對互搏、成串互搏,諸如此類。還可以把圓和方換成其他東西或者所謂的函數或結構來互搏。但萬變不離其宗,內在的機理是不變的。”張軍平補充道。
GAN有什麼“軟肋”
“毫無疑問,這種可倍增‘功力’的技術入選MIT年度十大突破性技術是當之無愧的。但值得注意的是,這一技術仍然有較大需要改善的空間。”作為《IEEE Intelligent System》(智能系統)和《IEEE Transactions on Intelligent Transportation Systems 》(智能交通系統)等著名期刊的編委,張軍平對GAN的“軟肋”了如指掌——
首先,對抗不好是容易出問題的。比如那位B博士。國棋象棋的世界冠軍在覺察到他的強烈焦躁與急切情緒后,就有意識地放慢下棋速度。結果誘發了B博士的精神分裂,使得他再次陷入狂亂的自我對弈之中,最終才幡然醒悟而告別了棋局。對抗網也是如此,穩定性一直是其存在的問題之一。盡管理論上Wasserstein GAN (WGAN)可以部分解決其收斂性問題,但實際的效果還沒有達到盡人意的地步。
其次,槍打出頭鳥,既然這項技術這麼牛了,過來挑戰的也不少。據不完全報告,似乎已經有十五波“武林高手”對GAN網絡的抗擊打能力進行了挑戰。極端情況,在圖像中加一個像素就可能使GAN網絡產生誤判。
第三,GAN網絡也是深度網絡的一種,在可解釋性這條路上,仍然沒有找到非常明確的方向。
最后,雙手互搏的基礎還是手。而這一基礎的結構並沒有從近幾十年來人工智能發展的框架中脫離出來。
因此,張軍平提醒,期望以GAN之奇技,從弱人工智能沖擊“能真正推理和解決問題,且有知覺、有自主意識的”的強人工智能還遙遙無期。(記者 房琳琳)