新年結束后第一個工作周,第五屆中文句法錯誤自動檢測技術評測(Chinese Grammartical Error Diagnosis, CGED)悄悄拉開了戰幕,人工智能學術界和工業界的不少單位即將在“幫老外批漢語作文”這一任務上一較高下。據介紹今年評測活動的競爭將十分激烈。這多少也和去年年底的AI批改留學生作文的熱點事件有關。
2017年12月央視新聞一則《浙外引進阿裡AI批改作文,不到200字作文看出8處錯誤》的新聞,引發各媒體關注和網友熱議。據報道,一些較為隱蔽的錯誤點,甚至有經驗的教師也無法立刻發現。
就像所有其他人工智能應用一樣,一經眾多媒體的宣傳,自動作文批改就已經開始有點兒“威脅”漢語教師了。但查閱CGED技術評測的綜述論文可知,經過超過五千個錯誤點測試后,即使是2016年和2017年技術評測第一名(哈工大與阿裡巴巴)識別錯誤類型和錯誤位置的綜合精度也都在40%以下。再加上留學生手寫作文掃描識別為數字化文本環節的差錯,錯誤識別的綜合精度隻會更低。另一方面,為了降低運算難度,評測還將真實語言教學中的幾十種錯誤標記,歸並為了冗余、缺失、錯用、亂序四種大錯誤類型。由於評測中錯誤劃分很粗,教師無法隻通過錯誤統計就准確把握學生語言能力。總之,自動批改距離投入教學前線還有很大的差距。
人工智能領域有句很有道理的笑話:人工智能,沒有人工就沒有智能。相比高考作文,漢語作為第二語言的寫作數據還較為稀缺。受教學模式、學習階段和母語的影響,留學生容易出現的語法錯誤類型極富多樣性。今天在大多數人工智能應用中取得輝煌戰績的深度神經網絡模型對數據規模和質量的要求則更加苛刻。
目前市場上較為成功的人工智能應用大多都因為構建了“服務—用戶—數據”的正反饋閉環,即通過智能服務擴大用戶群體,大量用戶產生數據,數據驅動模型進一步改進服務效果。這就要求人工智能服務在先期必須達到用戶基本可以忍受的效果。而對於漢語作為第二語言的句法錯誤檢測任務,雖然已經取得了不小的進步,但還無法開啟如導航、廣告推薦這樣的正反饋閉環。正如黎明之前的黑暗最難熬,推動智能起飛之前的這段人工之路也最艱苦。但好在,語言處理被視作人工智能皇冠上的明珠,越來越多的資本和人力都在不斷涌入。相信句法錯誤檢測這樣的細分領域在可預見的未來也能進入飛速發展期。屆時教師省心、學生省力的批改機器人就不再隻停留於展示中了。
另一方面,技術評測將助力技術發展。畢竟光說不練假把式,在同一數據平台上一較高下,方可刺激學界和業界苦練真功。期待今天還停留在展示和概念階段的AI能高速成長,為漢語國際傳播貢獻力量。(饒高琦)