11月26日,由搜狐科技主辦的“2019搜狐科技AI峰會”在北京舉行,峰會旨在解讀AI前沿新技術,探索行業新趨勢。
在峰會下午的教育論壇上,科大訊飛北京研究院副院長付瑞吉發表了題為《智能評閱核心技術及應用簡介》的主題演講。
付瑞吉介紹,科大訊飛在教育領域做了很多事情,包括考、評、管、教和學都有產品和應用。付瑞吉稱,科大訊飛的在教育領域的技術和應用已經大規模服務各種考試、以及學生和老師。比如已經是在全國普通話水平考試30多個省當中應用,累計服務1700萬名考生,還有就是在英語口語考試當中,我們在廣東、北京、天津、上海等等十多個省市的高考當中得到應用。
付瑞吉特別提到,科大訊飛的評閱技術已經應用于中高考。比如安徽和江蘇的高考,主要用于質檢,實際上是在人工評分的同時進行機器評分,如果發現人工評分和機器評分有很大分差的話就會請專家進行仲裁評分,如果有問題就進行修正。人工智能技術在日??荚囋u閱中的應用,維護了高考考試的公平和公正。
以下為付瑞吉演講全文:
各位來賓,大家下午好,非常感謝搜狐科技邀請我來做這樣一個分享。我們都知道,科大訊飛在教育領域做了很多事情,包括在考、評、管、教和學方面都有一些產品和應用,今天就和大家分享一些我們在考試當中的應用,也就是智能評閱技術。
我們是和教育部考試中心在2016年成立了這樣的聯合實驗室,共同推進語音識別、手寫識別、自然語言處理、智能評測和機器翻譯這些技術在教育領域當中的應用,實際上我們是從2014年就開始研究智能評閱相關的技術了。
科大訊飛是做語音起家,我們從2005年就在研究口語評測,現在我們已經是在全國普通話水平考試30多個省當中應用,累計服務1700萬名考生,還有就是在英語口語考試當中,我們在廣東、北京、天津、上海等等十多個省市的高考當中得到應用。口語評測是對口語考試當中學生語音的流利度、精準性進行分析,我們的技術在準確率和相關性都已經達到了專家的水平。
基于口語評測技術啟發,我們進行智能評閱研究,就是面向紙筆考試,口語評測和智能閱卷進行對比,也會掃描閱卷圖片。語音評測一方面是對發音的準確性進行評價,另一方面是對文本語義進行評價,通過語音識別轉化成為文字,綜合在一起就會變成口語評測的結果。我們的智能評閱也是這樣,圖片進來以后首先會對書寫質量評價,然后進行圖文識別,并且對語義層面進行評價,非常的相似。
我們就拿最難的作文自動評閱技術來講,實際上是對學生的中英文作文進行自動評分和批改,一方面是減輕閱卷員的閱卷負擔,另一方面是便于評分的質檢,保證考試的公平公正,應用于兩大方向,一是大規??荚嚕侨粘=虒W。
這是一個簡單的技術框架,作文自動評分參考中高考的評分標準,然后作為我們考察的維度,通過機器學習進行評分模型的訓練,然后可以對考試的試卷進行自動評分,批改是在此基礎上進行錯誤的檢測,然后給考生一些反饋,主要也是應用在日常的教學過程當中。
我們來看語法檢錯。這方面需要檢測語法當中缺詞、多詞、用詞不當的樣例和錯誤,(我們)去年參加了國際的語法檢錯大賽并且獲得冠軍,我們會把這項技術應用于作文評分錯誤檢測以及作為評分維度使用。一篇作文比較復雜,謀篇布局是什么樣子,通過全局和局部的語音關聯技術可以把作文當中的論點、論據和相關決策識別出來,一篇文章的脈絡就能夠清楚地展現在我們面前,結構的好壞可以作為評分的標準依據。
表達方式就是記敘、描寫和抒情,相關的表達方式都可以識別出來,作為我們評分的標準,比如有些好的作文可能描寫會比較豐富和細膩,我們把它作為特征使用,修辭手法就不詳細講了,采用多任務識別的過程,比如通常的比喻、擬人、排比等等修辭,文本的相似度檢測就是檢測抄襲前面的閱讀理解,這些在大規??荚嚠斨欣蠋煻际呛茈y發現的。
大規模應用考試就是中高考的考試,規模是幾萬人到幾十萬人,需求主要是質檢或者替代人工評分,日常教學當中規模會小一些,平常的周測和月考等等,但是需求會更多一些,除了評分之外還需要批改的結果,因為平常的教學過程當中只給學生評分是起不到提高的作用,也需要給學生一些反饋,也需要給老師報告,就是你所在的班級當中評分作文的情況,便于老師進行教學。
我們來看應用的情況,大規模考試的過程當中,近幾年我們在多地的中高考進行應用,比如安徽和江蘇當中的高考進行應用,主要用于質檢,實際上是在人工評分的同時進行機器評分,發現人工評分和機器評分有很大分差的話就會請專家進行仲裁評分,如果有問題就進行修正。當然,英語作文、簡答題和數學等等考試當中都有應用,專家針對這種輔助技術的使用也給予好評,使得我們的人工智能技術在各地的推廣奠定了基礎。這是《中國考試》期刊上發表的兩篇論文,很多數據也是從論文當中摘取。
日常的教學使用主要是針對字詞語法抄襲的常見問題進行輔助診斷,幫助老師減負,我們在2000多所學校里三年以來的累計服務增長了十余倍,助力近萬名老師。
以上就是我的分享,謝謝大家!
二維碼