中科凡語周玉:用我們這一代人的努力扛起國產(chǎn)NLP發(fā)展大旗
過去10余年間,人工智能(AI)經(jīng)歷了一次復興,其中最重要的技術進步之一發(fā)生在自然語言處理(NLP)領域。
2006年谷歌發(fā)布了萬億詞語料庫——Trillion Word Corpus,并從大量的公共網(wǎng)頁中獲得了n-gram頻率;2010年ImageNet制作了一個包含2萬張內容標簽的圖片的公開語料庫;2014年微軟推出人機對話交互平臺“小冰”,對話數(shù)據(jù)累計超過300億輪……
NLP技術的進步使得機器翻譯質量大幅提高,也催生了更多數(shù)字化場景應用,隨之國內NLP產(chǎn)業(yè)也迎來快速發(fā)展。據(jù)艾瑞咨詢等統(tǒng)計研究,2021年中國NLP核心產(chǎn)品及相關產(chǎn)業(yè)規(guī)模超1000億元;2022年預計NLP核心產(chǎn)品及相關產(chǎn)業(yè)規(guī)模將達到1500億元;到2025年,這一規(guī)模將達2400億元。
浪潮之下,NLP產(chǎn)品路徑通用性與專用性的要素之爭,人工智能下半程的技術趨勢如何,中國NLP發(fā)展又將走向何方?
恰逢國內領先的跨領域多模態(tài)自然語言處理方案商、服務商、運營商——中科凡語成立4周年之際,筆者邀請到了中國科學院自動化研究所研究員、博士生導師、中科凡語董事長周玉博士,就以上問題作探討解讀,共同探討關于NLP的技術前沿與產(chǎn)業(yè)趨勢。
中國科學院自動化研究所研究員、博士生導師、中科凡語董事長周玉博士
從通用到定制形成動態(tài)閉環(huán),搭建NLP底層技術平臺
此次采訪時已經(jīng)是晚上9點,剛剛忙完工作的周玉通過電話接受了筆者的采訪,期間周玉條分縷析的講了一個多小時,言談間難掩創(chuàng)業(yè)的興奮與激情,語氣鏗鏘有力,思維邏輯清晰,論據(jù)詳實充分。見微知著,或許正是這樣嚴謹端正的態(tài)度,才使其脫穎而出成為NLP學界為數(shù)不多的頂尖女性學者、創(chuàng)業(yè)者。
深耕NLP領域多年,周玉對NLP領域發(fā)展前景自是十分看好,但在談到目前主流NLP產(chǎn)品的應用落地時深感任重道遠。
周玉坦言,雖然未來十年在產(chǎn)業(yè)界被公認為NLP技術發(fā)展黃金期,但產(chǎn)品落地方面,尚有許多問題亟待解決。“較為典型的問題有兩個,一是高定制化場景帶來的高溝通門檻,使得技術人員和需求方往往需要多次磨合,溝通效率較低;二是要開發(fā)通用性較強的產(chǎn)品,對不同領域、不同場景的應用會需要不同的業(yè)務數(shù)據(jù)支撐,適配過程較為漫長!
面對NLP產(chǎn)品的定制化和通用性難題,中科凡語的產(chǎn)品開發(fā)路徑或許對行業(yè)有一定啟示。周玉表示,NLP的產(chǎn)品落地的特殊性在于其必須要有一個定制化的過程,但是先通用還是先定制,這其實有點類似“先有雞還是先有蛋”的哲學思考,具體實踐時其實是更偏向于一種動態(tài)化的閉環(huán)。
“早期,可以面對不同行業(yè)領域客戶先提煉出共性需求,搭建一個通用的技術框架,滿足基礎的模塊功能;然后再構建通用場景的通用產(chǎn)品;之后再遷移到特定場景進行定制化開發(fā);最后在定制化過程中再衍生出面向特定場景的產(chǎn)品。總的來看,其實是在動態(tài)演化過程中不斷完善迭代!
以OCR翻譯(圖像識別翻譯)為例,目前市面上常見的方法是先做OCR的識別,然后再機器翻譯,但此類方式普遍面臨效率低、場景識別弱、復雜場景效果差等問題。中科凡語基于這些痛點,會先提供通用性較強的OCR模塊產(chǎn)品部署到客戶端,滿足當下迫切需求,然后再通過實際應用中的反饋、長尾效應等搜集問題和需求,再通過技術人員進行二次深度開發(fā),最大化的平衡客戶需求與產(chǎn)品性能之間的錨點。
周玉直言,“NLP產(chǎn)品開發(fā)的底層邏輯是技術儲備,技術儲備越豐富,通用技術模塊越成熟,遷移成本就會越低,在特定行業(yè)的產(chǎn)品化效率也就越高,行業(yè)壁壘也就隨之建立起來。”
這一開發(fā)邏輯,從中科凡語過往的產(chǎn)品中清晰可循。比如“信譯”是基于為用戶提供優(yōu)質、專業(yè)、準確、高效的機器翻譯服務;“信推”是針對長文本完成多模態(tài)自動摘要生成和關鍵詞提取及內容推送;“信取”則提供跨場景、多語言、多粒度的數(shù)據(jù)爬取、融合、分類及管理,等等。
“目前中科凡語所推出的‘五信’,‘飛譯’或是‘洞知’產(chǎn)品,都是基于客戶普遍的共性需求所建立的。未來的產(chǎn)品開發(fā),我們還是將繼續(xù)朝著系統(tǒng)化、模塊化、工具化的方向出發(fā),為客戶提供更易組裝、更加靈活、適用性更強的智能服務產(chǎn)品,構建多模塊、廣適用、高精度的底層NLP技術平臺。”周玉說到。
專業(yè)領域億級語料數(shù)據(jù) 為行業(yè)發(fā)展提供動力
如果說產(chǎn)品路徑與架構搭建了NLP技術的經(jīng)脈,那么數(shù)據(jù),或者更確切說是來自專業(yè)領域內的高質量標注數(shù)據(jù),則是當前AI深度學習時代下NLP技術的血液,為NLP技術推動產(chǎn)業(yè)發(fā)展提供關鍵動力。
在劉慈欣的科幻小說《詩云》中,曾暢想過這樣一幅“技術與藝術對抗”的終極浪漫場景:一個高等外星文明為了寫出超越李白的詩歌,窮盡了太陽系的大部分能量,列舉出了所有可能的字詞組合,最終,他們“借助偉大的技術,寫出了詩詞的巔峰之作”,卻還是選擇了認輸,因為他們“不可能把它們從詩云中檢索出來”。
標注數(shù)據(jù)之于NLP,頗有異曲同工之妙。NLP技術本質上是基于深度學習的,相比于視覺或音頻信息,自然語言更加抽象,蘊含了更加豐富的人類定義的知識,導致相比其他AI技術領域,NLP對標注數(shù)據(jù)的要求也更嚴苛、難度更大?梢哉f,NLP的技術效果很大程度上取決于標注數(shù)據(jù)的質量和規(guī)模。
如何獲得高質量、大規(guī)模的標注數(shù)據(jù)?
周玉表示,“數(shù)據(jù)標注并非只是簡單的數(shù)據(jù)層面的問題,相較圖像、視頻等類型,NLP采標方式更為復雜,難度大很多,因此更需要標注人員、標注數(shù)據(jù)和和算法三方面的協(xié)同作戰(zhàn)。”
為此,中科凡語作了大量的基礎準備工作!霸跇俗⑷藛T方面,比如以翻譯樣本標注為例,考慮到翻譯人員對語言語種的專業(yè)性涉獵,中科凡語同全國100多所高校外國語學院達成了合作,并建立了與之相對應的人物畫像,豐富語種人才庫的同時,進一步降低了適配時間,提升適配效率;在標注數(shù)據(jù)方面,分層分級,重點篩選種子樣本,因為相較普通樣本,種子樣本往往能起到1比20的效果;再通過不斷優(yōu)化迭代算法方面的優(yōu)勢,來最大化的降低標注成本,篩選出有價值的數(shù)據(jù)。”周玉解釋到。
同時,通過前臺數(shù)據(jù)與后臺算法的深度綁定,中科凡語進一步提升了數(shù)據(jù)儲備的質量和規(guī)模。“前臺數(shù)據(jù)一旦有更新的標注,后臺算法也會相應進行優(yōu)化,確保標注數(shù)據(jù)的高質量高精度;再通過工程化開發(fā)來減輕數(shù)據(jù)標注中的重復勞動,提升業(yè)務效率,進而形成一個良性的閉環(huán)!
基于中國科學院自動化研究所相關團隊20余年的積累以及同廣大國內語言類高校的深入合作,中科凡語目前已經(jīng)建立了涵蓋特定行業(yè)、教育、醫(yī)療、航空等多個領域的億級雙語平行語料及大規(guī)模涵蓋多語言、多領域、多場景、多任務、多層次的高精準標注語料,NLP語料數(shù)據(jù)方面行業(yè)領先。同時,通過創(chuàng)新迭代的智能化標注算法,中科凡語也在不斷充實NLP語料池,著力挖掘大規(guī)模、高質量的標注數(shù)據(jù),致力為NLP行業(yè)的場景定制、技術突破、產(chǎn)業(yè)發(fā)展等提供源源不斷的動力。
高質量的標注數(shù)據(jù)不僅帶來效率提升、技術升級,更是NLP發(fā)展的必然趨勢,F(xiàn)今,數(shù)據(jù)標注正處于早期階段,但可以預見的是,隨著人工智能的浪潮進入下半場,數(shù)據(jù)標注將迎來井噴期,促進感知智能向認知智能的轉變。
深耕行業(yè)夯實優(yōu)勢,NLP下一個十年中文論劍
毋論產(chǎn)品路徑與技術趨勢如何領先,NLP發(fā)展最終還是要歸到產(chǎn)業(yè)應用的“肌肉”上來看。
縱觀國內外NLP產(chǎn)業(yè)發(fā)展現(xiàn)狀,國外NLP技術由于起步早、技術領先,而國內目前則處于奮起直追階段。據(jù)倫敦帝國理工學院對NLP相關會議論文統(tǒng)計顯示,自2012年至2020年期間,美國以近4000篇論文的數(shù)量遙遙領先,中國位居第二。隨著中國企業(yè)逐漸從“輔助角色”進化為中堅力量,“學術界+工業(yè)界”的雙輪驅動推動中國AI力量悄然變化。
以中科凡語為例,作為孵化于中國科學院自動化研究所的國產(chǎn)NLP領域先行者,承接了研究所相關團隊過去20多年在NLP領域技術積累,在技術、數(shù)據(jù)乃至人才方面都有著天然優(yōu)勢。成立四年來,中科凡語已成功落地了100多家G端客戶、50余家B端客戶,同時還承擔了多項國家和政府重大需求項目,例如為“一帶一路”沿線國家提供翻譯、信息整合及分析服務等,未來還將持續(xù)深耕認知智能、通用智能、因果推斷等技術領域,進一步推動NLP成果產(chǎn)業(yè)化。
值得一提的是,中科凡語還于2020年11月成立了凡語AI研究院,共吸引高級發(fā)展顧問、教授級專家委員、博士青年委員等60多人加入,涵蓋NLP領域技術大牛、業(yè)務精英以及語言專家等,旨在吸引行業(yè)頂尖人才共同進行前沿研究,夯實中科凡語在NLP領域的領先競爭優(yōu)勢,并不斷探索新的基礎模型與技術路線,建立競合協(xié)同的行業(yè)生態(tài)。
此外,其他業(yè)界知名公司如百度、阿里、騰訊、華為、今日頭條等,也在結合自身固有業(yè)務優(yōu)勢,在NLP領域持續(xù)投入研發(fā),加速業(yè)務變革與升級。
除了學術界與工業(yè)界,國家相關政策也持續(xù)出臺,重點扶持人工智能相關產(chǎn)業(yè)發(fā)展。
2019年,由科學技術部發(fā)布的《國家新一代人工智能開放創(chuàng)新平臺建設工作指引》中指出,要鼓勵人工智能細分領域領軍企業(yè)搭建開源、開放平臺,面向公眾開放人工智能技術研發(fā)資源,向社會輸出人工智能技術服務能力。
2020年7月,由中央網(wǎng)信辦等五部門發(fā)布的《國家新一代人工智能標準體系建設指南》中也強調,到2023年要初步建立人工智能標準體系,重點研制數(shù)據(jù)、算法、系統(tǒng)、服務等重點急需標準。
《中國制造2025》《“十四五”規(guī)劃綱要》等重要政府文件中,都明確了人工智能在我國未來科學研究和產(chǎn)業(yè)發(fā)展中的重要作用。
……
盡管目前出現(xiàn)了一些挑戰(zhàn)與瓶頸,但總的來看,在政策紅利和藍海市場的雙重利好下,NLP 已步入發(fā)展快車道,并涌現(xiàn)了許多商業(yè)化應用,如機器翻譯、輿情監(jiān)測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等。
隨著AI技術不斷走向“深水區(qū)”,作為AI最高層次的NLP也將伴隨著數(shù)智化的產(chǎn)業(yè)趨勢快速迭代更新。就像《技術的本質》中所說的,“技術是高度可重構的,它們是流動的東西,永遠不會靜止,永遠不會完結,永遠不會完美!
周玉對此深以為然:“NLP技術的發(fā)展永遠沒有終點。中科凡語希望能通過本身在NLP領域積累的人才、算法、數(shù)據(jù)等優(yōu)勢,聯(lián)合業(yè)界的專家學者、行業(yè)精英,一同做NLP最前沿技術和應用的探討,無限逼近甚至超越人類的理解能力,用我們這一代人的努力扛起國產(chǎn)NLP發(fā)展的大旗!
正是無數(shù)這樣的科學家、創(chuàng)業(yè)者、奮斗者的星聚,才推動著中國NLP技術在這十余年來的快速進步,并不斷建設世界范圍的中文信息處理影響力。
相信下一個十年,NLP將迎來中文論劍的時代。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?
- 10 封殺AI“照騙”,“淘寶們”終于不忍了?