源1.0大模型登頂中文語言能力評測基準CUGE榜首

浪潮

2022-06-09 15:04 4898

北(bei)京2022年6月9日 /美通(tong)社/ -- 近日(ri)，浪潮"源(yuan)1.0"大模型登頂(ding)中文語(yu)言(yan)能力理(li)解和(he)生成(cheng)(cheng)評(ping)測基準(zhun)CUGE總(zong)榜(bang)榜(bang)首，并(bing)獲得(de)語(yu)言(yan)理(li)解（篇章級(ji)）、語(yu)言(yan)生成(cheng)(cheng)、對(dui)話交互、多語(yu)言(yan)、數學推(tui)理(li)等5項評(ping)測最(zui)佳成(cheng)(cheng)績。這是(shi)繼源(yuan)1.0攬獲權威中文語(yu)言(yan)評(ping)測基準(zhun)CLUE榜(bang)單的(de)零樣本學習(xi)(xi)和(he)小樣本學習(xi)(xi)兩(liang)類(lei)總(zong)榜(bang)冠(guan)軍后，再(zai)次在評(ping)測中展現強大實(shi)力。

CUGE(Chinese Language Understanding and Generation Evaluation)智源指(zhi)數是由清華大(da)學、北京(jing)(jing)大(da)學、北京(jing)(jing)智源研究院等高校機構共(gong)同建立的中文機器語(yu)言能力(li)(li)評測基準，該基準針對當前自(zi)然(ran)語(yu)言處理和人工智能發展新范式(shi)，面向(xiang)具有(you)"通用語(yu)言能力(li)(li)"的預(yu)訓練模型，全面系統、多層次、多維度地評測大(da)模型能力(li)(li)。

源1.0領跑多類綜合語言場景

在語言(yan)理解(jie)(篇(pian)章級(ji))評測中，源1.0僅用(yong)時11分鐘，便完成(cheng)數千篇(pian)閱讀理解(jie)回答4000多(duo)個問題，以(yi)86.9高(gao)分的(de)成(cheng)績(ji)位居榜首，展(zhan)現出頂尖的(de)語言(yan)理解(jie)能力。基于(yu)源1.0大模型強大的(de)閱讀理解(jie)能力及高(gao)速處理大量樣(yang)本的(de)特點(dian)，未(wei)來將加速勞動密集型文本處理等(deng)行業變革，如(ru)應用(yong)于(yu)智(zhi)能客服(fu)根據用(yong)戶提供(gong)的(de)信息在產品(pin)文檔(dang)中快速找到解(jie)決方案及智(zhi)能司法、智(zhi)能招聘系統(tong)等(deng)。

在語(yu)言生成(cheng)評測中(zhong)，源1.0僅用時(shi)70秒，就完成(cheng)近800條摘(zhai)要(yao)內容(rong)的(de)(de)生成(cheng)，登頂該項榜單。源大模型強(qiang)大的(de)(de)文本生成(cheng)能(neng)力可提升智能(neng)問答與對(dui)話、新聞摘(zhai)要(yao)、報告生成(cheng)等(deng)(deng)場景(jing)中(zhong)AI智能(neng)化(hua)水平，如從長篇幅(fu)的(de)(de)新聞資訊等(deng)(deng)文本中(zhong)提取出簡明扼要(yao)的(de)(de)文字描述(shu)，便于及時(shi)、高效的(de)(de)獲取有價值的(de)(de)信息及智能(neng)文案(an)、協(xie)助寫作等(deng)(deng)場景(jing)。

在(zai)多語言(yan)機器(qi)翻(fan)譯(yi)(yi)評測中(zhong)，基(ji)于源(yuan)1.0大(da)模(mo)(mo)型(xing)(xing)蒸(zheng)餾出來的(de)翻(fan)譯(yi)(yi)模(mo)(mo)型(xing)(xing)在(zai)完(wan)成(cheng)近4000千對中(zhong)英文互譯(yi)(yi)后，登頂(ding)榜首，領先(xian)第二名15%。翻(fan)譯(yi)(yi)模(mo)(mo)型(xing)(xing)在(zai)基(ji)于源(yuan)1.0大(da)模(mo)(mo)型(xing)(xing)閱讀(du)的(de)海(hai)量(liang)高質(zhi)量(liang)數(shu)據集基(ji)礎(chu)上，采用維基(ji)百(bai)科、書籍、聯(lian)合國文件及(ji)字(zi)幕組等(deng)近80G高質(zhi)量(liang)數(shu)據集進行強(qiang)化訓練，因(yin)此翻(fan)譯(yi)(yi)不僅專業準確，同時更(geng)符(fu)合中(zhong)文表述。未來可廣泛應用于新(xin)聞(wen)、哲(zhe)學、小說等(deng)日常的(de)語言(yan)翻(fan)譯(yi)(yi)場(chang)景中(zhong)。

在(zai)對(dui)(dui)(dui)話(hua)交互評測中，基于(yu)源1.0大模(mo)(mo)型蒸(zheng)餾(liu)出來的(de)對(dui)(dui)(dui)話(hua)模(mo)(mo)型回答(da)了電(dian)影(ying)、音(yin)樂、旅(lv)行3個領域(yu)共(gong)近萬(wan)個主題對(dui)(dui)(dui)話(hua)，成績位居榜(bang)首，領先第二名成績30%，展(zhan)現了極(ji)強的(de)智能對(dui)(dui)(dui)話(hua)能力。在(zai)繼(ji)承源1.0大模(mo)(mo)型能力的(de)基礎上，對(dui)(dui)(dui)話(hua)模(mo)(mo)型采(cai)用了2660萬(wan)條醫療、法(fa)律、保險等(deng)不同行業，歷(li)史、電(dian)影(ying)、娛樂等(deng)不同場景的(de)對(dui)(dui)(dui)話(hua)語料數(shu)(shu)據(ju)進(jin)行強化訓練，在(zai)知識問答(da)、高(gao)頻閑聊等(deng)開放式(shi)任務上表現突出，此前已(yi)獲(huo)得業界權威測評WebQA開放問答(da)數(shu)(shu)據(ju)集榜(bang)單冠軍。

當前(qian)，智(zhi)(zhi)能(neng)對(dui)話普(pu)遍存在內容乏味、主題(ti)不連貫等問題(ti)，往往幾輪(lun)對(dui)話后，回答便空洞重復，大(da)(da)(da)大(da)(da)(da)降低用(yong)戶體(ti)驗。知(zhi)識(shi)(shi)驅(qu)動(dong)的(de)對(dui)話模型(xing)(xing)直接連接到(dao)廣泛的(de)知(zhi)識(shi)(shi)庫，大(da)(da)(da)大(da)(da)(da)增加對(dui)話內容的(de)豐富(fu)度，在一(yi)(yi)(yi)定知(zhi)識(shi)(shi)背景(jing)下也不會偏題(ti)，更趨向于人(ren)(ren)類(lei)之間的(de)交談。不久(jiu)前(qian)，源(yuan)開(kai)發者社區的(de)一(yi)(yi)(yi)位開(kai)發者基于源(yuan)的(de)對(dui)話模型(xing)(xing)創(chuang)建了一(yi)(yi)(yi)位能(neng)與人(ren)(ren)類(lei)玩劇本殺的(de)AI虛擬(ni)(ni)玩家，一(yi)(yi)(yi)位人(ren)(ren)類(lei)玩家與AI虛擬(ni)(ni)玩家聊天到(dao)深夜凌晨仍興趣盎然。以知(zhi)識(shi)(shi)驅(qu)動(dong)的(de)對(dui)話模型(xing)(xing)，可廣泛應用(yong)于各類(lei)虛擬(ni)(ni)人(ren)(ren)、智(zhi)(zhi)能(neng)助(zhu)手、智(zhi)(zhi)能(neng)客(ke)服(fu)等場景(jing)，并極(ji)大(da)(da)(da)提升對(dui)話的(de)智(zhi)(zhi)能(neng)水平和用(yong)戶體(ti)驗。

源1.0在數學推理鋒芒初露

當前(qian)業(ye)界各(ge)類(lei)大模型在自然語言處理(li)領域(yu)展示出了強大的(de)(de)能(neng)力(li)，但在數(shu)學(xue)領域(yu)卻還(huan)存在盲區(qu)。數(shu)學(xue)對(dui)邏輯和推理(li)能(neng)力(li)有極強的(de)(de)要求(qiu)，Open AI開(kai)發出多(duo)種方法訓練GPT-3的(de)(de)數(shu)學(xue)推理(li)能(neng)力(li)，但在挑戰(zhan)小學(xue)數(shu)學(xue)應用(yong)題時(shi)，GPT-3也尚未及格(ge)，數(shu)學(xue)推理(li)能(neng)力(li)甚至(zhi)低(di)于9-12歲兒童。

為更好(hao)評(ping)測大模型邏輯(ji)推理能(neng)力，CUGE專門設立了數學(xue)(xue)推理能(neng)力榜單(dan)，主要(yao)考察模型數值計算能(neng)力，即考察對(dui)應(ying)(ying)用情景(jing)和(he)任(ren)務的(de)理解抽(chou)象(xiang)能(neng)力以及(ji)數值計算能(neng)力，類似于小學(xue)(xue)數學(xue)(xue)應(ying)(ying)用題(ti)。數學(xue)(xue)推理能(neng)力榜單(dan)數據庫(ku)內的(de)數學(xue)(xue)題(ti)來自在線教育網站提供的(de)小學(xue)(xue)數學(xue)(xue)應(ying)(ying)用題(ti)。

在(zai)CUGE數學推(tui)理(li)評測中，源1.0大模(mo)型(xing)完(wan)成1000道小(xiao)學數學應用題，以(yi)76.9的高分(fen)大幅領先高居榜首。

為(wei)(wei)應對大模(mo)型(xing)(xing)在數(shu)學(xue)推理方(fang)面的(de)挑戰，浪潮(chao)為(wei)(wei)源1.0開發(fa)了一(yi)(yi)套相似(si)啟發(fa)式數(shu)據增強的(de)方(fang)案(an)，給每(mei)一(yi)(yi)個(ge)要求解(jie)的(de)數(shu)學(xue)問題(ti)(ti)從數(shu)據庫中檢索并(bing)匹配一(yi)(yi)個(ge)相似(si)的(de)題(ti)(ti)目(mu)并(bing)與原(yuan)題(ti)(ti)目(mu)進行拼接(jie)，通過(guo)類比學(xue)習(xi)，啟發(fa)大模(mo)型(xing)(xing)能夠根據兩道相似(si)問題(ti)(ti)更好(hao)地學(xue)習(xi)如何給出解(jie)題(ti)(ti)表達式，進而(er)學(xue)會(hui)每(mei)一(yi)(yi)類題(ti)(ti)目(mu)的(de)解(jie)法，類似(si)于(yu)人類在學(xue)習(xi)過(guo)程(cheng)中會(hui)通過(guo)連續(xu)學(xue)習(xi)同一(yi)(yi)類型(xing)(xing)的(de)題(ti)(ti)目(mu)來(lai)提高對這(zhe)一(yi)(yi)類型(xing)(xing)題(ti)(ti)目(mu)的(de)理解(jie)能力；同時，浪潮(chao)在源1.0改進了算法掩碼策略，使得模(mo)型(xing)(xing)在學(xue)習(xi)過(guo)程(cheng)中只(zhi)關注于(yu)連續(xu)的(de)相似(si)的(de)題(ti)(ti)目(mu)，不(bu)受同一(yi)(yi)個(ge)輸入序列中不(bu)相關題(ti)(ti)目(mu)的(de)影響，這(zhe)樣模(mo)型(xing)(xing)可以更專注于(yu)學(xue)習(xi)同一(yi)(yi)類型(xing)(xing)的(de)題(ti)(ti)目(mu)，極大地提升了解(jie)題(ti)(ti)準確度，全方(fang)面培養一(yi)(yi)個(ge)數(shu)學(xue)學(xue)霸。

源1.0開源開放計劃收效顯著

目前，浪潮"源(yuan)1.0"已經將模型API、高質(zhi)量數(shu)據(ju)集、模型訓練(lian)代碼(ma)(ma)、推(tui)理代碼(ma)(ma)和(he)(he)應用(yong)(yong)(yong)代碼(ma)(ma)等(deng)等(deng)工具和(he)(he)能(neng)力開(kai)源(yuan)開(kai)放，超(chao)過300家行業用(yong)(yong)(yong)戶(hu)和(he)(he)開(kai)發(fa)(fa)(fa)者，通過"源(yuan)1.0"提(ti)供的數(shu)據(ju)和(he)(he)API顯(xian)著提(ti)升了金融(rong)、互聯網、醫(yi)療和(he)(he)自動駕駛等(deng)行業應用(yong)(yong)(yong)的精度。浪潮源(yuan)1.0將持續助力行業用(yong)(yong)(yong)戶(hu)和(he)(he)開(kai)發(fa)(fa)(fa)者，攜手推(tui)動技術創新、場景融(rong)合、應用(yong)(yong)(yong)開(kai)發(fa)(fa)(fa)，共同促進大(da)模型的健康發(fa)(fa)(fa)展與產(chan)業落地(di)，加速AI產(chan)業化(hua)和(he)(he)產(chan)業AI化(hua)發(fa)(fa)(fa)展。

消息來源：浪潮