北(bei)京2023年11月(yue)27日 /美通社/ -- 11月27日,浪潮信息發布"源2.0"基礎大模型,并宣布全面開源。源2.0基(ji)礎大模(mo)型(xing)包(bao)括1026億、518億、21億等三種參數規模(mo)的模(mo)型(xing),在編程、推理、邏輯等方面展示出(chu)了先進的能力。
當前,大(da)(da)(da)(da)模(mo)型(xing)技(ji)術正在推動生成式人工智能(neng)產業迅(xun)猛發展(zhan),而基(ji)礎大(da)(da)(da)(da)模(mo)型(xing)的(de)關鍵能(neng)力(li)則是大(da)(da)(da)(da)模(mo)型(xing)在行(xing)業和(he)(he)應用(yong)落地(di)能(neng)力(li)表(biao)現的(de)核(he)心支撐,但基(ji)礎大(da)(da)(da)(da)模(mo)型(xing)的(de)發展(zhan)也面臨著在算法、數據和(he)(he)算力(li)等方(fang)面的(de)諸多挑戰。源2.0基(ji)礎大(da)(da)(da)(da)模(mo)型(xing)則針對性(xing)地(di)提出了(le)新(xin)的(de)改進方(fang)法并獲得了(le)能(neng)力(li)的(de)提升。
算法方面,源(yuan)2.0提(ti)出并采用了一種新(xin)型(xing)的(de)注意(yi)力(li)算法結構:局部注意(yi)力(li)過(guo)濾增(zeng)強機制(LFA:Localized Filtering-based Attention)。LFA通過(guo)先(xian)學(xue)習相鄰詞之(zhi)間的(de)關聯(lian)(lian)性,然后再計算全局關聯(lian)(lian)性的(de)方法,能夠更(geng)好(hao)地學(xue)習到自然語言的(de)局部和全局的(de)語言特征,對于自然語言的(de)關聯(lian)(lian)語義理(li)解(jie)更(geng)準確、更(geng)人性,提(ti)升(sheng)了模型(xing)的(de)自然語言表(biao)達(da)能力(li),進而提(ti)升(sheng)了模型(xing)精度。
數據方面,源2.0通過(guo)使用(yong)中英文(wen)書(shu)籍(ji)、百科、論文(wen)等(deng)高質(zhi)量(liang)(liang)中英文(wen)資(zi)料,降低了(le)互聯網語料內容占比,結(jie)合高效(xiao)的(de)數(shu)(shu)(shu)(shu)(shu)據(ju)清洗流(liu)程,為大模型訓練提(ti)供(gong)了(le)高質(zhi)量(liang)(liang)的(de)專業數(shu)(shu)(shu)(shu)(shu)據(ju)集和邏(luo)輯推理數(shu)(shu)(shu)(shu)(shu)據(ju)集。為了(le)獲(huo)取中文(wen)數(shu)(shu)(shu)(shu)(shu)學(xue)(xue)數(shu)(shu)(shu)(shu)(shu)據(ju),我們清洗了(le)從2018年至今約12PB的(de)互聯網數(shu)(shu)(shu)(shu)(shu)據(ju),但僅獲(huo)取到了(le)約10GB的(de)數(shu)(shu)(shu)(shu)(shu)學(xue)(xue)數(shu)(shu)(shu)(shu)(shu)據(ju),投(tou)入巨大,收益較(jiao)小(xiao)。為了(le)更高效(xiao)地獲(huo)得相(xiang)對匱乏的(de)高質(zhi)量(liang)(liang)中文(wen)數(shu)(shu)(shu)(shu)(shu)學(xue)(xue)及代碼數(shu)(shu)(shu)(shu)(shu)據(ju)集,源2.0采(cai)用(yong)了(le)基于大模型的(de)數(shu)(shu)(shu)(shu)(shu)據(ju)生產及過(guo)濾方法,在保(bao)證數(shu)(shu)(shu)(shu)(shu)據(ju)的(de)多(duo)樣性的(de)同時(shi)也在每一個(ge)類(lei)別上提(ti)升(sheng)數(shu)(shu)(shu)(shu)(shu)據(ju)質(zhi)量(liang)(liang),獲(huo)取了(le)一批高質(zhi)量(liang)(liang)的(de)數(shu)(shu)(shu)(shu)(shu)學(xue)(xue)與代碼預(yu)訓練數(shu)(shu)(shu)(shu)(shu)據(ju)。
算力方面,源(yuan)2.0采用(yong)了(le)非均(jun)勻流(liu)水(shui)并(bing)(bing)行(xing)(xing)的(de)方法(fa),綜合運(yun)用(yong)流(liu)水(shui)線并(bing)(bing)行(xing)(xing)+優化器參數(shu)并(bing)(bing)行(xing)(xing)+數(shu)據(ju)并(bing)(bing)行(xing)(xing)的(de)策略(lve),讓模(mo)型在(zai)流(liu)水(shui)并(bing)(bing)行(xing)(xing)各階段的(de)顯存占用(yong)量分(fen)布更均(jun)衡,避(bi)免出(chu)現顯存瓶(ping)頸導致的(de)訓練效率降低的(de)問(wen)題,該方法(fa)顯著降低了(le)大模(mo)型對芯片間P2P帶寬的(de)需(xu)求,為硬件差異較(jiao)大訓練環境提供了(le)一種高性能的(de)訓練方法(fa)。
源2.0作為千億級基礎大模型,在業界(jie)公開的評測(ce)上進(jin)行了代碼生成、數學問題(ti)求解(jie)、事實問答方面的能(neng)力測(ce)試,測(ce)試結(jie)果顯(xian)示,源2.0在多項模型評測(ce)中,展(zhan)示出了較(jiao)為先(xian)進(jin)的能(neng)力表現。
源2.0采用全面開源策略,全系列模型參數和代碼均可免費下載使用。
代碼開源鏈接
//github.com/IEIT-Yuan/Yuan-2.0
論文鏈接
//github.com/IEIT-Yuan/Yuan-2.0/blob/main/docs/Yuan2.0_paper.pdf