北(bei)京2023年2月(yue)20日 /美通社/ -- 近日,淮(huai)海(hai)智(zhi)算中(zhong)心攜手浪潮(chao)信(xin)息進(jin)行了(le)(le)超(chao)大規模參數AI大模型(xing)(xing)訓(xun)練性能(neng)測試,實測數據表明,千億(yi)參數規模的自然語言AI單(dan)體大模型(xing)(xing)在(zai)淮(huai)海(hai)智(zhi)算中(zhong)心計算平臺上的訓(xun)練算力(li)(li)效率(lv)達53.5%,刷新了(le)(le)業(ye)內AI大模型(xing)(xing)訓(xun)練算力(li)(li)效率(lv)新高。這(zhe)意味著淮(huai)海(hai)智(zhi)算中(zhong)心將(jiang)可為國內生成(cheng)式(shi)AI創(chuang)新團(tuan)隊提供高性能(neng)、高效率(lv)的AI大模型(xing)(xing)訓(xun)練算力(li)(li)服(fu)務(wu)。
生(sheng)成式AI需要(yao)基于(yu)海量的自然語言(yan)或多(duo)模(mo)(mo)態數據集,對擁有(you)巨大(da)參數的超大(da)規模(mo)(mo)AI模(mo)(mo)型(xing)(xing)進行(xing)訓(xun)(xun)練,其訓(xun)(xun)練所需AI算力(li)當(dang)量非常(chang)高,如以PD(Petaflops-Day)為單位來衡量,OpenAI的GPT-3大(da)模(mo)(mo)型(xing)(xing)訓(xun)(xun)練的算力(li)當(dang)量為3640PD,而浪潮"源1.0"大(da)模(mo)(mo)型(xing)(xing)的算力(li)當(dang)量則(ze)為4095PD。
超大(da)(da)規模AI大(da)(da)模型(xing)的(de)(de)訓練(lian)(lian)(lian)一(yi)般必(bi)須在(zai)擁(yong)有成(cheng)百上(shang)千加速卡的(de)(de)AI服務(wu)器(qi)集群(qun)上(shang)進(jin)行,如何(he)在(zai)AI計(ji)算(suan)集群(qun)上(shang)獲得更高的(de)(de)訓練(lian)(lian)(lian)算(suan)力(li)(li)效率(lv)則會直接影(ying)響到模型(xing)訓練(lian)(lian)(lian)時長以及算(suan)力(li)(li)消耗成(cheng)本(ben),這對于(yu)提(ti)升生成(cheng)式AI研發創新效率(lv)有著(zhu)非常重(zhong)要的(de)(de)影(ying)響。據公(gong)開(kai)資料表明,GPT-3大(da)(da)模型(xing)在(zai)其(qi)V100 GPU集群(qun)上(shang)的(de)(de)訓練(lian)(lian)(lian)算(suan)力(li)(li)效率(lv)為21.3%,而浪潮(chao)"源1.0"的(de)(de)訓練(lian)(lian)(lian)算(suan)力(li)(li)效率(lv)則達到了44.8%。
針(zhen)對(dui)AI大模型訓(xun)練的(de)(de)計(ji)(ji)算(suan)特點,浪(lang)潮信息AI團隊對(dui)淮海智算(suan)中心算(suan)力(li)(li)系(xi)統(tong)進行(xing)了(le)專業(ye)設計(ji)(ji),對(dui)集群架構、高速互聯、算(suan)力(li)(li)調(diao)度等方面進行(xing)全面優(you)化,在系(xi)統(tong)架構上(shang),采用單(dan)節(jie)點集成8顆(ke)加速器的(de)(de)AI服(fu)務(wu)器,節(jie)點內(nei)加速器間(jian)實現超(chao)(chao)高速P2P通(tong)(tong)信,節(jie)點間(jian)建立極低延遲、超(chao)(chao)高帶寬的(de)(de)Infiniband通(tong)(tong)信網絡(luo)。在大模型訓(xun)練技(ji)術層面,成功運用了(le)中文(wen)巨量AI模型"源(yuan)1.0"的(de)(de)訓(xun)練優(you)化經驗,對(dui)分布式(shi)訓(xun)練策略進行(xing)了(le)針(zhen)對(dui)性優(you)化,通(tong)(tong)過(guo)合理設計(ji)(ji)張量并(bing)行(xing)、流(liu)水并(bing)行(xing)和數(shu)據并(bing)行(xing),精準(zhun)調(diao)整模型結(jie)構和訓(xun)練過(guo)程(cheng)的(de)(de)超(chao)(chao)參(can)數(shu),最終實現了(le)千億(yi)參(can)數(shu)規模AI大模型的(de)(de)訓(xun)練算(suan)力(li)(li)效率(lv)達到53.5%。
千億參數AI模型結構(gou)及其實際(ji)性(xing)能(neng)表現
千億參數AI模型結構及其實際性能表現
淮海智(zhi)算(suan)(suan)中心由安徽省宿州市與(yu)浪潮共同推(tui)進(jin)建設,目標是建成(cheng)技術先進(jin)、架構開放(fang)、應用豐富、生態(tai)完善的(de)國內領先智(zhi)算(suan)(suan)樞紐。淮海智(zhi)算(suan)(suan)中心將依靠領先的(de)算(suan)(suan)力、算(suan)(suan)法(fa)基礎設施,開放(fang)的(de)技術架構,成(cheng)熟豐富的(de)生態(tai)應用,面向全國提供智(zhi)能算(suan)(suan)力、數據和算(suan)(suan)法(fa)服務,打造良好的(de)智(zhi)算(suan)(suan)產業生態(tai)。