亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

浪潮信息劉軍:如何用更少GPU更快地完成2457億參數巨量模型訓練?

2022-01-05 16:03 12659

北京(jing)2022年1月5日 /美通(tong)社(she)/ -- 近年來,BERT、GPT-3等大規模(mo)(mo)預訓練模(mo)(mo)型取得了(le)巨大成功,引領語言模(mo)(mo)型進入巨量時代,算(suan)力、數據、參數規模(mo)(mo)快速朝著(zhu)極致化的方向(xiang)發展(zhan),也為模(mo)(mo)型訓練和部(bu)署(shu)帶來巨大挑戰。在近日舉(ju)行的2021 NeurIPS MeetUp China上(shang),浪潮信息(xi)副總裁、AI&HPC產品線總經(jing)理劉軍基于2457億參數的“源1.0”中文語言模(mo)(mo)型,分(fen)享(xiang)了(le)浪潮人工智能研(yan)究(jiu)院在巨量模(mo)(mo)型訓練與(yu)計(ji)算(suan)性能提升方面(mian)的領先(xian)實踐(jian)。

談及巨量模型訓練,劉軍表示:“訓練工作中最復雜也最具挑戰的技術點在于如何行之有效地完成數千萬級參數的模型訓練”。當前,GPU顯存最高為數十GB左右,而訓練這樣訓練(lian)(lian)數(shu)據(ju)集達(da)(da)5TB、參數(shu)量達(da)(da)2457億(yi)的大模(mo)型(xing)需(xu)要(yao)的GPU顯(xian)存(cun)高(gao)達(da)(da)幾TB,顯(xian)然無(wu)法(fa)在單(dan)個(ge)(ge)顯(xian)卡或一(yi)臺(tai)GPU服(fu)務器上完成(cheng)。因此(ci),巨量模(mo)型(xing)訓練(lian)(lian)工作,需(xu)要(yao)在模(mo)型(xing)算法(fa)、分布式訓練(lian)(lian)、大規模(mo)集群(qun)計算等各(ge)個(ge)(ge)層面進行協(xie)同設計、優化(hua),才能(neng)保證(zheng)模(mo)型(xing)訓練(lian)(lian)過(guo)程收斂。

浪潮人(ren)工智能(neng)研究(jiu)院(yuan)需(xu)(xu)要將“源(yuan)1.0”訓(xun)練(lian)所需(xu)(xu)的(de)(de)巨(ju)大算力并行分布到幾千(qian)張GPU上。模型(xing)訓(xun)練(lian)時(shi)最(zui)常采用的(de)(de)是數據并行分布式計算策略,但這只能(neng)滿(man)足(zu)小(xiao)模型(xing)的(de)(de)訓(xun)練(lian)需(xu)(xu)求。對于像“源(yuan) 1.0”這樣的(de)(de)巨(ju)量模型(xing)而言,需(xu)(xu)要專門(men)設計算法來(lai)解決(jue)訓(xun)練(lian)中(zhong)的(de)(de)顯存占(zhan)用問題,同時(shi)還要兼(jian)顧訓(xun)練(lian)過程(cheng)中(zhong)的(de)(de)GPU計算資源(yuan)的(de)(de)利用率。

為此(ci),浪潮采用了張量并(bing)(bing)行(xing)(xing)(xing)、流(liu)水(shui)線并(bing)(bing)行(xing)(xing)(xing)和(he)數據并(bing)(bing)行(xing)(xing)(xing)的(de)“三合一(yi)(yi)”并(bing)(bing)行(xing)(xing)(xing)策略。首(shou)先(xian),將266臺(tai)AI服(fu)務(wu)器(qi)共(gong)(gong)計2128個GPU芯片分(fen)成7組(zu),每組(zu)38臺(tai)AI服(fu)務(wu)器(qi)放置一(yi)(yi)個完整的(de)“源1.0”大模(mo)(mo)型(xing),其次,每組(zu)的(de)38個服(fu)務(wu)器(qi),采用流(liu)水(shui)并(bing)(bing)行(xing)(xing)(xing)每個服(fu)務(wu)器(qi)放置1/38的(de)模(mo)(mo)型(xing)(2個Transformer Layer),一(yi)(yi)共(gong)(gong)76層(ceng);最(zui)后,在每臺(tai)服(fu)務(wu)器(qi)內采用張量并(bing)(bing)行(xing)(xing)(xing),按照(zhao)Transformer結(jie)構的(de)每一(yi)(yi)層(ceng)進行(xing)(xing)(xing)均勻切分(fen)。在此(ci)過(guo)程中,浪潮人(ren)工(gong)智能(neng)研究院(yuan)也(ye)通過(guo)“增(zeng)(zeng)加序列長(chang)度”、“減少模(mo)(mo)型(xing)層(ceng)數”、“增(zeng)(zeng)加隱藏層(ceng)大小”、“增(zeng)(zeng)加節(jie)點中微(wei)批次大小”等(deng)模(mo)(mo)型(xing)結(jie)構策略,提升訓練效率。

Model

Layers

Hidden size

Global BS

Micro BS

Sequence

Length

t

p

d

GPUs

Yuan 1.0

76

16384

3360

1

2048

8

38

7

2128

“源1.0”的模型結構以及分布式策略

最終,浪潮人工智能(neng)研究院完成2457億參(can)數(shu)的“源 1.0”模(mo)型訓(xun)練,總計訓(xun)練1800億個(ge)tokens,模(mo)型收斂的交叉熵為1.64。相較(jiao)于(yu)GPT-3的1750億參(can)數(shu),“源1.0”是其參(can)數(shu)量的1.404倍。GPT-3使用10000塊GPU、花(hua)了(le)30天訓(xun)練完成1750億參(can)數(shu),“源1.0”在2128個(ge)GPU集群上跑了(le)16天完成了(le)訓(xun)練,使用更少GPU更快完成訓(xun)練,大幅提升計算效率。

“源1.0”消耗(hao)(hao)的(de)總算力為(wei)4095 PetaFlop/s-day,每個(ge)(ge)GPU的(de)實(shi)際訓練性(xing)能(neng)達(da)到140 TFlops,GPT-3消耗(hao)(hao)的(de)總算力為(wei)3640 PetaFlop/s-day,其(qi)(qi)單GPU計(ji)算性(xing)能(neng)為(wei)12 TFlops;而微軟和英偉達(da)打(da)造的(de)5300億參(can)數(shu)量的(de)MT-NLG模型用了4480個(ge)(ge)A100 GPU,其(qi)(qi)單GPU計(ji)算性(xing)能(neng)為(wei)113 TFlops,也低于“源1.0”。


“源1.0”與 GPT-3 的參數量、算力對比。

浪潮人工(gong)智能研究院在實(shi)現(xian)更(geng)高計算(suan)效率的(de)同時,也探索優化(hua)大規(gui)模(mo)(mo)AI計算(suan)集(ji)群(qun)架構(gou)。當(dang)前,如(ru)MT-NLG等(deng)大規(gui)模(mo)(mo)深度學習模(mo)(mo)型需(xu)要在計算(suan)集(ji)群(qun)中(zhong)采用8x200Gbps的(de)IB互聯(lian)架構(gou),而“源1.0”在集(ji)群(qun)架構(gou)設計上采用了(le)2x200Gbps的(de)高速網絡(luo)實(shi)現(xian)節(jie)點(dian)互聯(lian),“我們在實(shi)踐(jian)發(fa)現(xian),通過(guo)一定的(de)優化(hua)工(gong)作,可(ke)以使用更(geng)少(shao)網絡(luo)設備數量,取得更(geng)佳(jia)的(de)計算(suan)性(xing)能。”劉(liu)軍(jun)表示(shi)。

巨(ju)(ju)量(liang)模(mo)型(xing)(xing)(xing)是當前人(ren)工智(zhi)能(neng)研究的(de)熱點,當前的(de)巨(ju)(ju)量(liang)模(mo)型(xing)(xing)(xing)遠沒有達到模(mo)型(xing)(xing)(xing)能(neng)力的(de)極限,增大模(mo)型(xing)(xing)(xing)參(can)數(shu)量(liang)和訓(xun)練數(shu)據量(liang)仍然(ran)將(jiang)帶(dai)來(lai)模(mo)型(xing)(xing)(xing)精度的(de)持續(xu)提升。對于(yu)巨(ju)(ju)量(liang)模(mo)型(xing)(xing)(xing)的(de)發展趨(qu)勢(shi),劉(liu)軍表示,“巨(ju)(ju)量(liang)模(mo)型(xing)(xing)(xing)的(de)計(ji)(ji)(ji)算(suan)(suan)量(liang)已(yi)經超過PetaFlop/s-day的(de)階(jie)段(duan)(duan),進(jin)入到ExtraFlop/s-day的(de)階(jie)段(duan)(duan)。1 ExtraFlops等于(yu)1000 PetaFlops,因此可以說,GPT-3的(de)計(ji)(ji)(ji)算(suan)(suan)量(liang)是3.64ExtraFlop/s-day,‘源1.0’的(de)計(ji)(ji)(ji)算(suan)(suan)量(liang)則是4.095 ExtraFlop/s-day。從(cong)十年的(de)尺度來(lai)看,今天我們還(huan)處于(yu)巨(ju)(ju)量(liang)模(mo)型(xing)(xing)(xing)起步階(jie)段(duan)(duan),人(ren)類對計(ji)(ji)(ji)算(suan)(suan)的(de)追(zhui)求(qiu)是沒有極限的(de),目(mu)前巨(ju)(ju)量(liang)模(mo)型(xing)(xing)(xing)消耗的(de)計(ji)(ji)(ji)算(suan)(suan)量(liang)可能(neng)僅僅是未(wei)來(lai)一(yi)臺電腦的(de)計(ji)(ji)(ji)算(suan)(suan)量(liang)。”劉(liu)軍對巨(ju)(ju)量(liang)模(mo)型(xing)(xing)(xing)的(de)未(wei)來(lai)發展充滿信(xin)心(xin)。

消息來源:浪潮
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection