亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

OGAI詳解:AIStation調度平臺如何實現大模型高效長時間持續訓練

2023-09-15 14:51 5862

北京2023年(nian)9月15日 /美通社/ -- 大(da)模(mo)(mo)型(xing)是當前通用(yong)人工智(zhi)(zhi)能產業(ye)發展創新的(de)(de)核心(xin)技術(shu),目前國內(nei)已發布的(de)(de)生成(cheng)式(shi)AI模(mo)(mo)型(xing)超過了100個。面向以大(da)模(mo)(mo)型(xing)為(wei)核心(xin)的(de)(de)生成(cheng)式(shi)AI開發與應用(yong)場景,近(jin)日浪潮信(xin)息發布了大(da)模(mo)(mo)型(xing)智(zhi)(zhi)算(suan)軟(ruan)件棧OGAI(Open GenAI Infra)——"元腦生智(zhi)(zhi)",為(wei)大(da)模(mo)(mo)型(xing)業(ye)務提(ti)供了全棧全流程的(de)(de)智(zhi)(zhi)算(suan)軟(ruan)件棧,包括AI算(suan)力系統環(huan)境(jing)部(bu)署、算(suan)力調度(du)保障、模(mo)(mo)型(xing)開發管理等。OGAI軟(ruan)件棧由5層(ceng)架構組成(cheng),從(cong)L0到(dao)L4分別對應于基(ji)礎設(she)施層(ceng)的(de)(de)智(zhi)(zhi)算(suan)中心(xin)OS產品、系統環(huan)境(jing)層(ceng)的(de)(de)PODsys產品、調度(du)平(ping)臺層(ceng)的(de)(de)AIStation產品、模(mo)(mo)型(xing)工具層(ceng)的(de)(de)YLink產品和多模(mo)(mo)納管層(ceng)的(de)(de)MModel產品。

其(qi)中L2層AIStation是(shi)面向大(da)(da)模(mo)型開發(fa)的(de)AI算力(li)調度平臺,AIStation針對大(da)(da)模(mo)型訓(xun)練中的(de)資源(yuan)使用(yong)與調度、訓(xun)練流程與保障(zhang)、算法(fa)與應(ying)用(yong)管理(li)等(deng)方面進行(xing)(xing)了系統性優化,具備(bei)大(da)(da)模(mo)型斷點續訓(xun)能力(li),保證長(chang)時間持續訓(xun)練。AIStation支撐浪潮信息"源(yuan)"大(da)(da)模(mo)型的(de)訓(xun)練算力(li)效率達到44.8%。某大(da)(da)型商業銀行(xing)(xing)基于AIStation打造的(de)大(da)(da)規(gui)模(mo)并行(xing)(xing)運算集群,幫助(zhu)其(qi)充分發(fa)掘(jue)計算潛能進行(xing)(xing)大(da)(da)模(mo)型訓(xun)練,并榮獲2022 IDC"未來數字基礎架構領(ling)軍者"獎項。

本文將(jiang)重點討論大模型(xing)訓練面臨的挑(tiao)戰、AIStation如何(he)提(ti)升(sheng)大模型(xing)訓練效(xiao)率(lv),以及(ji)取得的效(xiao)果。

一、大模型訓練面臨巨大挑戰

1.大模型訓練巨大算力成本和算力利用難題

大模(mo)(mo)型訓(xun)練(lian)(lian)要(yao)面對(dui)的(de)(de)(de)(de)首(shou)要(yao)挑戰就是(shi)(shi)海(hai)量數據和計算(suan)(suan)(suan)(suan)量,算(suan)(suan)(suan)(suan)力(li)開銷巨大,如GPT-3是(shi)(shi)在(zai)10000個GPU上(shang)(shang)訓(xun)練(lian)(lian)得到的(de)(de)(de)(de),"源1.0"模(mo)(mo)型是(shi)(shi)在(zai)2128個GPU上(shang)(shang)通過(guo)AIStation平(ping)(ping)臺(tai)完成(cheng)1800億(yi)tokens的(de)(de)(de)(de)訓(xun)練(lian)(lian),訓(xun)練(lian)(lian)一個萬(wan)億(yi)token的(de)(de)(de)(de)700億(yi)參數模(mo)(mo)型將花費上(shang)(shang)百萬(wan)美元。但計算(suan)(suan)(suan)(suan)平(ping)(ping)臺(tai)的(de)(de)(de)(de)性能(neng)通常不(bu)能(neng)隨著算(suan)(suan)(suan)(suan)力(li)線性增長,而(er)是(shi)(shi)會出現耗損,因此大模(mo)(mo)型訓(xun)練(lian)(lian)還需要(yao)高(gao)效(xiao)的(de)(de)(de)(de)算(suan)(suan)(suan)(suan)力(li)調(diao)度來發揮(hui)算(suan)(suan)(suan)(suan)力(li)平(ping)(ping)臺(tai)的(de)(de)(de)(de)效(xiao)能(neng)。而(er)這(zhe)不(bu)僅需要(yao)依賴(lai)算(suan)(suan)(suan)(suan)法(fa)、框架的(de)(de)(de)(de)優化(hua),還需要(yao)借(jie)助(zhu)高(gao)效(xiao)的(de)(de)(de)(de)算(suan)(suan)(suan)(suan)力(li)調(diao)度平(ping)(ping)臺(tai),以(yi)根據算(suan)(suan)(suan)(suan)力(li)集群的(de)(de)(de)(de)硬(ying)件(jian)特點和計算(suan)(suan)(suan)(suan)負載特性實現最優化(hua)的(de)(de)(de)(de)算(suan)(suan)(suan)(suan)力(li)調(diao)度,整體提高(gao)算(suan)(suan)(suan)(suan)力(li)利用率和訓(xun)練(lian)(lian)效(xiao)率。

2.耗時且維護復雜的多種網絡兼容適配

大(da)模(mo)型訓練(lian)過程中,成千上萬顆GPU會在節點(dian)內和節點(dian)間(jian)不(bu)(bu)斷地進行通(tong)信(xin)。為(wei)了獲(huo)得最優的(de)(de)訓練(lian)效果,單臺GPU服務(wu)器會搭載多張InfiniBand、ROCE等高(gao)性(xing)能(neng)(neng)網卡,為(wei)節點(dian)間(jian)通(tong)信(xin)提(ti)供高(gao)吞吐(tu)、低(di)時延的(de)(de)服務(wu)。但(dan)(dan)不(bu)(bu)同的(de)(de)網絡方(fang)案各有優劣,InfiniBand因性(xing)能(neng)(neng)優異(yi)已(yi)被公認(ren)為(wei)大(da)模(mo)型訓練(lian)的(de)(de)首(shou)選,但(dan)(dan)其(qi)成本較(jiao)高(gao);RoCE雖(sui)然成本較(jiao)低(di),但(dan)(dan)在大(da)規模(mo)的(de)(de)網絡環境下,其(qi)性(xing)能(neng)(neng)和穩定性(xing)不(bu)(bu)如InfiniBand方(fang)案。因此要想滿足大(da)模(mo)型訓練(lian)對(dui)通(tong)信(xin)的(de)(de)要求,就要對(dui)集(ji)群(qun)網絡中的(de)(de)通(tong)信(xin)設(she)備適配(pei)使(shi)用和網絡情況(kuang)進行探(tan)索(suo)和設(she)計。

3.不穩定的大模型訓練和高門檻的系統級別優化

大(da)(da)(da)模型(xing)(xing)訓(xun)(xun)(xun)(xun)(xun)練(lian)過程比傳統的(de)分布(bu)式訓(xun)(xun)(xun)(xun)(xun)練(lian)復雜,訓(xun)(xun)(xun)(xun)(xun)練(lian)周期長達數月。集(ji)群計算(suan)效力低、故(gu)障頻發且處理復雜,會(hui)導致訓(xun)(xun)(xun)(xun)(xun)練(lian)中斷(duan)后(hou)不能及時恢復,從(cong)而會(hui)降低大(da)(da)(da)模型(xing)(xing)訓(xun)(xun)(xun)(xun)(xun)練(lian)的(de)成功(gong)概率(lv),也會(hui)使(shi)得大(da)(da)(da)模型(xing)(xing)訓(xun)(xun)(xun)(xun)(xun)練(lian)成本(ben)居高不下。因(yin)此,大(da)(da)(da)模型(xing)(xing)對(dui)訓(xun)(xun)(xun)(xun)(xun)練(lian)的(de)穩定性(xing)、故(gu)障檢測與訓(xun)(xun)(xun)(xun)(xun)練(lian)容錯提出了(le)更(geng)高的(de)要求。同(tong)時簡(jian)化大(da)(da)(da)模型(xing)(xing)分布(bu)式任務(wu)提交、實現智能與自動化的(de)任務(wu)資源匹配和訓(xun)(xun)(xun)(xun)(xun)練(lian)健壯性(xing)也是提升(sheng)訓(xun)(xun)(xun)(xun)(xun)練(lian)效率(lv)的(de)重要保(bao)證。

Meta在訓(xun)(xun)練(lian)(lian)(lian)模(mo)(mo)型體量與GPT3規模(mo)(mo)相(xiang)當的(de)Open Pre-trained Transformer (OPT)-175B時,遇(yu)到(dao)的(de)一大工程問(wen)(wen)題就是訓(xun)(xun)練(lian)(lian)(lian)不穩定。如下(xia)圖(tu)所(suo)示(shi),可以看(kan)到(dao)有許(xu)多訓(xun)(xun)練(lian)(lian)(lian)停止的(de)時間節(jie)點,原因有GPU掉卡(ka)、GPU性能(neng)異常導致訓(xun)(xun)練(lian)(lian)(lian)意(yi)外(wai)中(zhong)斷(duan)等(deng)。訓(xun)(xun)練(lian)(lian)(lian)穩定性和有效的(de)斷(duan)點續訓(xun)(xun)是目前大模(mo)(mo)型訓(xun)(xun)練(lian)(lian)(lian)中(zhong)亟(ji)待解(jie)決(jue)的(de)問(wen)(wen)題。

總之,在(zai)超大規(gui)模分布式環(huan)境(jing)下開展大模型訓(xun)(xun)練,如果想要(yao)(yao)縮短訓(xun)(xun)練周期(qi)、降低訓(xun)(xun)練成本,就(jiu)需要(yao)(yao)解決算力調度、網絡通(tong)(tong)信、訓(xun)(xun)練穩定性等各種挑戰(zhan)。不僅要(yao)(yao)靈活、充分地利用(yong)集群(qun)(qun)內的所有資(zi)源,通(tong)(tong)過多種手段優化數據使用(yong)、通(tong)(tong)訊,還(huan)要(yao)(yao)及(ji)時(shi)處理(li)大規(gui)模計算集群(qun)(qun)的異(yi)常。

二、AIStation全流程簡化和提速大模型訓練

浪(lang)潮信息AIStation提(ti)供了(le)系統(tong)性(xing)軟(ruan)硬一體(ti)優(you)化(hua)(hua)的平臺(tai)與軟(ruan)件棧能力,來保障大模型(xing)的訓(xun)(xun)練需求。AIStation平臺(tai)從資源(yuan)使用與調度、訓(xun)(xun)練流程與保障、算法與應用等角(jiao)度進行了(le)系統(tong)性(xing)的優(you)化(hua)(hua),實現了(le)對大模型(xing)訓(xun)(xun)練的端(duan)到(dao)端(duan)優(you)化(hua)(hua)和加速。


AIStation全面支撐與保障大模型業(ye)務

1.  毫秒級調度,高效使用大規模算力,解決算力利用低難題

AIStation在(zai)大模(mo)型訓(xun)練(lian)實(shi)踐(jian)中,針(zhen)對云原(yuan)生(sheng)調(diao)度系(xi)統性(xing)能(neng)做了(le)優化,實(shi)現了(le)上千(qian)POD極速(su)啟動(dong)和環(huan)境(jing)就緒。如下表所示,AIStation調(diao)度器與原(yuan)生(sheng)社區版(ban)相(xiang)比,能(neng)大幅提升大規模(mo)POD任務的(de)(de)調(diao)度性(xing)能(neng),尤(you)其能(neng)保證大模(mo)型訓(xun)練(lian)的(de)(de)計算(suan)資源的(de)(de)調(diao)度使用(yong)。

表1 大規模POD調度任(ren)務(wu)性能對比


社區調(diao)度(du)器

AIStation調度器

效(xiao)果對比

1000 pod 吞吐量

4.97 (pods/s)

26.31 (pods/s)

POD吞(tun)吐量提升5倍

1000 pod調度時延/500節(jie)點

100346 ms

18523 ms

時(shi)延下降5倍

此外,AIStation平臺能(neng)夠支持大模型特有的開發模式(shi),提供多種尺(chi)度(du)作(zuo)業(ye)資(zi)源使用方式(shi),包括小尺(chi)度(du)資(zi)源調度(du),大尺(chi)度(du)資(zi)源調度(du)、高(gao)(gao)性能(neng)調度(du)等。算(suan)(suan)力調度(du)器(qi)通過動態(tai)、智能(neng)地管理和調配(pei)集群計(ji)(ji)算(suan)(suan)資(zi)源,制定(ding)合理的作(zuo)業(ye)執(zhi)行計(ji)(ji)劃,以(yi)最大限(xian)度(du)地利(li)用資(zi)源,滿足各類(lei)訓練任務的時延和吞吐需求,保證作(zuo)業(ye)高(gao)(gao)效(xiao)穩定(ding)運行,實現算(suan)(suan)力平臺高(gao)(gao)利(li)用率、強擴展性、高(gao)(gao)容錯性。

通過多種資源(yuan)高效管理和調(diao)度(du)策略,AIStation能實(shi)現毫秒級調(diao)度(du),將整體資源(yuan)利用率提(ti)升(sheng)到(dao)70%以上,幫(bang)助客戶更(geng)好地利用計算集(ji)群算力,充(chong)分(fen)發(fa)揮算力價(jia)值。

2.高效網絡資源管理,多卡加速比達90%,極致加速訓練過程

AIStation定義(yi)了(le)互相獨(du)立的計算高性(xing)(xing)能(neng)(neng)(neng)網(wang)絡(luo)、存儲高性(xing)(xing)能(neng)(neng)(neng)網(wang)絡(luo),并且支持交換(huan)機(ji)級別的資源調度,減少跨交換(huan)機(ji)流量,同時具(ju)備網(wang)絡(luo)故障自動識別和處理功能(neng)(neng)(neng)。針(zhen)對大(da)模(mo)型訓練(lian)通(tong)信要(yao)求(qiu)高的場(chang)景(jing),AIStation提供集(ji)群拓(tuo)撲感知能(neng)(neng)(neng)力,容(rong)器網(wang)絡(luo)與(yu)集(ji)群物理網(wang)絡(luo)一致,保證了(le)容(rong)器互聯性(xing)(xing)能(neng)(neng)(neng),滿足訓練(lian)通(tong)信要(yao)求(qiu)。分布式(shi)通(tong)信優(you)化(hua)結合集(ji)群的InfiniBand或 RoCE高性(xing)(xing)能(neng)(neng)(neng)網(wang)絡(luo)和專門優(you)化(hua)的通(tong)信拓(tuo)撲,使(shi)得AIStation在(zai)千(qian)卡(ka)(ka)規(gui)模(mo)集(ji)群測(ce)試(shi)中,多(duo)卡(ka)(ka)加(jia)速比達到了(le)90%。尤其AIStation對大(da)規(gui)模(mo)RoCE無損網(wang)絡(luo)下的大(da)模(mo)型訓練(lian)也(ye)做了(le)相應(ying)優(you)化(hua),實測(ce)網(wang)絡(luo)性(xing)(xing)能(neng)(neng)(neng)穩定性(xing)(xing)達到了(le)業界(jie)較高水平。

借助AIStation平臺,某大型(xing)(xing)商業銀行實現了主流大模(mo)型(xing)(xing)訓練框架(jia),如DeepSpeed、Megatron-LM和(he)大語(yu)言模(mo)型(xing)(xing)在RoCE網絡(luo)環境的訓練,快速實現大模(mo)型(xing)(xing)的落(luo)地實踐。

3.大規模訓練系統級別優化,故障處理時間縮短90%,最大限度降低實驗成本

大模(mo)型任務(wu)提交(jiao)時(shi),經常會伴隨著大量的環(huan)境(jing)配置、依賴庫適(shi)配和(he)超參數(shu)調整。AIStation能(neng)夠自(zi)(zi)動化(hua)配置計算、存儲、網絡環(huan)境(jing),同時(shi)對(dui)一(yi)些基本的超參數(shu)提供自(zi)(zi)定義(yi)修改,方便用戶使用,通過幾步就能(neng)啟(qi)動大模(mo)型分(fen)布(bu)式訓練,目前(qian)支持諸多大模(mo)型訓練框架和(he)開源方案,如Megatron-LM、DeepSpeed等(deng)。


AIStation上快速(su)部署Megatron-LM,提(ti)供訓練全過程保障

AIStation在大規模訓練(lian)(lian)集群上(shang)利用(yong)自(zi)研數據緩存系(xi)統,提(ti)(ti)高(gao)了訓練(lian)(lian)前、訓練(lian)(lian)中(zhong)的(de)數據讀取速率,大大減少對(dui)存儲系(xi)統和網絡的(de)依賴。配(pei)合(he)優化的(de)調度策(ce)略,與直接(jie)使用(yong)存儲系(xi)統相比(bi),可讓模型訓練(lian)(lian)效率獲(huo)得200%-300%的(de)提(ti)(ti)升,硬件性能100%釋放。

健壯(zhuang)性(xing)與穩定性(xing)是高(gao)效完成(cheng)大(da)模型(xing)訓(xun)(xun)練(lian)(lian)(lian)的必要條件(jian)。AIStation針對資(zi)源(yuan)故障等集群突(tu)發情況,會自動進行容錯處理或者執(zhi)行彈性(xing)擴縮容策略,保(bao)證訓(xun)(xun)練(lian)(lian)(lian)任務(wu)中斷(duan)后能以最(zui)快速度(du)恢復,為需要長時(shi)間訓(xun)(xun)練(lian)(lian)(lian)的大(da)模型(xing)提供可靠環境,平均將異常故障處理時(shi)間縮短90%以上。


大規模預訓(xun)練任(ren)務的異常處理(li)和斷點(dian)續訓(xun)流程

綜上,針對大規模(mo)分布式(shi)計(ji)算,AIStation內置分布式(shi)訓(xun)練(lian)(lian)(lian)自適應系(xi)統,覆蓋訓(xun)練(lian)(lian)(lian)的全生命周期,滿足了大模(mo)型訓(xun)練(lian)(lian)(lian)的諸多訴(su)求,提供(gong)資源(yuan)使用視圖、計(ji)算與(yu)網絡調(diao)度策略、分布式(shi)訓(xun)練(lian)(lian)(lian)加速、訓(xun)練(lian)(lian)(lian)監(jian)控(kong)、訓(xun)練(lian)(lian)(lian)容錯(cuo)與(yu)自愈(yu)能力,在加速訓(xun)練(lian)(lian)(lian)的同時,能夠自動定位故障(zhang)(zhang)和(he)(he)恢復任務(wu),保證了訓(xun)練(lian)(lian)(lian)的穩定性和(he)(he)效率(lv)。某銀行客戶在AIStation智能容錯(cuo)的機(ji)制保障(zhang)(zhang)下,在極其嚴苛(ke)的業務(wu)投(tou)(tou)產測試中能夠實現(xian)快速故障(zhang)(zhang)排(pai)查和(he)(he)恢復,大幅降低業務(wu)投(tou)(tou)產上線時間。

三、AIStation助力行業提升大模型開發效率

AIStation平臺在(zai)AI開發(fa)、應(ying)用部(bu)署和大(da)模(mo)(mo)型(xing)工程實(shi)踐上(shang)積累了寶貴的經驗和技術,幫助(zhu)諸多(duo)行(xing)業(ye)(ye)客戶在(zai)資(zi)源(yuan)、開發(fa)、部(bu)署層面實(shi)現降(jiang)本增(zeng)效(xiao)。在(zai)垂直行(xing)業(ye)(ye)領(ling)域,AIStation平臺幫助(zhu)頭部(bu)金融客戶、生物制藥服務公司快(kuai)速利用密集數據訓練(lian)、驗證大(da)模(mo)(mo)型(xing),大(da)大(da)降(jiang)低大(da)模(mo)(mo)型(xing)業(ye)(ye)務成本。某大(da)型(xing)商業(ye)(ye)銀行(xing)基于AIStation打造的并行(xing)運算集群,憑借領(ling)先(xian)的大(da)規模(mo)(mo)分布式訓練(lian)支撐(cheng)能(neng)力(li),榮獲2022 IDC"未來數字基礎架構領(ling)軍者"獎項。

浪潮信息AIStation在大(da)模(mo)型方面已(yi)經(jing)(jing)取得了諸多業(ye)界領先的(de)(de)(de)經(jing)(jing)驗(yan)和積累,實現了端到端的(de)(de)(de)優化,是(shi)更適(shi)合大(da)模(mo)型時代(dai)的(de)(de)(de)人工智能平臺。未來AIStation將與浪潮信息OGAI軟件棧一(yi)同進(jin)化,進(jin)一(yi)步通過低代(dai)碼、標準(zhun)化的(de)(de)(de)大(da)模(mo)型開(kai)發(fa)流(liu)程,以及低成本和高(gao)效的(de)(de)(de)推(tui)理服(fu)務部署,幫(bang)助客戶快速實現大(da)模(mo)型開(kai)發(fa)和落地,搶占先機。

消息來源:浪潮信息
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection