北京2024年10月29日 /美通社/ -- 當(dang)前,隨著生成式人工智能和各行業(ye)的(de)(de)應(ying)用快(kuai)(kuai)速融合(he),大(da)模(mo)型(xing)(xing)在企業(ye)端被越(yue)來越(yue)多的(de)(de)采(cai)用,以提(ti)高效率(lv)、降低成本(ben)、增強創新能力(li)。大(da)模(mo)型(xing)(xing)開發(fa)首先(xian)要(yao)解決的(de)(de),便是(shi)訓練(lian)環境的(de)(de)搭建問題,在算力(li)多元(yuan)異構、依(yi)賴(lai)庫眾多、配(pei)(pei)置步驟繁(fan)瑣的(de)(de)情況下(xia),如何快(kuai)(kuai)速搭建滿足要(yao)求的(de)(de)訓練(lian)環境,為底層算力(li)平臺匹配(pei)(pei)最佳驅(qu)動(dong),避免(mian)依(yi)賴(lai)庫及配(pei)(pei)置龐雜導致訓練(lian)環境魯棒性低的(de)(de)問題,成為各類大(da)模(mo)型(xing)(xing)開發(fa)企業(ye)需要(yao)面對的(de)(de)挑戰。
為此,浪潮信息推出「元腦服務器操作系統KOS Al定制版」(簡稱KOS Al定(ding)制版),通過(guo)簡單(dan)2步即(ji)可實現大(da)模(mo)型訓練環境部(bu)署(shu),以搭建(jian)200節點訓練環境為例(li),過(guo)往需(xu)要數(shu)天時間才能完(wan)成,通過(guo)KOS AI定(ding)制版20分鐘即(ji)可完(wan)成上線可用,極(ji)大(da)提升了大(da)模(mo)型開發部(bu)署(shu)效率。
大模型訓練環境復雜 面臨兼容適配等多項挑戰
當前(qian)階(jie)段,大(da)模(mo)型(xing)的(de)(de)發展仍然遵循Scaling Law,不斷增加的(de)(de)參(can)數規模(mo)、訓練數據(ju)量以及(ji)計算(suan)資源,也讓大(da)模(mo)型(xing)的(de)(de)部署(shu)環境變得十分復雜。大(da)模(mo)型(xing)部署(shu)是一個系統性(xing)的(de)(de)問(wen)題,涉及(ji)到算(suan)力設備(bei)兼(jian)容、依(yi)賴庫配置、繁(fan)瑣的(de)(de)安裝步驟等(deng)等(deng)多(duo)個方面。
KOS Al定制版 "2步"搞定大模型訓練環境部署
針對用戶在(zai)大模型(xing)部(bu)署(shu)中遇到的困難,浪(lang)潮信(xin)息推出KOS Al定制(zhi)版(ban),實現了覆(fu)蓋驅(qu)動和(he)應用軟件編譯(yi)、鏡像文件構建、系統發布與部(bu)署(shu)的鏡像開發全流程(cheng)創新, 解決了部(bu)署(shu)大模型(xing)訓(xun)練環境中遇到的硬件兼容適配(pei)、依賴項龐雜及(ji)安裝(zhuang)部(bu)署(shu)流程(cheng)繁瑣等問題,讓大模型(xing)部(bu)署(shu)化繁為(wei)簡。
針對硬件兼容適配挑戰,浪潮信息KOS技術團(tuan)隊(dui)憑借(jie)深厚(hou)的(de)技術沉(chen)淀和(he)經驗積累,遴(lin)選出十(shi)余(yu)款(kuan)GPU和(he)infiniband卡(ka)的(de)最佳驅動(dong),驗證(zheng)不同硬(ying)件環境(jing)下的(de)軟件兼容(rong)(rong)性(xing),優化BIOS、底層驅動(dong)、文件系(xi)統(tong)和(he)網(wang)絡等多項指標,實現平(ping)臺資源(yuan)利用效率(lv)最大化。目(mu)前KOS已經與1200+硬(ying)件板卡(ka)、250+服務器(qi)整(zheng)機(ji)、400+數據庫中間件完成(cheng)兼容(rong)(rong)性(xing)認(ren)證(zheng)。
面對軟件依賴庫龐雜的問題,KOS Al定制(zhi)版對鏡(jing)像構建(jian)過(guo)程中的軟(ruan)(ruan)件(jian)包安裝(zhuang)列表進行(xing)(xing)了(le)擴(kuo)展,并優化了(le)軟(ruan)(ruan)件(jian)包的集(ji)成(cheng)范(fan)圍(wei)和安裝(zhuang)順序,解決軟(ruan)(ruan)件(jian)安裝(zhuang)依賴問題(ti),確保在集(ji)成(cheng)大量軟(ruan)(ruan)件(jian)的情(qing)況下,操(cao)作(zuo)系統能(neng)夠(gou)順利完成(cheng)安裝(zhuang),且保證系統安裝(zhuang)完成(cheng)后,驅動和應(ying)用(yong)(yong)軟(ruan)(ruan)件(jian)能(neng)夠(gou)正常(chang)進行(xing)(xing)編譯和安裝(zhuang)。同時(shi),面對AI大模型(xing)訓練過(guo)程中某些應(ying)用(yong)(yong)軟(ruan)(ruan)件(jian)體積龐大,無法直接構建(jian)為rpm包集(ji)成(cheng)至鏡(jing)像的挑戰,采用(yong)(yong)"軟(ruan)(ruan)件(jian)切(qie)割與再聚(ju)合"技術,將超(chao)大型(xing)軟(ruan)(ruan)件(jian)包進行(xing)(xing)分割,并在聚(ju)合后校驗其哈希值(zhi),以(yi)確保軟(ruan)(ruan)件(jian)的一致性,從而有效解決了(le)超(chao)大軟(ruan)(ruan)件(jian)集(ji)成(cheng)難題(ti),實現了(le)超(chao)大應(ying)用(yong)(yong)軟(ruan)(ruan)件(jian)的自(zi)動化安裝(zhuang)。
大模型部署的關鍵是單節點環境配置。在簡化發布與部署方面,為了解決大(da)模(mo)型(xing)訓練集群單(dan)節點環(huan)境(jing)配(pei)置復雜的(de)問題,KOS技術團隊開(kai)發了一(yi)套環(huan)境(jing)配(pei)置自動化部署腳(jiao)本。該(gai)腳(jiao)本能(neng)夠智能(neng)檢測(ce)操(cao)作(zuo)系統(tong)的(de)啟(qi)(qi)動狀態(tai),只在系統(tong)安裝完成后的(de)首次重啟(qi)(qi)時自動運行(xing),確保在不(bu)同節點上快速(su)部署大(da)模(mo)型(xing)運行(xing)環(huan)境(jing)。在此之后的(de)系統(tong)啟(qi)(qi)動中,該(gai)腳(jiao)本將不(bu)再(zai)執行(xing),從而實(shi)現集群環(huan)境(jing)中單(dan)節點環(huan)境(jing)的(de)自動部署。
用(yong)戶依托KOS AI定(ding)制版(ban),僅需(xu)2步即可實(shi)現大模型訓練環境快速部(bu)署(shu)。
步驟1:利用PXE實現自動化系統部署
KOS AI定(ding)制版(ban)集成了大(da)模(mo)型訓(xun)練環境部署所(suo)需的(de)驅動(dong)、應用軟件(jian)和(he)依賴(lai)庫等,用戶(hu)只需要把該定(ding)制版(ban)鏡(jing)像(xiang)當作(zuo)普通(tong)鏡(jing)像(xiang)一樣進行自動(dong)化部署,通(tong)過PXE方式實(shi)現(xian)操作(zuo)系統自動(dong)化安(an)裝。
步驟2:正常開機啟動,完成環境部署
定制版鏡像安(an)裝完(wan)成后(hou),通(tong)過管理節點向計(ji)算節點下發重啟指令,計(ji)算節點重啟后(hou),大模(mo)型訓練環(huan)境部署即可完(wan)成。
面(mian)對(dui)操作系(xi)統(tong)(tong)與AI結合的(de)(de)趨勢,KOS定(ding)位(wei)智(zhi)算時代最AI的(de)(de)操作系(xi)統(tong)(tong),全(quan)面(mian)優先擁抱AI,深度融合AI能力。KOS Al定(ding)制版(ban)簡化了大(da)模型部(bu)署流程,通過Al定(ding)制版(ban)部(bu)署大(da)模型訓(xun)練環境具有簡單高(gao)效、廣泛兼容和運行(xing)穩定(ding)等特(te)點,大(da)幅降低了用戶開發大(da)模型的(de)(de)技術門檻。