CCF信(xin)息存(cun)儲技術專委(wei)會(hui)走進浪潮信(xin)息 共話大模型(xing)時代的存(cun)儲創新(xin)之道
北京(jing)2024年6月(yue)7日 /美通社(she)/ -- 近日,中(zhong)國計算機學會信息(xi)存儲技術專業委員會(CCF信(xin)息(xi)(xi)存(cun)儲技術專(zhuan)委會(hui))首(shou)場“走(zou)進企業”活動(dong)啟動(dong),來自CCF信(xin)息(xi)(xi)存(cun)儲技術專(zhuan)委會(hui)、清華(hua)大(da)學、北京大(da)學、華(hua)中科技大(da)學、華(hua)東師(shi)范大(da)學、上(shang)海交通大(da)學、上(shang)海理工大(da)學等(deng)單位的(de)十余(yu)位存(cun)儲領域專(zhuan)家、學者走(zou)進浪潮信(xin)息(xi)(xi),在(zai)“大(da)模(mo)型(xing)時代數據(ju)中心(xin)存(cun)儲技術創(chuang)(chuang)新(xin)(xin)(xin)和(he)應用”的(de)會(hui)議主題下,分別就“以數據(ju)為中心(xin)的(de)存(cun)儲技術協同(tong)創(chuang)(chuang)新(xin)(xin)(xin)”和(he)“大(da)模(mo)型(xing)新(xin)(xin)(xin)應用的(de)存(cun)儲技術挑戰與探(tan)索”兩個核心(xin)議題,共同(tong)探(tan)討了在(zai)存(cun)儲架(jia)構創(chuang)(chuang)新(xin)(xin)(xin)、近數據(ju)計算、多協議融合互(hu)通、GPU直(zhi)通存(cun)儲、故(gu)障(zhang)預測等(deng)多個領域的(de)前沿技術創(chuang)(chuang)新(xin)(xin)(xin)和(he)產業洞察。
“以數據為中心(xin)”加速到(dao)來,存(cun)儲架構亟待(dai)創新
隨著(zhu)數(shu)字(zi)化、智能化的加速發展,社會產生的數(shu)據量呈現出爆炸式增(zeng)長。IDC報(bao)告顯示(shi),中(zhong)國(guo)數據(ju)(ju)(ju)(ju)量規(gui)(gui)模(mo)將(jiang)從2022年的(de)23.88ZB增(zeng)長至2027年的(de)76.6ZB,年均增(zeng)長速(su)度(du)(CAGR)達(da)到26.3%,為全球第(di)一。同期,全球數據(ju)(ju)(ju)(ju)量規(gui)(gui)模(mo)預計(ji)增(zeng)長一倍以上,到2027年將(jiang)達(da)到284.3ZB,年均增(zeng)長速(su)度(du)(CAGR)達(da)到22.6%。當數據(ju)(ju)(ju)(ju)變成(cheng)重要(yao)的(de)生產要(yao)素,其價值釋放正(zheng)加速(su)“以數據(ju)(ju)(ju)(ju)為中(zhong)心”的(de)到來,這對存儲架構創新(xin)提(ti)出(chu)了新(xin)的(de)要(yao)求。
浪潮信息存(cun)儲(chu)產品線首席架構師孫斌認為,作為數(shu)(shu)據(ju)的(de)主(zhu)要載(zai)體,數(shu)(shu)據(ju)中心(xin)呈現(xian)出大型(xing)集約化(hua)、邊緣分散(san)化(hua)的(de)發展趨勢(shi),未(wei)來(lai)數(shu)(shu)據(ju)中心(xin)將實(shi)現(xian)“人機(ji)物”三元智聯融合,提供全面服務且資(zi)源利用率趨向(xiang)最優。但是,隨(sui)著數(shu)(shu)據(ju)中心(xin)應用多(duo)樣化(hua)與(yu)計(ji)(ji)算多(duo)元化(hua)的(de)疊(die)加,亟需一套新型(xing)存(cun)儲(chu)架構來(lai)實(shi)現(xian)均衡全能存(cun)儲(chu)服務,通(tong)過(guo)融合軟(ruan)硬件(jian)協同設計(ji)(ji),實(shi)現(xian)介質(zhi)、軟(ruan)件(jian)和數(shu)(shu)據(ju)的(de)分離,從而可(ke)組合可(ke)共享,最終靈活支撐全場景綜合負載(zai)。
北京大學助理教授(shou)張(zhang)杰認為,存儲架(jia)構創新將是一(yi)個(ge)長期性(xing)、持續性(xing)工程,最(zui)終是要解(jie)決所謂的(de)(de)(de)“存儲墻”問(wen)(wen)題(ti)。以(yi)數據為中心要求計算圍著數據轉,以(yi)減(jian)小數據搬(ban)運(yun)帶來的(de)(de)(de)性(xing)能瓶頸以(yi)及功耗,但馮·諾依(yi)曼(man)架(jia)構是一(yi)個(ge)以(yi)計算為中心的(de)(de)(de)架(jia)構,數據搬(ban)運(yun)已(yi)然成為當下大數據、大規模應(ying)用所面臨的(de)(de)(de)最(zui)大的(de)(de)(de)問(wen)(wen)題(ti)。
華中(zhong)科技(ji)大學的(de)劉海坤(kun)教(jiao)授提出,基于新型(xing)高速互連總線CXL實現單機內存(cun)(cun)擴展(zhan)和分(fen)布式內存(cun)(cun)擴展(zhan),可(ke)以較好地解決大(da)規模數(shu)(shu)據處理特別是大(da)模型應用(yong)面臨的“內存(cun)(cun)墻”問題,可(ke)能(neng)顛覆未來數(shu)(shu)據中(zhong)心架構,推動存(cun)(cun)算(suan)(suan)融合向(xiang)存(cun)(cun)算(suan)(suan)分(fen)離(li)演進,同時使(shi)能(neng)以數(shu)(shu)據為(wei)中(zhong)心的CPU、GPU、FPGA間的對等計算(suan)(suan)。但是,劉海坤也(ye)指出,目前CXL總線面臨體系(xi)結構、操作系(xi)統、編(bian)程模型等多方面的挑(tiao)戰,產業(ye)技術生態有待進一步完善。
Storage for AI,AI for Storage,推動大模型(xing)與存儲的雙向進化(hua)
如果(guo)說(shuo)數據中心是數據的(de)“集散地”,那么大模型(xing)(xing)就是數據的(de)“掘金場”。隨著大語言(yan)模型(xing)(xing)(LLM)以及(ji)生成(cheng)式AI的飛速(su)發(fa)展(zhan),數據規模(mo)和質量(liang)對模(mo)型(xing)精度的價值日趨凸(tu)顯,這也推動(dong)存(cun)(cun)儲(chu)技術(shu)成(cheng)為提(ti)升人工(gong)智(zhi)(zhi)能(neng)生產力的關(guan)鍵環節,直(zhi)接關(guan)乎到(dao)人工(gong)智(zhi)(zhi)能(neng)整體(ti)落地水(shui)平。同(tong)時,人工(gong)智(zhi)(zhi)能(neng)技術(shu)的進步,也正向(xiang)回饋于存(cun)(cun)儲(chu)技術(shu)創新之中,帶動(dong)了(le)智(zhi)(zhi)能(neng)化存(cun)(cun)儲(chu)技術(shu)的發(fa)展(zhan)。Storage for AI,AI for Storage,大模(mo)型(xing)與存(cun)(cun)儲(chu)呈現出(chu)雙(shuang)向(xiang)進化。
大(da)模型(xing)開發通常涵(han)蓋數據(ju)(ju)歸(gui)集(ji)、數據(ju)(ju)預處理、模型(xing)訓(xun)練(lian)、應用推理幾個(ge)流程階(jie)段,其中跨設備、跨中心的數據(ju)(ju)準備往(wang)往(wang)耗時(shi)數周,同時(shi)大(da)模型(xing)訓(xun)練(lian)過(guo)程中存在(zai)海量(liang)的小(xiao)文件(jian)讀取(qu),小(xiao)文件(jian)的讀寫性(xing)能較差,進(jin)一步拉長了訓(xun)練(lian)周期,對存儲系(xi)統(tong)的容量(liang)、性(xing)能、穩定性(xing)等方面都帶(dai)來了巨(ju)大(da)挑(tiao)戰。
清(qing)華大學副教授陸(lu)游游表示,從大模(mo)型訓練過(guo)程中反映出的(de)數(shu)據特征來看,小文件(jian)讀取(qu)和帶寬的(de)優化是非常重要的(de)。同時隨著模(mo)型參數(shu)量提(ti)升(sheng),對內存、HBM顯存(cun)以及CXL遠端內存(cun)等多(duo)層次內存(cun)的(de)(de)管理也變得更加重要,需要與計(ji)算更好(hao)地協同(tong)。此(ci)外,向量存(cun)儲、參數存(cun)儲等新興的(de)(de)存(cun)儲方式也需要予以關(guan)注。
浪潮信(xin)息一直深耕面向AIGC場景的(de)新(xin)一(yi)(yi)代(dai)存(cun)儲(chu)平臺。通(tong)過全局緩存(cun)技術(shu),突(tu)破(po)多模(mo)態(tai)小(xiao)文(wen)件(jian)訓練(lian)瓶(ping)頸,創(chuang)(chuang)新(xin)性提(ti)出多協(xie)議融合互通(tong)技術(shu),實現數(shu)據免遷移,構(gou)建全局文(wen)件(jian)管理平臺,統一(yi)(yi)多源異構(gou)存(cun)儲(chu),數(shu)據管理更(geng)加便捷(jie),引(yin)入(ru)GPU直通(tong)存(cun)儲(chu)技術(shu),大大縮短(duan)AI訓練(lian)I/O路徑,提(ti)高大模(mo)型(xing)訓練(lian)效率。此外,浪潮信(xin)息也積極地圍繞CXL2.0,QLC,PCIe Gen 5等新(xin)型(xing)硬件(jian)和協(xie)議等進行全面的(de)適(shi)配和優化,提(ti)供(gong)更(geng)強(qiang)大的(de)存(cun)儲(chu)性能,助力大模(mo)型(xing)系統創(chuang)(chuang)新(xin)及(ji)AI應(ying)用落地。
而在AI for Storage領域,人工智能(neng)在(zai)數(shu)據恢(hui)(hui)復(fu)、故(gu)障預(yu)測(ce)等場(chang)景(jing)中也體(ti)現(xian)出越來越高的技(ji)術(shu)價(jia)值。上海交(jiao)通大(da)學教(jiao)授吳晨(chen)濤分(fen)(fen)享(xiang)了(le)分(fen)(fen)布(bu)式機(ji)器學習高可靠數(shu)據恢(hui)(hui)復(fu)機(ji)制的研(yan)(yan)究(jiu)(jiu),包括分(fen)(fen)布(bu)式學習過程中硬盤故(gu)障恢(hui)(hui)復(fu)加速(su)的研(yan)(yan)究(jiu)(jiu)以及故(gu)障和(he)繁忙節點的混合全局(ju)圖恢(hui)(hui)復(fu)方法;華東師范大(da)學教(jiao)授石亮分(fen)(fen)享(xiang)了(le)面向大(da)規(gui)模存(cun)儲場(chang)景(jing)的SSD故(gu)障預(yu)測(ce)及部署優化技(ji)術(shu)研(yan)(yan)究(jiu)(jiu),包括差異化的機(ji)器學習SSD故(gu)障預(yu)測(ce)研(yan)(yan)究(jiu)(jiu)和(he)基于(yu)預(yu)測(ce)備份(fen)的RAID快(kuai)速(su)恢(hui)(hui)復(fu)技(ji)術(shu),主要針對(dui)當前大(da)規(gui)模閃存(cun)存(cun)儲系統故(gu)障預(yu)測(ce)性(xing)能(neng)不佳、故(gu)障恢(hui)(hui)復(fu)機(ji)制占用計算資源(yuan)且速(su)度慢的問題做了(le)優化。
浪潮(chao)信息作(zuo)為(wei)本次活動的(de)(de)東道(dao)主,存儲(chu)產品(pin)線總經理(li)李輝對(dui)各位專家的(de)(de)到(dao)來(lai)表示熱烈歡(huan)迎,指(zhi)出面向(xiang)數據產業(ye)創新與大模型(xing)應用的(de)(de)存儲(chu)需求,業(ye)界(jie)(jie)與學界(jie)(jie)的(de)(de)深(shen)度對(dui)接(jie)和交(jiao)流將進(jin)一步拓(tuo)展創新的(de)(de)邊界(jie)(jie)。CCF信息(xi)存(cun)儲(chu)技術(shu)專委(wei)會走進浪潮信息(xi)活動的成(cheng)功舉辦,將有(you)助于加(jia)快(kuai)信息(xi)存(cun)儲(chu)領域的學術(shu)創新到產業落地的轉化,推動數據成(cheng)為新質(zhi)(zhi)生產力的優(you)質(zhi)(zhi)生產要素。