北京2022年4月18日(ri) /美通社/ -- 4月9日(ri)-13日(ri),第十(shi)三(san)屆國(guo)際(ji)性能(neng)工程(cheng)學(xue)大會(ICPE2022)在(zai)線召(zhao)開,大會由國(guo)際(ji)計(ji)算(suan)機協會ACM和(he)標準(zhun)性能(neng)評估組織(zhi)SPEC聯合舉辦,高效能(neng)服(fu)務器和(he)存儲技術國(guo)家重(zhong)點實驗室(shi)承辦。此次大會吸(xi)引了(le)(le)300余(yu)(yu)位專(zhuan)(zhuan)家、學(xue)者報名參與,共收到各類投稿290余(yu)(yu)篇,涉及AI建模及算(suan)法、算(suan)力(li)提升(sheng)、能(neng)效測量、新(xin)型計(ji)算(suan)架構(gou)、體系(xi)結構(gou)研究等多個主題。其中(zhong)專(zhuan)(zhuan)業論(lun)文(wen)70余(yu)(yu)篇,包(bao)含優秀論(lun)文(wen)58篇,論(lun)文(wen)集收錄22篇。會議(yi)期(qi)間還舉辦了(le)(le)6場專(zhuan)(zhuan)題研討會,涵蓋(gai)基準(zhun)測試、存儲管理、軟件(jian)開發等多個領域。
首次引入數據挑戰專題,評估數據算法優化對服務器性能的提升情況
相對于傳統(tong)應用來講(jiang),在云、邊、AI等新興領(ling)域,數(shu)(shu)據(ju)(ju)中(zhong)心(xin)的(de)(de)(de)(de)(de)首(shou)要性能挑(tiao)戰(zhan)主要來自不斷增長(chang)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)規模(mo)(mo),系(xi)(xi)(xi)統(tong)內(nei)的(de)(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)流動(dong)制(zhi)約了(le)大規模(mo)(mo)、超大規模(mo)(mo)系(xi)(xi)(xi)統(tong)計算的(de)(de)(de)(de)(de)效能,提高(gao)了(le)系(xi)(xi)(xi)統(tong)部(bu)署及(ji)維護的(de)(de)(de)(de)(de)復雜度和(he)成本(ben)。根據(ju)(ju)國際權威(wei)機構(gou)Statista的(de)(de)(de)(de)(de)統(tong)計和(he)預(yu)(yu)測,2020年全球數(shu)(shu)據(ju)(ju)產生量預(yu)(yu)計達到47ZB,而到2035年這一數(shu)(shu)字將(jiang)達到2142ZB。數(shu)(shu)據(ju)(ju)挑(tiao)戰(zhan)帶(dai)來的(de)(de)(de)(de)(de)直觀問題是超大規模(mo)(mo)系(xi)(xi)(xi)統(tong)的(de)(de)(de)(de)(de)協同,即如(ru)何解(jie)決數(shu)(shu)據(ju)(ju)流動(dong)、系(xi)(xi)(xi)統(tong)模(mo)(mo)塊之間(jian)的(de)(de)(de)(de)(de)通信問題。為此,ICPE2022首(shou)次引(yin)入數(shu)(shu)據(ju)(ju)挑(tiao)戰(zhan)專題,針(zhen)對數(shu)(shu)據(ju)(ju)集形成算法(fa)并進行優化(hua),同時優化(hua)服務(wu)器的(de)(de)(de)(de)(de)性能。
來(lai)自沃爾茨(ci)堡大學(xue)的(de)(de)André Bauer教授(shou)介(jie)紹了一(yi)種(zhong)性(xing)能(neng)改變(bian)點(dian)的(de)(de)自動分(fen)類方(fang)法(fa),通過應用時間(jian)序列(lie)分(fen)析和機器學(xue)習(xi)方(fang)法(fa),開發(fa)一(yi)個可以(yi)對潛(qian)在的(de)(de)性(xing)能(neng)變(bian)化點(dian)進行分(fen)類的(de)(de)模(mo)型,以(yi)評估不同機器學(xue)習(xi)模(mo)型的(de)(de)性(xing)能(neng),并將生(sheng)成的(de)(de)模(mo)型應用于其(qi)他未標記的(de)(de)數(shu)據(ju)集,以(yi)自動對性(xing)能(neng)變(bian)化點(dian)進行分(fen)類和檢測(ce),從而節(jie)省人力及設備資(zi)源,提升部署(shu)速度。
專家分享研究實踐成果,從邊緣到集群的性能優化
在(zai)大會Keynote演(yan)講環節,來自(zi)維也(ye)納理(li)工大學、谷歌及浪潮信息的三位(wei)演(yan)講嘉賓,分別從邊緣故障(zhang)預測、數(shu)據中(zhong)心(xin)管理(li)、多層數(shu)據訪問(wen)優化(hua)的角度介(jie)紹了應對數(shu)據挑戰所(suo)采取的方案。
維也(ye)納理工大(da)學(xue)教授Ivona Brandic(IEEE 云(yun)(yun)計算雜志、IEEE TPDS 和 IEEE TCC 編委(wei)),在(zai)題(ti)為《面向可(ke)(ke)持續和容錯邊緣系(xi)統的(de)(de)數據科學(xue)驅動(dong)方法》演講中,揭示(shi)了邊緣系(xi)統與(yu)物聯(lian)網(wang)相(xiang)(xiang)結(jie)合(he)(he)的(de)(de)挑戰:由于時(shi)效(xiao)性、高(gao)度異構性和資源稀(xi)缺,云(yun)(yun)計算或(huo)通用分(fen)布式系(xi)統設(she)計的(de)(de)故障(zhang)恢復機制無法應用于邊緣系(xi)統。因此,Ivona Brandic和她的(de)(de)團隊設(she)計了一種基于機器學(xue)習(xi)的(de)(de)新機制,可(ke)(ke)以評估在(zai)邊緣基礎設(she)施上冗余部(bu)署(shu)的(de)(de)服務(wu)故障(zhang)恢復能力。該方法利用動(dong)態貝葉斯網(wang)絡(dbn)的(de)(de)概(gai)念,學(xue)習(xi)邊緣服務(wu)器故障(zhang)之間的(de)(de)時(shi)空(kong)相(xiang)(xiang)關性,并將其(qi)與(yu)拓撲信息(xi)相(xiang)(xiang)結(jie)合(he)(he),以合(he)(he)并鏈(lian)路故障(zhang)。最后,可(ke)(ke)推斷出(chu)在(zai)服務(wu)運行時(shi),某(mou)一組服務(wu)器發(fa)生故障(zhang)或(huo)并發(fa)斷開連接的(de)(de)概(gai)率。
SOSP、FAST、EuroSys和(he)HotCloud的(de)程序(xu)委(wei)員會主(zhu)席,John Wilkes,長期(qi)從事谷歌計算基礎設(she)施(shi)(shi)集群管理工作,發表(biao)主(zhu)題(ti)為《構建倉(cang)庫規模(mo)的(de)計算機》的(de)演講(jiang),他介紹谷歌內(nei)(nei)部(bu)面對幾個月內(nei)(nei)增加100000 個 CPU 內(nei)(nei)核(he) + RAM + 閃存 + 加速器 + 磁盤的(de)需(xu)(xu)求,可以(yi)(yi)動態地將資源分配給(gei)最(zui)迫(po)切需(xu)(xu)要它們(men)的(de)產(chan)品組,準確地反映(ying)所有機器和(he)基礎設(she)施(shi)(shi)的(de)成本(運(yun)營(ying)支出(chu)/資本支出(chu)),并監控(kong)、控(kong)制數據中心的(de)電源和(he)冷卻系(xi)統以(yi)(yi)實現最(zui)小的(de)開銷。
浪潮(chao)信(xin)息人工智能(neng)(neng)與高性(xing)能(neng)(neng)應用(yong)軟(ruan)件部(bu)高性(xing)能(neng)(neng)應用(yong)架構師,李(li)龍(long)翔博士發表(biao)主題為《多(duo)層(ceng)數(shu)(shu)(shu)據(ju)訪(fang)(fang)問(wen)(wen)優(you)化》的(de)演講。隨著近(jin)年CPU核心數(shu)(shu)(shu)增(zeng)加及性(xing)能(neng)(neng)的(de)不(bu)斷(duan)增(zeng)強,在(zai)(zai)超大(da)(da)(da)(da)規模(mo)系統并(bing)(bing)行(xing)計(ji)算時,越來越多(duo)的(de)應用(yong)運行(xing)性(xing)能(neng)(neng)主要受數(shu)(shu)(shu)據(ju)訪(fang)(fang)問(wen)(wen)速度限制。針對(dui)(dui)超大(da)(da)(da)(da)規模(mo)集群(qun)的(de)數(shu)(shu)(shu)據(ju)存(cun)儲(chu)特點(dian),他(ta)介紹了一種多(duo)層(ceng)數(shu)(shu)(shu)據(ju)訪(fang)(fang)問(wen)(wen) (Multi-Layered Data Access,MLDA) 優(you)化方(fang)法(fa),可以快速對(dui)(dui)超大(da)(da)(da)(da)規模(mo)并(bing)(bing)行(xing)計(ji)算性(xing)能(neng)(neng)瓶(ping)頸進行(xing)分(fen)析,通(tong)過對(dui)(dui)存(cun)儲(chu)、網絡、訪(fang)(fang)存(cun)、CPU等(deng)(deng)設(she)備數(shu)(shu)(shu)據(ju)訪(fang)(fang)問(wen)(wen)過程優(you)化,提升超大(da)(da)(da)(da)規模(mo)集群(qun)并(bing)(bing)行(xing)計(ji)算效率。這只(zhi)是(shi)浪潮(chao)信(xin)息解決(jue)超大(da)(da)(da)(da)規模(mo)系統挑戰(zhan)多(duo)種技術之一,在(zai)(zai)中(zhong)文(wen)巨量(liang)模(mo)型"源1.0"的(de)訓(xun)練過程中(zhong),浪潮(chao)信(xin)息采用(yong)了多(duo)種面向超大(da)(da)(da)(da)規模(mo)并(bing)(bing)行(xing)計(ji)算技術的(de)軟(ruan)硬件協同優(you)化手段(duan),通(tong)過流水線并(bing)(bing)行(xing)、張量(liang)并(bing)(bing)行(xing)等(deng)(deng)手段(duan)自動(dong)地將模(mo)型多(duo)層(ceng)數(shu)(shu)(shu)據(ju)切(qie)分(fen)到不(bu)同的(de)節點(dian)中(zhong)實現并(bing)(bing)行(xing)。"源1.0"模(mo)型包含的(de)參(can)數(shu)(shu)(shu)總(zong)量(liang)達 2457 億,是(shi) GPT-3 的(de) 1.404 倍。
除主題演講之外,分論壇內容同樣精彩
學(xue)(xue)術論(lun)文獲獎者,來(lai)(lai)自(zi)猶他大學(xue)(xue)的(de)(de)Richard Li表示,對(dui)于(yu)基于(yu)分(fen)(fen)布(bu)式微服務的(de)(de)應(ying)用程(cheng)序來(lai)(lai)說,性(xing)能(neng)(neng)(neng)故障排(pai)除是出(chu)了名(ming)的(de)(de)困難(nan)。分(fen)(fen)析人員對(dui)性(xing)能(neng)(neng)(neng)異(yi)常(chang)(chang)的(de)(de)典型根(gen)源診斷首(shou)先是縮小(xiao)慢速(su)服務的(de)(de)范圍(wei),調(diao)查慢速(su)組件中的(de)(de)高(gao)級性(xing)能(neng)(neng)(neng)指標或(huo)可用日志,最后深入到實際原因。由于(yu)缺乏領域知識和實際操作經驗,這個過程(cheng)可能(neng)(neng)(neng)會(hui)很長、很乏味,有時還(huan)會(hui)漫無目的(de)(de)。在本次大會(hui)中,他介紹了一(yi)種新的(de)(de)由機(ji)器學(xue)(xue)習(xi)驅動的(de)(de)性(xing)能(neng)(neng)(neng)分(fen)(fen)析系(xi)統,該系(xi)統可自(zi)動化與延遲相關的(de)(de)性(xing)能(neng)(neng)(neng)異(yi)常(chang)(chang)的(de)(de)故障排(pai)除過程(cheng),以方便診斷和解(jie)釋根(gen)本原因。
來自(zi)于IBM的(de)Lixiang Luo為本次大會的(de)產業論文獲獎者,他提出的(de)三種NVMe存儲(chu)(chu)虛擬化方法(PCI設(she)備直(zhi)通法、虛擬塊設(she)備法和SPDK虛擬主(zhu)機(ji)目標(biao)法)通過虛擬機(ji)提供NVMe存儲(chu)(chu),同(tong)一(yi)主(zhu)機(ji)上的(de)多個虛擬機(ji)可以共用一(yi)個物理NVMe設(she)備,以滿足現代工作負載不斷增(zeng)長的(de)I/O吞吐量和延(yan)遲需(xu)求。