北京(jing)2022年5月10日 /美(mei)通社/ -- "亞(ya)(ya)健康"這個詞不僅在生活中(zhong)(zhong)被熟知,而(er)且(qie)大家(jia)經(jing)常使(shi)用的信息系統中(zhong)(zhong)也(ye)會(hui)經(jing)常遇到;亞(ya)(ya)健康狀(zhuang)態(tai)(tai),顧名思義,是存儲(chu)系統介(jie)于(yu)(yu)(yu)(yu)健康狀(zhuang)態(tai)(tai)和故(gu)障(zhang)狀(zhuang)態(tai)(tai)之間的一種狀(zhuang)態(tai)(tai),系統仍在運行(xing)且(qie)功能正常但處于(yu)(yu)(yu)(yu)降級模式(shi)的一種情況(kuang),它的存在會(hui)造成(cheng)系統性能嚴重低(di)于(yu)(yu)(yu)(yu)預期。浪潮(chao)存儲(chu)基于(yu)(yu)(yu)(yu)對(dui)亞(ya)(ya)健康狀(zhuang)態(tai)(tai)的研究,在分布(bu)式(shi)存儲(chu)平臺進(jin)行(xing)技術創新,研發了亞(ya)(ya)健康狀(zhuang)態(tai)(tai)監控功能,對(dui)硬(ying)件(jian)、系統、網絡等(deng)進(jin)行(xing)實(shi)時監測,當(dang)系統發現運行(xing)過程(cheng)中(zhong)(zhong)存在亞(ya)(ya)健康狀(zhuang)態(tai)(tai)時,可快速定位原因、上報、并對(dui)處于(yu)(yu)(yu)(yu)亞(ya)(ya)健康的部件(jian)進(jin)行(xing)必要的處理,降低(di)亞(ya)(ya)健康狀(zhuang)態(tai)(tai)對(dui)存儲(chu)系統的影響,保障(zhang)用戶數(shu)據服務(wu)的可靠、高效。
過去(qu)因大部(bu)分(fen)應用系(xi)(xi)(xi)統(tong)(tong)規(gui)模較小,一(yi)般會(hui)(hui)將亞健(jian)康(kang)(kang)(kang)(kang)狀態(tai)劃歸到故障(zhang)進行處理(li),系(xi)(xi)(xi)統(tong)(tong)在這種情(qing)況下雖處于(yu)亞健(jian)康(kang)(kang)(kang)(kang)狀態(tai),但仍可以對(dui)外提供服務,處于(yu)亞健(jian)康(kang)(kang)(kang)(kang)的(de)部(bu)件卻被當成故障(zhang)處理(li)擴大了(le)(le)亞健(jian)康(kang)(kang)(kang)(kang)狀態(tai)的(de)影響范圍,有(you)時甚至(zhi)會(hui)(hui)導致(zhi)系(xi)(xi)(xi)統(tong)(tong)不(bu)可提供服務,也造成了(le)(le)資源浪費。近年來,隨著新技(ji)術的(de)快速發展,以及分(fen)布式(shi)系(xi)(xi)(xi)統(tong)(tong)部(bu)署(shu)規(gui)模的(de)增加(jia),亞健(jian)康(kang)(kang)(kang)(kang)狀態(tai)對(dui)于(yu)存儲系(xi)(xi)(xi)統(tong)(tong)的(de)影響已(yi)經越來越顯著,之(zhi)前亞健(jian)康(kang)(kang)(kang)(kang)狀態(tai)處理(li)方式(shi)已(yi)經不(bu)適合現在的(de)大規(gui)模系(xi)(xi)(xi)統(tong)(tong),亟(ji)待更加(jia)智能、高(gao)效的(de)機制來保障(zhang)存儲系(xi)(xi)(xi)統(tong)(tong)健(jian)康(kang)(kang)(kang)(kang)運行。
亞健康狀態是隱形的系統殺手
以網(wang)(wang)絡(luo)(luo)(luo)亞(ya)健康為例,網(wang)(wang)卡(ka)故障、驅動程序故障、設備(bei)故障、接(jie)線松動、溫度過(guo)高過(guo)低等(deng)都可能(neng)引起(qi)網(wang)(wang)絡(luo)(luo)(luo)亞(ya)健康狀態(tai),盡管產生網(wang)(wang)絡(luo)(luo)(luo)亞(ya)健康狀態(tai)的(de)原因眾多,但其對(dui)外(wai)表現(xian)的(de)現(xian)象相(xiang)對(dui)簡(jian)單,主(zhu)要是(shi)網(wang)(wang)絡(luo)(luo)(luo)時延的(de)增加和網(wang)(wang)絡(luo)(luo)(luo)丟(diu)包(bao)率的(de)增加。如(ru)下為網(wang)(wang)絡(luo)(luo)(luo)丟(diu)包(bao)率和時延對(dui)分布式存(cun)儲系(xi)統(tong)性能(neng)的(de)影(ying)響。
在(zai)一個分(fen)布(bu)式存儲系統(tong)(tong)中,單個節點網絡(luo)丟包率或網絡(luo)時(shi)(shi)延(yan)增加時(shi)(shi),存儲系統(tong)(tong)的性能會極快速的下降,5%的丟包率或50ms時(shi)(shi)延(yan),就足以使存儲系統(tong)(tong)性能下降一半左右。
從網絡亞(ya)健(jian)康實(shi)例中可(ke)以(yi)看出,亞(ya)健(jian)康狀態對(dui)系(xi)統的(de)(de)危害,即使一個微小的(de)(de)亞(ya)健(jian)康狀態,對(dui)系(xi)統性能(neng)的(de)(de)影響都是巨大的(de)(de)。此外CPU、內存、硬盤模塊、網卡等硬件部件、操作系(xi)統以(yi)及軟(ruan)件運行均有可(ke)能(neng)進入亞(ya)健(jian)康狀態,
浪潮存儲(chu)基于(yu)大(da)量來(lai)自企業、大(da)學、實驗(yan)室等案(an)例的(de)(de)亞(ya)(ya)(ya)健康(kang)狀態的(de)(de)研究,進行了故障(zhang)(zhang)分類和根因(yin)分析,可(ke)以看(kan)出,硬(ying)件亞(ya)(ya)(ya)健康(kang)故障(zhang)(zhang)占比33%,網絡亞(ya)(ya)(ya)健康(kang)故障(zhang)(zhang)占比38%,這(zhe)兩類故障(zhang)(zhang)占比超(chao)過整(zheng)體的(de)(de)70%。
亞健康(kang)狀態(tai)案例(li)比例(li)
亞健康狀態監控讓分布式存儲運行更穩定
基于(yu)對(dui)亞(ya)(ya)(ya)健(jian)康(kang)狀(zhuang)(zhuang)(zhuang)(zhuang)態的(de)(de)表(biao)象根因等分(fen)析與研究,浪潮在分(fen)布式存(cun)(cun)儲上(shang)實(shi)現了(le)亞(ya)(ya)(ya)健(jian)康(kang)狀(zhuang)(zhuang)(zhuang)(zhuang)態監控(kong)功能,對(dui)硬件亞(ya)(ya)(ya)健(jian)康(kang)狀(zhuang)(zhuang)(zhuang)(zhuang)態、系統亞(ya)(ya)(ya)健(jian)康(kang)狀(zhuang)(zhuang)(zhuang)(zhuang)態以及網絡(luo)亞(ya)(ya)(ya)健(jian)康(kang)狀(zhuang)(zhuang)(zhuang)(zhuang)態的(de)(de)實(shi)時監控(kong),當系統發現運行過程中存(cun)(cun)在亞(ya)(ya)(ya)健(jian)康(kang)狀(zhuang)(zhuang)(zhuang)(zhuang)態時,可快(kuai)速定位亞(ya)(ya)(ya)健(jian)康(kang)狀(zhuang)(zhuang)(zhuang)(zhuang)態的(de)(de)原因、上(shang)報故障、并對(dui)亞(ya)(ya)(ya)健(jian)康(kang)的(de)(de)部件進行必要的(de)(de)處理(如嘗試恢復、隔離部件等),最大(da)限度的(de)(de)降低亞(ya)(ya)(ya)健(jian)康(kang)狀(zhuang)(zhuang)(zhuang)(zhuang)態對(dui)存(cun)(cun)儲系統的(de)(de)影(ying)響。
浪潮分布(bu)式(shi)存儲(chu)AS13000配(pei)置(zhi)了(le)亞健康狀態監控之(zhi)后可以進行亞健康狀態監控告警(jing)服務的同時還具有諸(zhu)多優(you)勢。
首先,精(jing)準(zhun)定(ding)位。亞(ya)健(jian)康(kang)狀(zhuang)態(tai)(tai)(tai)的場景(jing)復雜,癥(zheng)狀(zhuang)、根因(yin)眾多,檢(jian)(jian)(jian)(jian)測(ce)(ce)難度(du)大。亞(ya)健(jian)康(kang)狀(zhuang)態(tai)(tai)(tai)監控系統通(tong)過建立硬件亞(ya)健(jian)康(kang)檢(jian)(jian)(jian)(jian)測(ce)(ce)、網絡亞(ya)健(jian)康(kang)檢(jian)(jian)(jian)(jian)測(ce)(ce)以及(ji)系統亞(ya)健(jian)康(kang)檢(jian)(jian)(jian)(jian)測(ce)(ce)的機(ji)制,有效的覆蓋了亞(ya)健(jian)康(kang)狀(zhuang)態(tai)(tai)(tai)的各種檢(jian)(jian)(jian)(jian)測(ce)(ce)場景(jing),再(zai)加上(shang)檢(jian)(jian)(jian)(jian)測(ce)(ce)信息(xi)的精(jing)準(zhun)分(fen)析(xi),能更精(jing)準(zhun)的定(ding)位亞(ya)健(jian)康(kang)狀(zhuang)態(tai)(tai)(tai)。
其(qi)次,快速(su)處(chu)理。存(cun)儲系統長(chang)期以(yi)亞(ya)(ya)健康狀(zhuang)(zhuang)態(tai)(tai)的(de)(de)狀(zhuang)(zhuang)態(tai)(tai)運(yun)行,會影響整體性(xing)(xing)(xing)能(neng),監控(kong)功能(neng)可(ke)以(yi)在短期內(nei)發(fa)(fa)現(xian)(xian)亞(ya)(ya)健康狀(zhuang)(zhuang)態(tai)(tai),并(bing)(bing)(bing)(bing)及時做出必要的(de)(de)處(chu)理。以(yi)往為(wei)了確保系統運(yun)行的(de)(de)穩定性(xing)(xing)(xing),運(yun)維(wei)人員(yuan)預計需要每周執行一(yi)(yi)(yi)次巡(xun)檢(jian)(jian)(jian)(jian)腳本,對整個集群(qun)進(jin)行健康巡(xun)檢(jian)(jian)(jian)(jian)。這種(zhong)方(fang)式一(yi)(yi)(yi)方(fang)面時效性(xing)(xing)(xing)差(cha),平均3-4天才(cai)可(ke)以(yi)發(fa)(fa)現(xian)(xian)問題;另一(yi)(yi)(yi)方(fang)面是巡(xun)檢(jian)(jian)(jian)(jian)腳本檢(jian)(jian)(jian)(jian)測并(bing)(bing)(bing)(bing)不全(quan)面。亞(ya)(ya)健康監控(kong)可(ke)以(yi)150秒內(nei)發(fa)(fa)現(xian)(xian)網絡(luo)亞(ya)(ya)健康狀(zhuang)(zhuang)態(tai)(tai)并(bing)(bing)(bing)(bing)進(jin)行網口隔離(li)處(chu)理、30分(fen)鐘內(nei)發(fa)(fa)現(xian)(xian)系統亞(ya)(ya)健康狀(zhuang)(zhuang)態(tai)(tai)并(bing)(bing)(bing)(bing)告(gao)警、60分(fen)鐘內(nei)發(fa)(fa)現(xian)(xian)磁盤溫度異常(chang)并(bing)(bing)(bing)(bing)告(gao)警等(deng);平均發(fa)(fa)現(xian)(xian)系統亞(ya)(ya)健康狀(zhuang)(zhuang)態(tai)(tai)并(bing)(bing)(bing)(bing)處(chu)理的(de)(de)時間縮短了四分(fen)之三,并(bing)(bing)(bing)(bing)且檢(jian)(jian)(jian)(jian)測的(de)(de)項目更(geng)全(quan)面、結(jie)果更(geng)準確。
具備亞健康狀態(tai)監控功能的(de)分布式存(cun)儲AS13000,已(yi)經在金融(rong)、通信、教(jiao)科研、醫療等行業規模部署,在運(yun)行過程中亞健康狀態(tai)監控功能快(kuai)速響(xiang)應機制,降低了亞健康狀態(tai)對存(cun)儲系統的(de)影(ying)響(xiang)與運(yun)維成本(ben),保障了企(qi)業業務穩健運(yun)行,讓企(qi)業輕松應對數(shu)字經濟時代的(de)海(hai)量數(shu)據挑戰(zhan)。