北京2023年6月9日 /美通社/ -- 武藝精絕者,能聽音辨位,醫術高明者,可聞聲辨癥,這都是匠人技藝高超的體現。而現在,關于“聽”這項技能,AI又會帶來什么驚喜? 僅需10秒聽音,就能精(jing)準判斷服(fu)務器風扇(shan)故障,這(zhe)是(shi)浪潮(chao)信(xin)息工程師們秉持匠心(xin),通過AI技術“聞風聽診”,精(jing)益求(qiu)精(jing)所(suo)帶(dai)來的前(qian)沿(yan)創新:
浪潮信息最新發布的智能聽音診斷技術,可以讓服務器風扇的故障預警準確率達到95%,致力于將這一會引(yin)發服務器故障和數據中心事(shi)故的安全隱患降到最(zui)低。
風扇之殤牽引服務器之痛
眾(zhong)所(suo)周知,“發燒”是服務器的致命傷。在服務器系統中(zhong),良好的散(san)熱是保障系統以(yi)高性能(neng)穩(wen)定可靠(kao)運行的基礎,風扇在其(qi)中(zhong)所(suo)起的作用不言而喻。
然而(er),風(feng)扇雖是服務器降溫的(de)(de)法寶,其本身卻并非“百毒(du)不侵”。風(feng)扇的(de)(de)故(gu)障,可能(neng)來自于軸(zhou)承變形(xing),部(bu)件老化、電(dian)路板短(duan)路故(gu)障,灰塵與污垢的(de)(de)積壓,潤滑油的(de)(de)不足,嚴重時甚至會(hui)引起數據中心(xin)的(de)(de)火災。
散熱(re)風扇(shan)雖然僅有1%的可(ke)能(neng)發(fa)(fa)生故(gu)障(zhang),但(dan)其一旦(dan)發(fa)(fa)生故(gu)障(zhang),將影(ying)響(xiang)系統性(xing)能(neng)和(he)可(ke)靠性(xing),且風扇(shan)故(gu)障(zhang)的維(wei)修時間(jian)長,對數據中(zhong)心業務運行影(ying)響(xiang)很大。
有什么辦(ban)法(fa),可以提前預測風扇的“亞健康”問題,方便為服務(wu)器“治未病”?浪潮信(xin)息的工(gong)程(cheng)師們為自己立下(xia)了研(yan)發的目標,并(bing)且開始反向求索去解決需求痛點(dian)。
聽音預警為服務器“治未病”
地震(zhen)在發生前會產生1-10Hz的次聲(sheng)波,能(neng)(neng)輔助人們提前預測(ce)災(zai)害(hai)的發生,可(ke)見聲(sheng)音傳遞的信(xin)息(xi)如果(guo)能(neng)(neng)被正(zheng)確解讀,能(neng)(neng)夠給人類帶來巨大(da)的價值。而(er)浪潮信(xin)息(xi)研發工程師發現,服務(wu)器(qi)風(feng)扇(shan)作為(wei)一種旋轉機械,一方面要抑制(zhi)其(qi)產生的氣動噪聲(sheng)對性能(neng)(neng)、可(ke)靠性的影響,另一方面,也可(ke)以利用其(qi)中(zhong)所攜帶的風(feng)扇(shan)性能(neng)(neng)狀(zhuang)態(tai)的信(xin)息(xi),剖析風(feng)扇(shan)健康狀(zhuang)態(tai)。
浪潮信息工程師采用中科院聲(sheng)學所(suo)(suo)語音與(yu)智能信息處理實驗室(shi)的(de)智能聲(sheng)學故障檢測技(ji)術,利用機箱內噪聲(sheng)的(de)特(te)征信息,建(jian)立(li)了業界首個(ge)基于聲(sheng)紋(wen)特(te)征的(de)服務(wu)器(qi)風扇故障智能預(yu)警系(xi)統。該系(xi)統可以實時(shi)分辨(bian)幾乎所(suo)(suo)有的(de)服務(wu)器(qi)風扇故障噪聲(sheng),實現“聽音診斷”。
將風(feng)扇(shan)故障(zhang)智能(neng)(neng)診斷模型部署在服務器BMC芯片中(zhong),進(jin)一步擴展了服務器的(de)(de)智能(neng)(neng)運(yun)維(wei)能(neng)(neng)力。BMC通過內部的(de)(de)麥克風(feng)陣列、音頻處理(li)芯片,采集(ji)系統的(de)(de)多維(wei)噪音,并進(jin)行聲(sheng)學信號處理(li)、分析、診斷,僅(jin)需10秒鐘“聽音”,就可準確預警故障(zhang)狀態,精準度達95%,提前從根源上(shang)徹底解(jie)決服務器風(feng)險問題,保證數據中(zhong)心(xin)運(yun)行安全(quan)。
“知音”難覓AI助力開先河
基于聲學探測的(de)服務器風扇智(zhi)能聽(ting)音(yin)診(zhen)斷(duan)系統(tong)聽(ting)起來(lai)(lai)很簡單,但從(cong)無到(dao)有(you)(you),從(cong)有(you)(you)到(dao)精(jing),對于聽(ting)音(yin)診(zhen)斷(duan)的(de)AI學習(xi)來(lai)(lai)說,遠不止“讀書百遍,其義自見(jian)”這么容(rong)易。
工程師(shi)們首(shou)先(xian)在服務器主(zhu)板上(shang)集(ji)成麥克(ke)風(feng)陣列采(cai)集(ji)風(feng)扇(shan)的(de)噪音,完成采(cai)集(ji)到(dao)的(de)音頻信(xin)號(hao)的(de)降噪、同步、處(chu)理(li),然后將(jiang)數(shu)據傳(chuan)輸至(zhi)部署了(le)智能(neng)診斷模型的(de)BMC中,在BMC中實(shi)現風(feng)扇(shan)故(gu)(gu)(gu)(gu)障的(de)在線(xian)診斷功(gong)能(neng),包括對風(feng)扇(shan)故(gu)(gu)(gu)(gu)障音的(de)特征匹配與分析,精準(zhun)識別潛在的(de)風(feng)扇(shan)故(gu)(gu)(gu)(gu)障音、定位(wei)風(feng)扇(shan)故(gu)(gu)(gu)(gu)障位(wei)置、發出警(jing)報(bao),并記(ji)入(ru)風(feng)扇(shan)故(gu)(gu)(gu)(gu)障日志(zhi)等(deng),實(shi)現對葉(xie)片(pian)偏心、軸承磨(mo)損、繞組性能(neng)退化(hua)、潤滑油(you)不足或(huo)耗干、IC元件電(dian)阻變化(hua)等(deng)等(deng)故(gu)(gu)(gu)(gu)障原(yuan)因(yin)進(jin)行精準(zhun)定位(wei)。
從零起步(bu)的難(nan)點在于,此前業(ye)界沒有任何參考,信號特(te)征提取又特(te)別(bie)復雜。數據(ju)中心有上萬臺的風扇,分別(bie)分布在不同(tong)機柜中。傳統的聲音分析方法中,背景噪音嘈雜,聲紋特(te)征很容易被混淆,難(nan)以精準識別(bie)。
為了得到識別精度高、泛化能力強的診斷模型,浪潮信息(xi)工程(cheng)師們構建了(le)業(ye)界(jie)首個針(zhen)對服務器風扇故(gu)障音的(de)人工智能訓練數據集,時長足足達200小時,涵蓋(gai)了(le)幾乎所有的(de)風扇故(gu)障類型,并對聲(sheng)紋信息抽取(qu)40維MFCC特征(zheng),建立(li)了(le)多(duo)級深度學習(xi)神(shen)經網絡。
經(jing)過訓練的(de)風扇故(gu)障音診斷(duan)模(mo)型(xing)能夠區分特征相似的(de)聲紋數(shu)據,并(bing)緩解了正負樣本(ben)分布不(bu)均衡的(de)問(wen)題(ti),對各種(zhong)類型(xing)、不(bu)同位置的(de)故(gu)障風扇洞察(cha)秋(qiu)毫,有見微(wei)知著的(de)效果(guo)。
目前,這套AI預(yu)測模型已(yi)經部(bu)署在(zai)浪潮信息服務器中,由BMC統籌管理風扇、麥克風陣(zhen)列、DSP、指示燈等(deng)組成的(de)聽音診斷系統只需十秒聽音,葉片(pian)偏心(xin)或破(po)損(sun)、軸承磨損(sun)、潤滑油不足、積(ji)灰(hui)等(deng)種種故障均可精準定(ding)位預(yu)警,預(yu)警精準度達95%,徹底解決(jue)服務器的(de)運行風險。
結語:
若能澄心凈耳聽,萬籟俱寂亦是韻。風過留痕,雁過留聲,從聲音的碎片中去捕捉風扇的暗傷,從偶爾的音變中去發現必然的質變,知音莫過于此。智能只是手段,工程師們的如磐匠心才是創新的根基,精益求精,千錘百煉,只為一臺好的服務器。