北京2021年(nian)(nian)11月24日(ri) /美通社(she)/ -- 十四(si)五規劃中(zhong)指出(chu)要“加快數(shu)(shu)(shu)字化發(fa)展,建設數(shu)(shu)(shu)字中(zhong)國”。IDC預測,到(dao)2022年(nian)(nian),全球65%的GDP將由(you)數(shu)(shu)(shu)字化推動。近(jin)幾年(nian)(nian)新基建、數(shu)(shu)(shu)字經(jing)濟(ji)和平臺(tai)經(jing)濟(ji)發(fa)展迅猛(meng),給數(shu)(shu)(shu)據中(zhong)心提出(chu)了新的挑(tiao)戰(zhan)。全閃存(cun)數(shu)(shu)(shu)據中(zhong)心具有速度(du)快、綠色節能等優(you)勢,將會是未來數(shu)(shu)(shu)據中(zhong)心的發(fa)展趨勢,SSD(固態硬盤(pan))也將會得(de)到(dao)更加廣泛的應(ying)用。
為什么關注SSD壽命預測?
企業關注SSD壽命預測技術,一是因為SSD的應用前景非常廣闊,市場上使用率將越來越高。二是SSD損壞導致數據丟失帶來的損失是巨大的。三是因為閃存具有擦寫次數限制的特點。
與(yu)傳(chuan)統(tong)機械硬盤(pan)相比,SSD的優勢非常明顯,如(ru)SSD速度更(geng)快(kuai),數(shu)(shu)據訪問比機械硬盤(pan)快(kuai)100倍,吞吐量大100倍,單盤(pan)IOPS大1000倍以上(shang),并且技術(shu)在快(kuai)速發展,如(ru)NVMe、 PCIe將(jiang)進(jin)一步釋(shi)放(fang)SSD的性能(neng)(neng)(neng);在可(ke)靠性表現(xian)(xian)(xian)上(shang),SSD因質量輕、體(ti)積小(xiao)、防(fang)震抗(kang)摔性更(geng)好,更(geng)加可(ke)靠。再如(ru)SSD更(geng)節能(neng)(neng)(neng),與(yu)機械硬盤(pan)相比,能(neng)(neng)(neng)耗降(jiang)低70%。今年(nian)(nian)的政府工(gong)作報(bao)告中(zhong)提出要在2030年(nian)(nian)之前實現(xian)(xian)(xian)“碳(tan)(tan)達峰”,在2060年(nian)(nian)之前實現(xian)(xian)(xian)“碳(tan)(tan)中(zhong)和(he)”,使用SSD能(neng)(neng)(neng)夠大幅降(jiang)低數(shu)(shu)據中(zhong)心的能(neng)(neng)(neng)耗。過去(qu)SSD使用率(lv)不高(gao)的原因主(zhu)要是其價(jia)格昂貴(gui),現(xian)(xian)(xian)在據IDC統(tong)計:2015年(nian)(nian)到2020年(nian)(nian),SSD平均每年(nian)(nian)的價(jia)格降(jiang)幅達到25%,未來(lai)5年(nian)(nian)也將(jiang)保持這一趨(qu)勢;2020年(nian)(nian),全球范圍內企業(ye)級(ji)SSD上(shang)的支(zhi)出已經超(chao)過傳(chuan)統(tong)硬盤(pan)。
全球企業級(ji)機械(xie)硬盤(pan)和SSD盤(pan)支出對比(單位:百萬美元),2005-2020
正是由于SSD速度快但價格相(xiang)對較高(gao),SSD通常(chang)用(yong)來(lai)存放(fang)元(yuan)數(shu)(shu)據或核心數(shu)(shu)據,這部分(fen)數(shu)(shu)據丟(diu)失將會給(gei)用(yong)戶帶來(lai)的損失更(geng)加(jia)嚴重。并且,SSD閃存介質(zhi)具有擦寫次數(shu)(shu)限制,因此SSD使用(yong)壽命(ming)更(geng)值(zhi)得(de)被關(guan)注和重視(shi)。
SSD壽命預測 如何實現
SSD,是(shi)由控制(zhi)芯(xin)片(pian)和存(cun)(cun)(cun)儲(chu)(chu)芯(xin)片(pian)組成的(de)(de)。控制(zhi)芯(xin)片(pian)是(shi)SSD的(de)(de)大腦,用(yong)于調配數(shu)據(ju)、數(shu)據(ju)中(zhong)轉(zhuan)等,存(cun)(cun)(cun)儲(chu)(chu)芯(xin)片(pian)用(yong)于存(cun)(cun)(cun)儲(chu)(chu)數(shu)據(ju)。當前主流(liu)的(de)(de)存(cun)(cun)(cun)儲(chu)(chu)芯(xin)片(pian)為NAND Flash閃(shan)(shan)存(cun)(cun)(cun)芯(xin)片(pian),NAND采用(yong)浮柵(zha)晶體管存(cun)(cun)(cun)儲(chu)(chu)數(shu)據(ju),寫入(ru)數(shu)據(ju)時需要先擦(ca)(ca)除再寫入(ru),寫操(cao)(cao)作(zuo)(zuo)本質是(shi)向(xiang)浮柵(zha)注(zhu)入(ru)電(dian)荷,擦(ca)(ca)除操(cao)(cao)作(zuo)(zuo)是(shi)從浮柵(zha)挪走電(dian)荷,充放(fang)電(dian)的(de)(de)過程會損耗(hao)二(er)氧(yang)化硅(gui)絕(jue)(jue)緣層的(de)(de)絕(jue)(jue)緣能力,最終無法保(bao)證浮柵(zha)中(zhong)存(cun)(cun)(cun)有足夠多的(de)(de)電(dian)荷。因此(ci)NAND的(de)(de)擦(ca)(ca)寫次數(shu)是(shi)有限的(de)(de),閃(shan)(shan)存(cun)(cun)(cun)完全擦(ca)(ca)寫一次叫做1次P/E,閃(shan)(shan)存(cun)(cun)(cun)的(de)(de)壽(shou)命就以P/E作(zuo)(zuo)單位,例如(ru)常用(yong)的(de)(de)MLC-SSD擦(ca)(ca)寫次數(shu)為10000次。SSD壽(shou)命預(yu)測(ce)(ce),本質上就是(shi)預(yu)測(ce)(ce)NAND芯(xin)片(pian)P/E次數(shu)還可用(yong)多長時間。
SSD結構
硬盤廠商一般都遵循S.M.A.R.T. 標(biao)(biao)準(zhun)進(jin)行數據保護,S.M.A.R.T. 標(biao)(biao)準(zhun)是一種(zhong)自動(dong)的(de)硬盤狀態(tai)檢測與預警系統和規范。SSD S.M.A.R.T.中包含了一些(xie)與壽命相關的(de)指(zhi)標(biao)(biao),不(bu)(bu)同(tong)接(jie)口(kou)、不(bu)(bu)同(tong)廠商的(de)指(zhi)標(biao)(biao)略有(you)不(bu)(bu)同(tong)。浪(lang)潮自研NVMe SSD遵循NVMe 1.3標(biao)(biao)準(zhun),提供標(biao)(biao)準(zhun)的(de)S.M.A.R.T.輸出(chu)。部(bu)分廠商SATA接(jie)口(kou)和PCIe接(jie)口(kou)壽命相關指(zhi)標(biao)(biao)如下表(biao)所示:
硬盤(pan)接口 |
硬(ying)盤廠(chang)商 |
指標名稱 |
指標含義(yi) |
SATA |
Intel |
Smart_233 Media Wearout Indicator |
介質磨(mo)損(sun)指示(shi) |
Micron |
Smart_202 Percent lifetime remaining |
剩(sheng)余壽命百分(fen)比 |
|
Samsung |
Smart_177 Wear Leveling Count |
擦寫次數計數 |
|
Seagate |
Smart_231 SSD Life Left |
SSD剩余壽命 |
|
PCIe |
Inspur等 |
percentage_used |
已使(shi)用百分比 |
各個廠商(shang)通用的(de)指標為百分比表(biao)示的(de)閃存磨損(sun)度,SSD壽(shou)命(ming)預測基于(yu)閃存磨損(sun)度,預測SSD未來可使用的(de)天數。同時,該壽(shou)命(ming)預測模(mo)型能友好的(de)支持(chi)浪潮自(zi)研PCIe接口SSD。
SSD壽(shou)命(ming)預(yu)測使用時間(jian)序列預(yu)測技術(shu),基于硬盤S.M.A.R.T.標(biao)準采集(ji)預(yu)測所需的歷史時間(jian)序列數據集(ji),再使用浪潮自研的AI預(yu)測算法(fa),預(yu)測S.M.A.R.T.指標(biao)未來變化,得到(dao)SSD剩余壽(shou)命(ming)天數。
SSD壽(shou)命預(yu)測流程
SSD壽命預(yu)測流(liu)(liu)程(cheng)如(ru)上圖所示(shi)。整體的預(yu)測流(liu)(liu)程(cheng)分為(wei)兩個階段(duan),綠色為(wei)離線(xian)(xian)訓練階段(duan),目的是為(wei)了(le)確定模型選取規則(ze);藍(lan)色為(wei)在線(xian)(xian)預(yu)測階段(duan),用(yong)(yong)于在用(yong)(yong)戶(hu)環境(jing)中預(yu)測SSD壽命。
離線(xian)訓(xun)練階段(duan)使用大量的(de)SSD全(quan)生命周期的(de)S.M.A.R.T.數(shu)據(ju),人工將磨損度變化(hua)曲線(xian)形態(tai)標記為3類(lei):平(ping)(ping)穩變化(hua)、減速變化(hua)和加速變化(hua),再對三種(zhong)類(lei)型(xing)(xing)的(de)SSD數(shu)據(ju)分別進行測(ce)試。測(ce)試過程中實驗了多種(zhong)數(shu)據(ju)預處(chu)理(li)方(fang)式和預測(ce)模型(xing)(xing),比(bi)如Prophet、 ARIMA、 移(yi)動平(ping)(ping)均法(Moving Average, MA)、指數(shu)平(ping)(ping)滑法(Exponential Smoothing,ES)、神經網(wang)絡等。最(zui)終確定模型(xing)(xing)選(xuan)取規則,實現全(quan)生命周期預測(ce)準確率(lv)達到75%的(de)國際領先水平(ping)(ping)。
模型(xing)選取規則
在線預(yu)(yu)測階段,定時采集硬盤磨(mo)損度指標,使用提前定義好(hao)的模(mo)型選取規則,根據磨(mo)損變(bian)化數(shu)據量(liang)的大小和變(bian)化趨勢,選擇最合(he)適的時序預(yu)(yu)測模(mo)型,預(yu)(yu)測SSD壽命。
六重保護業務永遠在線,可靠!
在管(guan)理軟(ruan)件層面上,InView平(ping)臺(tai)每(mei)天定時采集數(shu)據、預測(ce),通過浪(lang)潮自(zi)研SSD產品S.M.A.R.T.功能(neng),可以(yi)客觀呈(cheng)現(xian)產品的Percentage used和(he)Available spare信息(xi),并(bing)展示(shi)所管(guan)理的SSD是使用(yong)壽命(ming)。當預測(ce)結果不足2周時,發(fa)出(chu)告警提(ti)示(shi)用(yong)戶,制定備份數(shu)據和(he)換(huan)盤計劃,避免(mian)因突(tu)發(fa)換(huan)盤導(dao)致(zhi)業務降級(ji),甚至停機維護。
智能管理(li)軟件InView界面中對SSD壽(shou)命預(yu)測
除了管理軟件,浪潮存儲還通過核心軟件、器件、部件、系統、解決方案層面等,對業務進行端到端的整合,致力于為客戶提供一體化的方案服務,做到故障早知道、故障無影響、長期無故障。
未(wei)來(lai)隨著數(shu)(shu)字(zi)經濟發展,數(shu)(shu)據(ju)要(yao)素將(jiang)在企(qi)業(ye)(ye)數(shu)(shu)字(zi)化轉型(xing)(xing)中(zhong)扮演越(yue)來(lai)越(yue)重(zhong)要(yao)的(de)角色。浪(lang)潮存儲將(jiang)持續加大企(qi)業(ye)(ye)級SSD研發投入,推動(dong)集中(zhong)式(shi)全(quan)閃、分(fen)布式(shi)全(quan)閃持續技術創(chuang)新(xin),聯合產學(xue)研用等生(sheng)態伙伴,合力(li)提供數(shu)(shu)據(ju)生(sheng)命(ming)周期(qi)解決方案(an),助陣企(qi)業(ye)(ye)提速數(shu)(shu)字(zi)化轉型(xing)(xing),釋(shi)放數(shu)(shu)據(ju)價(jia)值(zhi)。