北京2022年4月7日 /美通社(she)/ -- 隨著新(xin)技(ji)術(shu)、新(xin)應(ying)(ying)用不(bu)斷(duan)出現(xian),數(shu)字化轉型也在不(bu)斷(duan)加(jia)速,行業智(zhi)慧(hui)應(ying)(ying)用爆發式(shi)增(zeng)(zeng)長,改變(bian)了(le)人(ren)們的(de)工作(zuo)、生(sheng)活、學習方式(shi),使得社(she)會(hui)進(jin)入了(le)數(shu)字經濟時(shi)代。據(ju)IDC預測,到2025 年(nian),每(mei)天有(you)超(chao)過 60 億人(ren)與數(shu)據(ju)發生(sheng)互動(dong),相當于全球人(ren)口的(de) 75%;每(mei)個聯網的(de)人(ren)每(mei)隔18 秒就會(hui)有(you)至(zhi)少 1 次(ci)數(shu)據(ju)交互,全球數(shu)據(ju)也將增(zeng)(zeng)至(zhi) 175ZB。而這些數(shu)據(ju)被(bei)記錄在不(bu)同存(cun)(cun)儲(chu)(chu)系(xi)統(tong)與介質中,企業不(bu)斷(duan)購置大量的(de)存(cun)(cun)儲(chu)(chu)設(she)備來應(ying)(ying)對快速增(zeng)(zeng)長的(de)數(shu)據(ju)存(cun)(cun)儲(chu)(chu)需求,這也增(zeng)(zeng)加(jia)了(le)系(xi)統(tong)支(zhi)出和資源(yuan)能耗。浪潮存(cun)(cun)儲(chu)(chu)基于技(ji)術(shu)創(chuang)新(xin)提出了(le)智(zhi)能在線壓縮(suo)技(ji)術(shu)(InCompression),通過結(jie)合(he)硬(ying)件及算(suan)法(fa)進(jin)行數(shu)據(ju)量縮(suo)減,以提升存(cun)(cun)儲(chu)(chu)空間利用率,達到降本增(zeng)(zeng)效的(de)目的(de)。
浪潮存儲
在數(shu)據管理的(de)過(guo)程中(zhong),最終都需要將數(shu)據存(cun)(cun)(cun)(cun)放到(dao)某一(yi)(yi)類最底層(ceng)物理存(cun)(cun)(cun)(cun)儲介質中(zhong)。目前(qian),底層(ceng)物理存(cun)(cun)(cun)(cun)儲介質主要有(you)光(guang)、磁(ci)(ci)、電(dian)三種(zhong),對應(ying)的(de)存(cun)(cun)(cun)(cun)儲產品類型可也(ye)被(bei)分為三大類:光(guang)學存(cun)(cun)(cun)(cun)儲,如(ru)(ru)藍光(guang)存(cun)(cun)(cun)(cun)儲;磁(ci)(ci)存(cun)(cun)(cun)(cun)儲,如(ru)(ru)HDD機械硬(ying)盤(pan);半導體存(cun)(cun)(cun)(cun)儲,采(cai)用(yong)電(dian)能(neng)(neng)存(cun)(cun)(cun)(cun)儲,如(ru)(ru)SSD固態(tai)硬(ying)盤(pan)。除了(le)目前(qian)主要使用(yong)光(guang)、磁(ci)(ci)、電(dian)三種(zhong)介質之外,業(ye)界還在進行DNA存(cun)(cun)(cun)(cun)儲等下一(yi)(yi)代介質研發。當前(qian)在企(qi)業(ye)級存(cun)(cun)(cun)(cun)儲市場(chang)(chang)應(ying)用(yong)最廣泛(fan)的(de)是HDD機械盤(pan)跟SSD固態(tai)盤(pan),其中(zhong)SSD節(jie)能(neng)(neng)優勢(shi)明顯,相(xiang)對于HDD,在相(xiang)同容(rong)量下,SSD的(de)電(dian)力(li)能(neng)(neng)耗降低(di)70%,可有(you)效推進數(shu)據中(zhong)心低(di)碳(tan)運(yun)轉,其性(xing)能(neng)(neng)在市場(chang)(chang)中(zhong)也(ye)具有(you)較強(qiang)的(de)競爭力(li)。
另外(wai),“硅進(jin)磁退”是存儲介(jie)質發展的(de)(de)(de)趨(qu)勢,全閃(shan)存陣列的(de)(de)(de)普(pu)及速度也在逐年提高。SSD固態硬(ying)盤的(de)(de)(de)性能雖高,但是其中的(de)(de)(de)flash顆粒存在成本和(he)磨損壽(shou)命(ming)的(de)(de)(de)限制。因此在全閃(shan)存系統(tong)進(jin)行設計(ji)時,需(xu)要充分考慮減少flash的(de)(de)(de)磨損。業界中也通過(guo)壓(ya)縮技(ji)術(shu)減少寫入的(de)(de)(de)數(shu)據量,進(jin)而有(you)效減少對flash的(de)(de)(de)磨損,提高系統(tong)的(de)(de)(de)利用率(lv),延長(chang)SSD的(de)(de)(de)使用壽(shou)命(ming),從而降低數(shu)據存儲的(de)(de)(de)成本。
存(cun)儲系統(tong)(tong)中的(de)(de)(de)(de)無(wu)損(sun)數據壓(ya)縮(suo)算(suan)法(fa)(fa),正在由效率較低的(de)(de)(de)(de)定長(Fixed Bit Length Packing)壓(ya)縮(suo)轉變為不(bu)定長壓(ya)縮(suo)。其(qi)中,由Abraham Lempel 和(he) Jacob Ziv獨創性的(de)(de)(de)(de)使(shi)用(yong)(yong)(yong)(yong)字典的(de)(de)(de)(de)LZ77/78算(suan)法(fa)(fa)及(ji)其(qi)變種應用(yong)(yong)(yong)(yong)最(zui)為廣泛。這(zhe)類使(shi)用(yong)(yong)(yong)(yong)字典來壓(ya)縮(suo)數據LZ算(suan)法(fa)(fa)使(shi)用(yong)(yong)(yong)(yong)一(yi)種基于滑動窗口緩存(cun)的(de)(de)(de)(de)技術,該緩存(cun)用(yong)(yong)(yong)(yong)于保(bao)存(cun)最(zui)近剛(gang)剛(gang)處理的(de)(de)(de)(de)文本;當(dang)出現一(yi)個(ge)重(zhong)復(fu)時(shi),重(zhong)復(fu)的(de)(de)(de)(de)序列(lie)可以用(yong)(yong)(yong)(yong)一(yi)個(ge)短的(de)(de)(de)(de)編(bian)(bian)碼來代(dai)替(ti);壓(ya)縮(suo)程(cheng)序掃(sao)描這(zhe)樣的(de)(de)(de)(de)重(zhong)復(fu),同時(shi)生(sheng)成(cheng)編(bian)(bian)碼來代(dai)替(ti)重(zhong)復(fu)序列(lie),隨(sui)著時(shi)間的(de)(de)(de)(de)過(guo)去,編(bian)(bian)碼可以重(zhong)用(yong)(yong)(yong)(yong)來捕獲新的(de)(de)(de)(de)序列(lie)。當(dang)然系統(tong)(tong)必須要設(she)計成(cheng)解壓(ya)程(cheng)序能夠在編(bian)(bian)碼和(he)原(yuan)始(shi)數據序列(lie)推導(dao)出當(dang)前的(de)(de)(de)(de)映(ying)射。
LZ算法示意圖
LZ算(suan)(suan)法使用(yong)了有限的(de)窗口(kou)在(zai)以(yi)前的(de)文(wen)本(ben)中查找匹(pi)配(pei),對于(yu)相對于(yu)窗口(kou)大小(xiao)來說非常長的(de)文(wen)本(ben)塊,很多可(ke)能的(de)匹(pi)配(pei)就會被丟掉(diao)。窗口(kou)大小(xiao)可(ke)以(yi)增(zeng)加(jia),但這(zhe)會帶來兩個損失:一是算(suan)(suan)法的(de)處理時間會增(zeng)加(jia);二是指針字段必須更(geng)長,以(yi)允許更(geng)長的(de)跳(tiao)轉。兩者都很消耗計算(suan)(suan)資源(CPU和緩(huan)存)。
傳(chuan)統在(zai)(zai)線實時(shi)壓(ya)(ya)(ya)縮技術一(yi)(yi)(yi)般采用(yong)軟件壓(ya)(ya)(ya)縮來(lai)實現,會(hui)帶來(lai)一(yi)(yi)(yi)定的(de)(de)CPU負(fu)載,如果壓(ya)(ya)(ya)縮算(suan)法做的(de)(de)不夠優化,就會(hui)導致壓(ya)(ya)(ya)縮功能(neng)開啟后(hou)占(zhan)用(yong)較(jiao)多CPU性(xing)能(neng)(雙倍壓(ya)(ya)(ya)縮,占(zhan)用(yong)15%左右(you)CPU資(zi)源),一(yi)(yi)(yi)般會(hui)影(ying)響(xiang)系統1/3-2/3的(de)(de)性(xing)能(neng),影(ying)響(xiang)業(ye)務的(de)(de)可(ke)用(yong)性(xing)能(neng)。因此,某些存儲系統中并不建議企業(ye)在(zai)(zai)業(ye)務繁(fan)忙時(shi)開啟壓(ya)(ya)(ya)縮功能(neng),一(yi)(yi)(yi)般在(zai)(zai)業(ye)務空閑階(jie)段使(shi)用(yong)壓(ya)(ya)(ya)縮。
數(shu)據壓縮的(de)另外一(yi)個痛點在于,數(shu)據塊(kuai)經過(guo)壓縮后(hou),因為有不同的(de)冗余度,數(shu)據塊(kuai)長度變得不一(yi),容易造(zao)成磁盤碎(sui)片。這(zhe)種(zhong)基于位(wei)置的(de)壓縮給系統的(de)數(shu)據布局(ju)帶來很(hen)大(da)影響,嚴重影響業務的(de)IO響應能力(li),加(jia)劇性能衰減。
浪潮智能(neng)(neng)(neng)(neng)在(zai)線壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)基(ji)于硬件(jian)壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)技術,降低(di)了(le)(le)對控制器計算資源的(de)(de)占用(yong),特別是(shi)CPU和緩存,使得壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)功(gong)(gong)能(neng)(neng)(neng)(neng)的(de)(de)開啟(qi),只占用(yong)了(le)(le)低(di)于3%的(de)(de)CPU性能(neng)(neng)(neng)(neng)影(ying)響(部分IO交(jiao)互);與此同(tong)時,通過特定(ding)優(you)化的(de)(de)壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)算法(fa),將在(zai)線壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)的(de)(de)不定(ding)長(chang)(chang)數(shu)(shu)據(ju)(ju)(ju)(ju)轉變為定(ding)長(chang)(chang)數(shu)(shu)據(ju)(ju)(ju)(ju),壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)數(shu)(shu)據(ju)(ju)(ju)(ju)8byte對齊。定(ding)長(chang)(chang)輸(shu)出(chu)壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)模式(shi)是(shi)一種前壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)方(fang)式(shi),數(shu)(shu)據(ju)(ju)(ju)(ju)會先(xian)經過緩存壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)(專用(yong)緩存和壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)芯片),最(zui)終落盤(pan)的(de)(de)是(shi)壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)后的(de)(de)數(shu)(shu)據(ju)(ju)(ju)(ju);且算法(fa)依(yi)(yi)據(ju)(ju)(ju)(ju)非定(ding)長(chang)(chang)輸(shu)入會生成(cheng)定(ding)長(chang)(chang)輸(shu)出(chu),更容(rong)易滿(man)條帶(dai)刷(shua)寫,提高性能(neng)(neng)(neng)(neng)同(tong)時提高磁盤(pan)空間利用(yong)率(lv)。浪潮存儲(chu)基(ji)于時序的(de)(de)優(you)化策略可(ke)以識別隨機(ji)熱點數(shu)(shu)據(ju)(ju)(ju)(ju),依(yi)(yi)賴局部性原理進行數(shu)(shu)據(ju)(ju)(ju)(ju)存儲(chu),進一步提高隨機(ji)場景(jing)的(de)(de)壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)性能(neng)(neng)(neng)(neng)。在(zai)數(shu)(shu)據(ju)(ju)(ju)(ju)布局上,不再產(chan)生數(shu)(shu)據(ju)(ju)(ju)(ju)碎(sui)片,從總體測試表現(xian)看(kan),開啟(qi)壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)功(gong)(gong)能(neng)(neng)(neng)(neng)后,反而提升系統(tong)的(de)(de)隨機(ji)讀(du)寫性能(neng)(neng)(neng)(neng)。數(shu)(shu)據(ju)(ju)(ju)(ju)庫類應用(yong)壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)比(bi)例2:1-5:1,日志型(xing)應用(yong)最(zui)大壓(ya)(ya)(ya)(ya)縮(suo)(suo)(suo)(suo)(suo)比(bi)例可(ke)達10:1,節省了(le)(le)大量的(de)(de)存儲(chu)空間。
浪潮存儲(chu)基于“云存智用(yong) 運籌(chou)新(xin)數(shu)據(ju)”的(de)(de)理念,不斷技(ji)術創新(xin),將智能(neng)壓(ya)縮(suo)技(ji)術適配到存儲(chu)平(ping)臺,打造(zao)敏(min)捷高效(xiao)的(de)(de)存儲(chu)產品(pin),在保障性能(neng)無損的(de)(de)情(qing)況下(xia),提升數(shu)據(ju)存儲(chu)的(de)(de)效(xiao)率(lv),提高了存儲(chu)空間利(li)用(yong)率(lv),降低數(shu)據(ju)存儲(chu)成本,讓(rang)用(yong)戶能(neng)輕松應對數(shu)字經濟時代的(de)(de)海量數(shu)據(ju)的(de)(de)挑戰。