云解(jie)決(jue)方案(an)幫助(zhu)企(qi)業更輕(qing)松地(di)保(bao)護應用,做到防患(huan)于未然
北京2023年(nian)4月11日 /美通社/ -- 近期,亞馬遜高級副總裁兼杰出工程師 James Hamilton 就提高IT韌性分享其觀點如下:現代(dai)企業為(wei)確保軟件系(xi)統(tong)的(de)持續可用而承(cheng)受著巨大(da)的(de)壓力。系(xi)統(tong)宕機不僅(jin)會給企業造成(cheng)數百萬美元的(de)經濟損失,還會對品牌形象(xiang)以及客戶產生負面影響。
所有企業都面臨著越來越多(duo)的(de)IT系(xi)(xi)統(tong)挑戰(zhan)。例如(ru),持(chi)續增加的(de)遠程系(xi)(xi)統(tong)調用、日益復(fu)雜(za)和(he)分布式的(de)系(xi)(xi)統(tong),以及系(xi)(xi)統(tong)功能的(de)頻繁更新等都會增加系(xi)(xi)統(tong)中斷(duan)的(de)風險(xian)。
企業遷移到云端可以大大降低這種風險。云服務提供商規模化的運營方式,讓其在基礎設施韌性方面持續深耕。在亞馬遜云科技,我們從一開始就在基礎設施、服務設計與部署、運營模式和機制中將韌性考慮其中。例如,亞馬遜云科技擁有99個可用區(截至2023年3月),由部署在世界各地的數據中心組成,可以承受幾乎任何類型或規模的。
亞馬遜(xun)云科技為客(ke)戶提(ti)(ti)供了可靠的基礎(chu)(chu)設施,讓客(ke)戶構建和運行他們的應用。但同時客(ke)戶也需要確保運行在基礎(chu)(chu)設施之上的應用同樣具有韌性(xing)。下面三種方法(fa)可以幫助企業提(ti)(ti)高(gao)韌性(xing)。
1. 盡可能擴大自動化范圍
根(gen)據(ju)Uptime Institute 的(de)(de)數據(ju),大(da)約70%的(de)(de)數據(ju)中心和(he)服務中斷是(shi)由(you)人為(wei)錯誤(wu)造成(cheng)的(de)(de)。(我(wo)預(yu)測(ce)這個比(bi)例會(hui)(hui)更高,這也是(shi)亞(ya)馬遜(xun)云科技(ji)如此(ci)專(zhuan)注(zhu)于(yu)自動化(hua)的(de)(de)原(yuan)因。)因為(wei)手(shou)動操(cao)作(zuo)會(hui)(hui)帶來風險,為(wei)此(ci)從(cong)備(bei)份到(dao)測(ce)試需要盡可能地自動化(hua),自動化(hua)是(shi)創建韌性(xing)架構的(de)(de)關鍵。位于(yu)馬里蘭州農村地區的(de)(de)一家獨立(li)醫(yi)院(yuan), 在將其(qi)應用恢復系統遷(qian)移到(dao)亞(ya)馬遜(xun)云科技(ji)后也意識到(dao)這一點。
以前,電子健康記(ji)錄的(de)(de)(de)數(shu)據備份是在企業數(shu)據中(zhong)心服務器上(shang)手動管理(li)的(de)(de)(de),這(zhe)些(xie)記(ji)錄對(dui)于患(huan)者(zhe)的(de)(de)(de)護理(li)至關重要。恢復(fu)時(shi)間(jian)目標(biao)(RTO)用于衡量中(zhong)斷和(he)恢復(fu)服務之間(jian)的(de)(de)(de)最大允許(xu)時(shi)間(jian),這(zhe)一(yi)數(shu)值曾為48至72小(xiao)時(shi)。CalvertHealth將其應用恢復(fu)系統遷移到亞馬遜云科技后(hou),RTO降至兩小(xiao)時(shi)以下,縮短了(le)97%。
在部署之前識別和解決代碼中的問題,也是構建高可用性、高韌性應用的重要組成部分。手動審查依賴于審查人員的專業知識和識別潛在問題的能力。但是,借助,企業(ye)可以(yi)實現這一過程的自(zi)動化,甚至還能(neng)優化應用性能(neng)。
是(shi)世界領先的(de)(de)(de)專(zhuan)業服務提供商之一,它(ta)使(shi)用(yong)亞馬遜云科技的(de)(de)(de)自動化代(dai)碼審查功能(neng)來幫(bang)助開發和運(yun)營團隊主(zhu)動識別和解決問題,并確保其部署(shu)的(de)(de)(de)性能(neng)、安全性和合(he)規性超出了(le)來自不(bu)同(tong)行業和地(di)區的(de)(de)(de)客(ke)戶的(de)(de)(de)要求。
2. 持續測試來應對未知
持續測試是工程師理解系統如何應對未知情況的方法。實現這個目標的做法之一是故意搞"破壞"。這被稱為"混沌工程",由開創。
通過這種方法,企業能夠執行,幫助團隊營造真實(shi)世界所需的條件,來發現分布式系(xi)統中難以甄別的隱藏錯誤、盲點和性能瓶頸。
自21世紀初以來,亞馬遜一直在不會對客戶(hu)產生影響的(de)(de)精準(zhun)控制的(de)(de)情況下,有意注(zhu)入(ru)故障。這提(ti)高(gao)了我(wo)們的(de)(de)應(ying)變能力,確保我(wo)們為最壞的(de)(de)情況做好了準(zhun)備。如果我(wo)們能觸發罕見事件,并更頻(pin)繁地調整應(ying)對措(cuo)施,那我(wo)們就做好了準(zhun)備。
另一(yi)種流行(xing)的測(ce)(ce)試方(fang)法(fa)是(shi)韌性(xing)"游戲日(ri)"(game days),它通過模(mo)擬一(yi)個(ge)失敗(bai)或其他事件(jian)來測(ce)(ce)試系統、流程和(he)團隊的響(xiang)應。這種方(fang)法(fa)的目的是(shi)盡可能逼(bi)真地演習(xi)如果(guo)異常事件(jian)真的發生(sheng),團隊會采取的行(xing)動。企業可以在亞(ya)馬遜云科技中使用其生(sheng)產(chan)環境的完(wan)整(zheng)副(fu)本進行(xing)游戲日(ri)演練。
3. 統一可觀測性指標
了解系統(tong)的(de)運(yun)行情況(kuang)對實現卓越(yue)的(de)運(yun)營和韌性至關(guan)重要。企業不斷收集和分析應用(yong)數據,才(cai)能更快地檢測和解決應用(yong)可用(yong)性和性能方(fang)面存在的(de)問題,從而改善最終(zhong)用(yong)戶的(de)體驗。但(dan)隨著(zhu)應用(yong)復雜性的(de)日益增加,問題出(chu)現時(shi)很難快速定位并(bing)加以解決。
例如,是(shi)一家(jia)全球電子學習技(ji)術供應商,他們的開發(fa)人員在遇到問題(ti)時(shi)往(wang)往(wang)會花上幾(ji)天(tian)時(shi)間(jian)進行(xing)故(gu)障排除(chu)。Docebo使用(yong)亞(ya)馬遜云科(ke)技(ji)的多種分(fen)析服務(wu),將其所有日志記錄和跟蹤數據(ju)進行(xing)結合(he),創建了單一事實來源。為此,公司將故(gu)障排除(chu)時(shi)間(jian)縮短了90%,修復錯誤的時(shi)間(jian)從70%-80%減少(shao)到15%以下。過去需要幾(ji)天(tian)才可以完成的工作現在只需要幾(ji)分(fen)鐘。
行而不輟,未來可期
IT韌(ren)性是(shi)一(yi)段(duan)無盡之旅。新技(ji)術、新威(wei)脅和(he)(he)新的處事之道層出不(bu)窮。這就(jiu)是(shi)亞馬遜(xun)(xun)云科技(ji)不(bu)懈努(nu)力改進基礎設施、服(fu)務(wu)設計、運營(ying)模式和(he)(he)機制,持(chi)續加強與(yu)發(fa)展云設施韌(ren)性的原因。亞馬遜(xun)(xun)云科技(ji)將(jiang)持(chi)續為客(ke)戶提供廣泛、深(shen)入(ru)的架構及運營(ying)最佳實踐服(fu)務(wu)、工(gong)具和(he)(he)指導,為他們的韌(ren)性之旅提供支(zhi)持(chi)。