北京2023年(nian)4月21日 /美通社/ -- 深度學(xue)習(DL)的(de)創新,特別是大語言(yan)模(mo)型(LLM)的(de)快速(su)發展,已經席(xi)卷了整個行(xing)業。深度學(xue)習模(mo)型的(de)參數(shu)(shu)已從數(shu)(shu)百萬增加到數(shu)(shu)十億(yi),為(wei)我們(men)呈現了越來越多激(ji)動人心的(de)新能力。它們(men)正在(zai)催生(sheng)新的(de)應用,如生(sheng)成式(shi)AI或醫療保健和生(sheng)命(ming)科學(xue)的(de)高級研究。亞馬遜云科技一(yi)直在(zai)芯片、服務(wu)器、數(shu)(shu)據中心互(hu)連和軟件(jian)服務(wu)等多個方面創新,加速(su)深度學(xue)習工作負載(zai)的(de)大規模(mo)應用。
亞馬遜云科技在2022 re:Invent 全球大會上(shang),以其最新的(de)自研(yan)機(ji)器學(xue)習推理(li)芯片Amazon Inferentia2為(wei)基(ji)礎,發布了Amazon EC2 Inf2系列實例的(de)預覽版。Amazon EC2 Inf2類型實例專門(men)針(zhen)對(dui)全球大規(gui)模運行高性能深度學(xue)習推理(li)應(ying)用程序(xu),為(wei)部署在EC2上(shang)的(de)生成(cheng)式AI應(ying)用提供最佳性價比,其中包含 GPT-J或開(kai)放式預訓練Transformer(OPT)語言(yan)模型。
現在,亞馬(ma)遜云科技(ji)宣布(bu)Amazon EC2 Inf2實例正式(shi)可用。
Inf2實例(li)(li)是Amazon EC2上(shang)首(shou)個(ge)推理(li)優化的(de)(de)(de)實例(li)(li),支持可擴展的(de)(de)(de)分布式推理(li),可實現多個(ge)inferentia2芯片之間的(de)(de)(de)超高(gao)速(su)連(lian)接。用戶可以在(zai)Inf2實例(li)(li)中跨(kua)多個(ge)芯片高(gao)效(xiao)部署具有數千億個(ge)參數的(de)(de)(de)模(mo)型。與Amazon EC2 Inf1實例(li)(li)相比,Inf2實例(li)(li)的(de)(de)(de)吞吐量提高(gao)4倍,延遲降低10倍。
新Inf2實例的亮點
Inf2實例目前有(you)四種可用實例類(lei)型(xing),最高擴(kuo)展至12個Amazon Inferentia2芯片和192個vCPU配置。在BF16或(huo)FP16數據類(lei)型(xing)下,它們能夠(gou)提(ti)供2.3 petaFLOPS的(de)綜合計算(suan)能力,并具有(you)芯片間超高速NeuronLink互(hu)連的(de)功(gong)能。NeuronLink可在多個Inferentia2芯片上擴(kuo)展大模(mo)型(xing),避免(mian)通信瓶頸,實現(xian)更高性能的(de)推(tui)理。
每(mei)個(ge)Inferentia2芯片(pian)內(nei)有32 GB的(de)高(gao)(gao)帶(dai)寬內(nei)存(HBM),最高(gao)(gao)配置的(de) Inf2 實例可提供(gong)高(gao)(gao)達384 GB的(de)共享(xiang)加速(su)器內(nei)存,總內(nei)存帶(dai)寬為(wei)9.8 TB/s。對于需要大(da)內(nei)存支(zhi)持(chi)的(de)的(de)大(da)型(xing)語言(yan)模(mo)型(xing)而言(yan),這種帶(dai)寬對于支(zhi)持(chi)模(mo)型(xing)推(tui)理尤為(wei)重要。
基于專門(men)為深度(du)學習工作負載而構建的 Amazon Inferentia2芯(xin)片的 Amazon EC2 Inf2,相比同(tong)類實例,單位功率性能高(gao)出(chu)了50%。
Amazon Inferentia2的創新之處
與亞馬遜自研機(ji)器(qi)學習訓練芯片 Amazon Trainium類似(si),每個Amazon Inferentia2芯片都配(pei)有兩個經過優化的NeuronCore-v2引擎、高帶寬(kuan)內存(HBM)堆棧和專(zhuan)用(yong)的集(ji)體計算引擎,以便(bian)在執行多(duo)加速器(qi)推理時實現計算與通信的并(bing)行。
每個NeuronCore-v2都有(you)專為深(shen)度學(xue)習算法(fa)構建(jian)的標(biao)量(liang)、向(xiang)量(liang)和(he)張(zhang)(zhang)量(liang)三種引(yin)擎(qing),其(qi)中張(zhang)(zhang)量(liang)引(yin)擎(qing)針對矩(ju)陣運(yun)算進(jin)行(xing)了(le)(le)優化(hua);標(biao)量(liang)引(yin)擎(qing)針對ReLU(修(xiu)正線(xian)性單元)函(han)數等元素(su)性操作(zuo)進(jin)行(xing)了(le)(le)優化(hua);向(xiang)量(liang)引(yin)擎(qing)針對批處(chu)理規范(fan)化(hua)或池(chi)化(hua)等非(fei)元素(su)向(xiang)量(liang)運(yun)算進(jin)行(xing)了(le)(le)優化(hua)。
以下是Amazon Inferentia2芯(xin)片和(he)服務器硬件其他創新總結(jie):
數(shu)(shu)據類型——Amazon Inferentia2 支持(chi)多種數(shu)(shu)據類型,包括(kuo) FP32、TF32、BF16、FP16 和 UINT8,用戶可(ke)以(yi)為工作(zuo)負載選擇(ze)最合適(shi)的(de)(de)數(shu)(shu)據類型。它還支持(chi)新(xin)的(de)(de)可(ke)配置 FP8(cFP8) 數(shu)(shu)據類型,該數(shu)(shu)據類型特別(bie)適(shi)用于大(da)模型,因為它減少了模型的(de)(de)內存(cun)占用和 I/O 要求。
動態執行(xing)(xing)和動態輸入(ru)(ru)形狀(zhuang)——Amazon Inferentia2 具有支(zhi)持(chi)動態執行(xing)(xing)的(de)嵌(qian)入(ru)(ru)式通用數(shu)字信(xin)號處(chu)理器 (DSP),因此無需在主(zhu)機上展(zhan)開或(huo)執行(xing)(xing)控制(zhi)流運算符。Amazon Inferentia2 還支(zhi)持(chi)動態輸入(ru)(ru)形狀(zhuang),這(zhe)些形狀(zhuang)對(dui)于(yu)具有未(wei)知輸入(ru)(ru)張量(liang)大小的(de)模型(例(li)如處(chu)理文本的(de)模型)至關重要(yao)。
自(zi)定(ding)(ding)(ding)義運(yun)(yun)算(suan)(suan)(suan)符(fu)——Amazon Inferentia2支持(chi)用C++語言編寫(xie)的自(zi)定(ding)(ding)(ding)義運(yun)(yun)算(suan)(suan)(suan)符(fu)。Neuron自(zi)定(ding)(ding)(ding)義C++運(yun)(yun)算(suan)(suan)(suan)符(fu)使(shi)用戶能夠編寫(xie)在NeuronCore上天(tian)然運(yun)(yun)行的C++自(zi)定(ding)(ding)(ding)義運(yun)(yun)算(suan)(suan)(suan)符(fu)。用戶可(ke)以使(shi)用標準的 PyTorch自(zi)定(ding)(ding)(ding)義運(yun)(yun)算(suan)(suan)(suan)符(fu)編程(cheng)接(jie)口(kou)將 CPU 自(zi)定(ding)(ding)(ding)義運(yun)(yun)算(suan)(suan)(suan)符(fu)遷移(yi)到 Neuron 并(bing)實現新的實驗運(yun)(yun)算(suan)(suan)(suan)符(fu),所(suo)有這些都(dou)無需對 NeuronCore 硬件有任何深(shen)入(ru)了解。
NeuronLink v2——Inf2實例是Amazon EC2類型中(zhong)首個將 NeuronLink V2 用(yong)于推理(li)優化的實例,NeuronLink v2 為Inferentia2芯片間(jian)的提供(gong)超高速(su)連接,加(jia)強分布式推理(li)性能(neng)。NeuronLink v2使用(yong)all-reduce等聚合通信(CC)運算符,將高性能(neng)推理(li)管道(dao)擴展到所(suo)有的推理(li)芯片上。
新Inf2實例現已可用
用戶可在亞馬遜云科技美東(俄亥俄州)和美東(北弗吉尼亞州)地區啟動Inf2實例,以按需、預留和競價實例或Savings Plan方式調用。用戶僅需為其實際使用的服務付費。如需了解更多相關信息,請訪問。
Inf2實例可使用(yong)亞馬遜云科技深度學習鏡像(xiang)進行部署,并可通(tong)過(guo)、、和Amazon ParallelCluster等托管服(fu)務(wu)調用(yong)。
如需了解更多信息,請訪問,并將相關反饋發送給;或垂詢您(nin)的(de)Amazon Support聯系人。