北京2024年8月23日 /美通社/ -- 近日,浪潮信息發布源(yuan)(yuan)2.0-M32大(da)模型(xing)(xing)4bit和8bit量(liang)化版,性(xing)能比肩700億參數(shu)的(de)LLaMA3開源(yuan)(yuan)大(da)模型(xing)(xing)。4bit量(liang)化版推理(li)運行(xing)顯存僅(jin)需(xu)23.27GB,處理(li)每token所(suo)需(xu)算力(li)約為(wei)(wei)1.9 GFLOPs,算力(li)消耗(hao)僅(jin)為(wei)(wei)同等當(dang)量(liang)大(da)模型(xing)(xing)LLaMA3-70B的(de)1/80。而LLaMA3-70B運行(xing)顯存為(wei)(wei)160GB,所(suo)需(xu)算力(li)為(wei)(wei)140GFLOPs。
源(yuan)2.0-M32量化(hua)(hua)版是(shi)"源(yuan)"大(da)(da)(da)模(mo)(mo)型(xing)團隊為進一步提高模(mo)(mo)算(suan)效(xiao)率(lv),降(jiang)低(di)大(da)(da)(da)模(mo)(mo)型(xing)部(bu)署運行的計算(suan)資(zi)源(yuan)要(yao)求而(er)推出的版本(ben),通過采用領先的量化(hua)(hua)技術,將原模(mo)(mo)型(xing)精度(du)量化(hua)(hua)至int4和(he)int8級別(bie),并保持模(mo)(mo)型(xing)性能(neng)(neng)基(ji)本(ben)不變。源(yuan)2.0-M32量化(hua)(hua)版提高了(le)模(mo)(mo)型(xing)部(bu)署加載速度(du)和(he)多線程推理(li)效(xiao)率(lv),在(zai)不同硬(ying)件(jian)和(he)軟件(jian)環境中(zhong)均能(neng)(neng)高效(xiao)運行,降(jiang)低(di)了(le)模(mo)(mo)型(xing)移植和(he)部(bu)署門(men)檻,讓用戶使用更少的計算(suan)資(zi)源(yuan),就能(neng)(neng)獲取源(yuan)2.0-M32大(da)(da)(da)模(mo)(mo)型(xing)的強大(da)(da)(da)能(neng)(neng)力(li)。
源(yuan)2.0-M32大模(mo)型(xing)(xing)是浪(lang)潮(chao)信息(xi)"源(yuan)2.0"系列(lie)大模(mo)型(xing)(xing)的最新版本(ben),其創新性地提出和(he)采用了"基于(yu)注意力機制的門控(kong)網絡"技術,構建包含(han)32個專家(jia)(Expert)的混合專家(jia)模(mo)型(xing)(xing)(MoE),模(mo)型(xing)(xing)運行時激活參數為37億,在(zai)業界主流(liu)基準評測中性能全面對標700億參數的LLaMA3開源(yuan)大模(mo)型(xing)(xing),大幅提升了模(mo)型(xing)(xing)算力效率。
模(mo)(mo)型(xing)(xing)量(liang)(liang)化(hua)(hua)(Model Quantization)是優化(hua)(hua)大模(mo)(mo)型(xing)(xing)推理的一種主(zhu)流(liu)技術(shu),它(ta)顯著減少了模(mo)(mo)型(xing)(xing)的內(nei)存(cun)占用和計算(suan)資源消(xiao)耗(hao),從而加速推理過(guo)程。然而,模(mo)(mo)型(xing)(xing)量(liang)(liang)化(hua)(hua)可能(neng)會影響模(mo)(mo)型(xing)(xing)的性能(neng)。如何在壓縮模(mo)(mo)型(xing)(xing)的同(tong)時維持其精度(du),是量(liang)(liang)化(hua)(hua)技術(shu)面臨的核心挑(tiao)戰。
源(yuan)2.0-M32大(da)模(mo)型(xing)研發團(tuan)隊深(shen)入分析當前主(zhu)流(liu)的(de)量(liang)(liang)(liang)化方(fang)案,綜(zong)合評估(gu)(gu)模(mo)型(xing)壓縮效果和(he)精度(du)損失(shi)表現,最(zui)終采(cai)用了(le)GPTQ量(liang)(liang)(liang)化方(fang)法,并(bing)采(cai)用AutoGPTQ作(zuo)為量(liang)(liang)(liang)化框(kuang)架(jia)。為了(le)確保模(mo)型(xing)精度(du)最(zui)大(da)化,一(yi)方(fang)面(mian)定(ding)制(zhi)化適配了(le)適合源(yuan)2.0-M32結構的(de)算子,提(ti)(ti)高(gao)了(le)模(mo)型(xing)的(de)部署加載速(su)度(du)和(he)多線程(cheng)推理效率(lv),實現高(gao)并(bing)發推理;另(ling)一(yi)方(fang)面(mian)對需要量(liang)(liang)(liang)化的(de)中間層(inter_layers)進行(xing)了(le)嚴格評估(gu)(gu)和(he)篩(shai)選,確定(ding)了(le)最(zui)佳的(de)量(liang)(liang)(liang)化層。從而成(cheng)功將模(mo)型(xing)精度(du)量(liang)(liang)(liang)化至int4和(he)int8級別,在模(mo)型(xing)精度(du)幾(ji)乎(hu)無損的(de)前提(ti)(ti)下,提(ti)(ti)升模(mo)型(xing)壓縮效果、增(zeng)加推理吞吐量(liang)(liang)(liang)和(he)降(jiang)低計算成(cheng)本,使(shi)其更易于部署到移動設(she)備(bei)和(he)邊緣設(she)備(bei)上。
評測結果顯示,源2.0-M32量化版在多個業界主流(liu)的評測任務(wu)中性能表現突出,特別是在MATH(數(shu)學(xue)競賽)、ARC-C(科學(xue)推理)任務(wu)中,比肩擁(yong)有(you)700億參數(shu)的LLaMA3大模型。
總之,源2.0-M32大模(mo)型(xing)(xing)量化(hua)(hua)(hua)(hua)版在保持推理性(xing)能的(de)(de)(de)前提下,顯著降低了(le)計算資源消耗和(he)內(nei)存(cun)占用(yong)(yong),其(qi)采用(yong)(yong)的(de)(de)(de)GPTQ量化(hua)(hua)(hua)(hua)方法通過(guo)精(jing)細調(diao)整(zheng),成功將(jiang)模(mo)型(xing)(xing)適(shi)配(pei)(pei)至int4和(he)int8精(jing)度(du)級別。通過(guo)定制化(hua)(hua)(hua)(hua)算子(zi)優(you)(you)化(hua)(hua)(hua)(hua),源2.0-M32量化(hua)(hua)(hua)(hua)版實現了(le)模(mo)型(xing)(xing)結構(gou)的(de)(de)(de)深度(du)適(shi)配(pei)(pei)和(he)性(xing)能的(de)(de)(de)顯著提升,確保在不同硬件和(he)軟件環(huan)境中均能高效運(yun)行(xing)。未來,隨著量化(hua)(hua)(hua)(hua)技術的(de)(de)(de)進一(yi)步優(you)(you)化(hua)(hua)(hua)(hua)和(he)應用(yong)(yong)場(chang)景的(de)(de)(de)拓展,源2.0-M32量化(hua)(hua)(hua)(hua)版有望在移動設備和(he)邊(bian)緣計算等領域發(fa)揮(hui)更(geng)廣泛的(de)(de)(de)作用(yong)(yong),為用(yong)(yong)戶提供更(geng)高效的(de)(de)(de)智能服(fu)務。
源2.0-M32量化版已開(kai)源,下載鏈接(jie)如下:
Hugging Face平臺(tai)下(xia)載鏈接:
//huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
//huggingface.co/IEITYuan/Yuan2-M32-hf-int4
//huggingface.co/IEITYuan/Yuan2-M32-hf-int8
modelscope平(ping)臺下載鏈接:
//modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
//modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
//modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8