浪潮信(xin)息發(fa)布(bu)源(yuan)(yuan)(yuan)2.0-M32大(da)(da)模(mo)(mo)型4bit和8bit量(liang)化(hua)版,性(xing)能比肩700億(yi)參數的(de)LLaMA3開源(yuan)(yuan)(yuan)大(da)(da)模(mo)(mo)型。其(qi)中(zhong),4bit量(liang)化(hua)版推理(li)(li)運行顯存僅需23.27GB,處理(li)(li)每token所需算力約為1.9 GFLOPs,算力消耗僅為同等(deng)當量(liang)大(da)(da)模(mo)(mo)型LLaMA3-70B的(de)1/80。源(yuan)(yuan)(yuan)2.0-M32大(da)(da)模(mo)(mo)型是(shi)浪潮信(xin)息“源(yuan)(yuan)(yuan)2.0”系列大(da)(da)模(mo)(mo)型的(de)最新(xin)版本,其(qi)創新(xin)性(xing)地提出(chu)和采用(yong)了“基于(yu)注意(yi)力機(ji)制(zhi)的(de)門控網絡”技術,構(gou)建包含(han)32個專(zhuan)家(Expert)的(de)混合專(zhuan)家模(mo)(mo)型(MoE),模(mo)(mo)型運行時激活參數為37億(yi)。(美(mei)通社(she))