北京2022年10月28日(ri) /美通(tong)社/ -- 近(jin)日,在全球權威(wei)的(de)(de)自動駕駛nuScenes競賽的(de)(de)最新一期評測中,浪(lang)潮信息AI團隊斬(zhan)獲純視覺3D目(mu)標(biao)檢測任務(nuScenes Detection task)第一名,并將關(guan)鍵(jian)性指標(biao)nuScenes Detection Score(NDS)提(ti)高到62.4%
自(zi)動駕(jia)駛(shi)已被(bei)眾(zhong)多(duo)車(che)企與AI 領先公司視(shi)為未來出行方(fang)式變革(ge)最重要的(de)(de)(de)支撐(cheng)性(xing)技術,而目(mu)標(biao)檢測(ce)作(zuo)為自(zi)動駕(jia)駛(shi)技術的(de)(de)(de)核心模塊,其算法的(de)(de)(de)精度和穩定性(xing)正在眾(zhong)多(duo)AI研究團(tuan)隊的(de)(de)(de)推動下(xia)(xia),不(bu)斷創(chuang)下(xia)(xia)新高(gao)。nuScenes數(shu)(shu)據(ju)集是目(mu)前自(zi)動駕(jia)駛(shi)領域中最流行的(de)(de)(de)公開數(shu)(shu)據(ju)集之(zhi)一,數(shu)(shu)據(ju)采集自(zi)波士頓和新加坡的(de)(de)(de)實際自(zi)動駕(jia)駛(shi)場景,是第一個(ge)(ge)集成(cheng)攝(she)像頭、激光雷達和毫米波雷達等多(duo)種傳感(gan)器,實現360度全傳感(gan)器覆蓋的(de)(de)(de)數(shu)(shu)據(ju)集。nuScenes數(shu)(shu)據(ju)集提供(gong)了(le)二(er)維(wei)、三(san)維(wei)物(wu)體標(biao)注(zhu)、點(dian)云分割(ge)、高(gao)精地圖等豐富的(de)(de)(de)標(biao)注(zhu)信息,包含1000個(ge)(ge)場景,擁有140萬(wan)幀圖像、39萬(wan)幀激光雷達點(dian)云數(shu)(shu)據(ju)、23個(ge)(ge)物(wu)體類(lei)別、140萬(wan)個(ge)(ge)三(san)維(wei)標(biao)注(zhu)框,其數(shu)(shu)據(ju)標(biao)注(zhu)量比KITTI數(shu)(shu)據(ju)集高(gao)出7倍以上。
此次浪潮信息AI團隊(dui)(dui)參與的(de)純視覺(jue)3D目(mu)標檢測任務是(shi)競爭最激烈的(de)賽道,吸引了百度、鑒智機器人、縱(zong)目(mu)科(ke)技、卡(ka)內基梅隆大(da)(da)學、加利福(fu)尼亞大(da)(da)學伯克利分校、MIT、清(qing)華大(da)(da)學、香港(gang)科(ke)技大(da)(da)學、上海(hai)交(jiao)通大(da)(da)學等全球各地的(de)頂(ding)尖(jian)AI團隊(dui)(dui)。
純視覺3D目(mu)(mu)標檢(jian)測(ce)任務,就是在(zai)不(bu)使用(yong)激光雷達、毫米波雷達等(deng)(deng)額外的(de)(de)傳感器信息(xi)(xi)條件下,僅(jin)使用(yong)6個攝像(xiang)頭完成(cheng)車外360度(du)環(huan)(huan)視視野的(de)(de)3D目(mu)(mu)標檢(jian)測(ce),不(bu)僅(jin)需要(yao)(yao)檢(jian)測(ce)周圍環(huan)(huan)境(jing)中(zhong)所有的(de)(de)車、行人(ren)、障礙物、交通標志、指示燈等(deng)(deng)若干類(lei)對象,還要(yao)(yao)精確(que)感知(zhi)到(dao)他們在(zai)真實物理世界(jie)中(zhong)的(de)(de)位(wei)置、大小、方向、速(su)(su)度(du)等(deng)(deng)信息(xi)(xi)。該(gai)項任務的(de)(de)主要(yao)(yao)難點是通過2D圖像(xiang)難以準確(que)的(de)(de)獲取目(mu)(mu)標的(de)(de)真實深度(du)和速(su)(su)度(du),當提取的(de)(de)深度(du)信息(xi)(xi)不(bu)準確(que)時,一切的(de)(de)三維感知(zhi)任務都會變得(de)異常困難;而當提取的(de)(de)速(su)(su)度(du)信息(xi)(xi)不(bu)準確(que)時,則可(ke)能會對后續(xu)的(de)(de)決(jue)策(ce)規劃任務產生(sheng)致命性的(de)(de)影(ying)響。
浪潮信息AI團(tuan)隊創新開(kai)發了基于多相機的(de)(de)時空(kong)融(rong)(rong)合模型(xing)架構(Inspur_DABNet4D),在多視角視覺輸入統一轉換到BEV(Bird Eye View)特(te)(te)征(zheng)空(kong)間這一技術(shu)框(kuang)架的(de)(de)基礎上,引入了數(shu)據樣本增強、深度增強網絡(luo)、時空(kong)融(rong)(rong)合網絡(luo)、預(yu)訓練權重等,得到了更魯(lu)棒更精確的(de)(de)BEV特(te)(te)征(zheng),大幅地優化了目標(biao)物體監測(ce)(ce)速度和位(wei)移方(fang)向預(yu)測(ce)(ce)。
基于(yu)多相機的(de)(de)(de)(de)(de)時空(kong)融(rong)(rong)合(he)模型(xing)架(jia)構(gou)(gou)實(shi)(shi)現了四大(da)核心(xin)技(ji)術突破。一(yi)是,更(geng)(geng)豐富的(de)(de)(de)(de)(de)數(shu)據(ju)(ju)樣本(ben)增強(qiang)(qiang)算法(fa),將(jiang)真值(zhi)以真實(shi)(shi)的(de)(de)(de)(de)(de)3D物理坐(zuo)標(biao)實(shi)(shi)現拷(kao)貝(bei)貼圖,并實(shi)(shi)現了時序中(zhong)的(de)(de)(de)(de)(de)擴展,顯著的(de)(de)(de)(de)(de)提(ti)高目(mu)標(biao)檢測(ce)精度(du),可將(jiang)mAP(全類平均(jun)正(zheng)確率,mean Average Precision)平均(jun)提(ti)升2%+;二(er)是,更(geng)(geng)強(qiang)(qiang)大(da)的(de)(de)(de)(de)(de)深(shen)(shen)度(du)增強(qiang)(qiang)網絡(luo),主(zhu)要針對現有方案深(shen)(shen)度(du)信息難以學(xue)習和(he)建(jian)(jian)模的(de)(de)(de)(de)(de)問題(ti),通過(guo)深(shen)(shen)度(du)網絡(luo)架(jia)構(gou)(gou)優化、點云(yun)數(shu)據(ju)(ju)監督指導訓練(lian)(lian)、深(shen)(shen)度(du)補(bu)全等技(ji)術,大(da)幅提(ti)高深(shen)(shen)度(du)預測(ce)精度(du);三是,更(geng)(geng)精細(xi)的(de)(de)(de)(de)(de)時空(kong)融(rong)(rong)合(he)網絡(luo),除了進(jin)一(yi)步優化駕(jia)駛(shi)場(chang)景(jing)中(zhong)自(zi)車運動(dong)所帶來(lai)的(de)(de)(de)(de)(de)時空(kong)信息錯位融(rong)(rong)合(he)問題(ti),還(huan)引入了sweep幀(zhen)數(shu)據(ju)(ju)隨機抽(chou)取與當前幀(zhen)融(rong)(rong)合(he),并實(shi)(shi)現不同幀(zhen)的(de)(de)(de)(de)(de)數(shu)據(ju)(ju)樣本(ben)同步增強(qiang)(qiang)操作,使得模型(xing)能(neng)夠端到(dao)端學(xue)習到(dao)更(geng)(geng)精細(xi)的(de)(de)(de)(de)(de)時序特征;四是,更(geng)(geng)完善的(de)(de)(de)(de)(de)統一(yi)建(jian)(jian)模形式,即針對駕(jia)駛(shi)場(chang)景(jing)的(de)(de)(de)(de)(de)視角廣、尺度(du)大(da)、任務多的(de)(de)(de)(de)(de)特點,設計了端到(dao)端的(de)(de)(de)(de)(de)特征提(ti)取、融(rong)(rong)合(he)、檢測(ce)頭的(de)(de)(de)(de)(de)統一(yi)建(jian)(jian)模架(jia)構(gou)(gou),結構(gou)(gou)簡單、訓練(lian)(lian)高效、場(chang)景(jing)通用。預訓練(lian)(lian)模型(xing)可隨時替換自(zi)監督模型(xing),快捷便利地完成測(ce)試(shi)和(he)精度(du)提(ti)升。
得益于(yu)更先進(jin)算法和更高算力的(de)進(jin)步,nuScenes競賽的(de)3D目標檢測任務榜單成績(ji)在2022年取得大幅(fu)提(ti)升(sheng)(sheng),其中浪(lang)潮信(xin)息AI團(tuan)隊將關鍵性指(zhi)標NDS提(ti)升(sheng)(sheng)到62.4%,而相(xiang)比而言年初的(de)榜單最佳成績(ji)是47%。