北(bei)京(jing)2020年12月29日(ri) /美通社(she)/ -- 近日(ri),北(bei)森獲得國家知識產權局授權的(de)AI簡歷(li)解(jie)(jie)析相關技(ji)術發明專利(li) -- “一種(zhong)基于深度學習的(de)簡歷(li)解(jie)(jie)析方(fang)法(fa)和(he)系統”。該項專利(li)技(ji)術由(you)北(bei)森成都(dou)總部相關團隊研發,專利(li)期限為(wei)20年,將(jiang)被用于招聘場景下(xia)大規(gui)模、多類(lei)別、復雜(za)簡歷(li)的(de)智能(neng)化解(jie)(jie)析。
本次申請的是(shi)北森簡歷(li)(li)(li)(li)(li)解析的核心技術專利。無論是(shi)招聘網站(zhan)的固定格式簡歷(li)(li)(li)(li)(li),還(huan)是(shi)候(hou)選人(ren)郵箱投遞的表格式、自由格式簡歷(li)(li)(li)(li)(li),甚至是(shi)移(yi)動端拍照(zhao)上傳的圖片簡歷(li)(li)(li)(li)(li),該技術可以(yi)從任意格式的半結(jie)構化(hua)文檔簡歷(li)(li)(li)(li)(li)中,提取候(hou)選人(ren)的個人(ren)信息、工(gong)作經歷(li)(li)(li)(li)(li)、教(jiao)育背(bei)景等(deng)字段信息,以(yi)支持后續搜索、篩選、智能推薦等(deng)工(gong)作展開。
相比于目前(qian)市面上(shang)常(chang)見的簡歷解(jie)析技(ji)術,北森實(shi)現兩大突(tu)破。
其一(yi),字段提(ti)取方法(fa)上,使用獨立的(de)語句切分+文本分類(lei)模型(xing)替換序列標注。
同類的(de)其(qi)他技術在提取字段(duan)信息(xi)時,是通(tong)過序列標注模型來識別(bie)目標實體的(de)起止位置和(he)類別(bie),這(zhe)種(zhong)方(fang)式會(hui)增(zeng)加(jia)任務的(de)訓練難度,對訓練數據也(ye)有更高要求。
北森則利用“半結(jie)構(gou)化簡歷的(de)(de)布(bu)局通常更(geng)(geng)明晰(xi),字(zi)段之間會(hui)以空格、冒號等(deng)隔開”的(de)(de)特點,將字(zi)段的(de)(de)提取(qu)分為語句切(qie)分和字(zi)段類別(bie)識(shi)別(bie)兩個階段任(ren)務分別(bie)建(jian)模實(shi)現。相(xiang)比于以往,該方法可以提取(qu)長文本字(zi)段,讓起止位置的(de)(de)識(shi)別(bie)更(geng)(geng)準確,并且(qie)能(neng)夠支持(chi)上百種類別(bie)識(shi)別(bie)。
其二(er),使用句子粒度(du)的區塊和(he)分條模型替(ti)換詞(ci)粒度(du)的分類器。
在從簡歷(li)中確定個(ge)人信息(xi)、教育經(jing)歷(li)、工作經(jing)歷(li)等(deng)區塊的位(wei)置時,同(tong)類技術最好(hao)的方法是以詞為粒度,每行文本獨立地(di)通過文本分類模型得(de)到區塊類別(bie)。但是這種技術在遇到相似的信息(xi)時,比如相似的實習(xi)經(jing)歷(li)或工作經(jing)歷(li),容(rong)易出現判別(bie)錯誤(wu)。
實際上,通過大(da)量分析簡歷(li)發現,簡歷(li)的(de)每(mei)行(xing)內容屬于(yu)哪個(ge)區塊(kuai)是有(you)一定相關性的(de),即當前(qian)行(xing)屬于(yu)哪個(ge)區塊(kuai)會(hui)受到(dao)上一行(xing)和(he)下一行(xing)內容的(de)影(ying)響(xiang)。所以(yi),北森提出區塊(kuai)和(he)條目識別模型(xing)的(de)序列標(biao)注(zhu),以(yi)句子為單位進行(xing)輸(shu)入,且包括類別信息,可以(yi)在(zai)建模過程中直接捕(bu)獲到(dao)前(qian)后幾行(xing)對當前(qian)行(xing)的(de)影(ying)響(xiang),大(da)大(da)提升準確(que)率(lv)。
從最原始的模板解析到現在基于深度學習的智能簡歷解析,北森簡歷解析經歷了四大發展階段,每一次重構都是重大突破。目前簡(jian)歷解析涉(she)及從文檔(dang)讀(du)取、布局識別、字(zi)段識別等方(fang)方(fang)面(mian)面(mian),而北森將持續探索(suo)簡(jian)歷解析技術的研發與落(luo)地,為行業帶來(lai)更優體(ti)驗(yan)。
“基于(yu)深度學(xue)習(xi)的簡(jian)歷(li)(li)解析(xi)方法(fa)和系統”將進一(yi)步在北(bei)森(sen)的招聘產品(pin)及服務中(zhong)進行應用。通過在內容提取、類別(bie)(bie)識別(bie)(bie)等各個方面的優化,相關產品(pin)將創新(xin)性推出更準確(que)、更全面的簡(jian)歷(li)(li)字段解析(xi)體(ti)(ti)驗;同時,北(bei)森(sen)會(hui)針(zhen)對渠道簡(jian)歷(li)(li)、獵(lie)頭推薦簡(jian)歷(li)(li)等樣式較固定(ding)的簡(jian)歷(li)(li)提供(gong)了(le)解析(xi)配置,遇到個別(bie)(bie)字段解析(xi)出現問題可以快速(su)響應,快速(su)兼容,影響小上線快,給客戶更好的技術支持體(ti)(ti)驗。