亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

從零開始搭建工業級推薦系統,你不可不知的五大問題(上篇)

中量質子CEO 長風

北京2021年8月12日 /美(mei)通社/ -- 推(tui)(tui)薦系統(tong)作為一種高(gao)效(xiao)的(de)信息發現工具,可以很好地解決用戶精(jing)準高(gao)效(xiao)獲(huo)取(qu)(qu)信息的(de)問(wen)題,尤(you)其(qi)在(zai)人們需求不明確時,借(jie)助(zhu)推(tui)(tui)薦系統(tong)獲(huo)取(qu)(qu)信息是非(fei)常重(zhong)要甚至是不可或缺的(de)一種手段。同時就商(shang)業價值(zhi)而言,推(tui)(tui)薦系統(tong)在(zai)內容分(fen)發、用戶體驗、商(shang)業化變現等方(fang)面也已經獲(huo)得了廣泛的(de)認可。推(tui)(tui)薦系統(tong)目前(qian)已經成(cheng)為互聯網to C產品的(de)標(biao)配(pei)技術,用來高(gao)效(xiao)地解決用戶的(de)信息匹配(pei)問(wen)題。

筆者是算(suan)(suan)法(fa)工(gong)程師背景,曾在國內(nei)最大的(de)短(duan)視頻(pin)平臺參與推薦系(xi)統(tong)核心算(suan)(suan)法(fa)模塊研發,先后經(jing)歷(li)五(wu)款千萬級以上日活內(nei)容分發產品(pin)(pin)從(cong)0到(dao)1階段(duan)的(de)推薦系(xi)統(tong)架構(gou)設計,踩過(guo)各(ge)種(zhong)產品(pin)(pin)/內(nei)容/算(suan)(suan)法(fa)/運營(ying)的(de)坑。之后在做推薦算(suan)(suan)法(fa)to B服務過(guo)程中(zhong),經(jing)歷(li)了各(ge)種(zhong)推薦應(ying)用(yong)的(de)場(chang)景,比(bi)如(ru):短(duan)視頻(pin)、長視頻(pin)、新聞資訊、音頻(pin)應(ying)用(yong)、社交社區、直(zhi)播(bo)、電商、游戲等幾乎所有需(xu)要個性化算(suan)(suan)法(fa)的(de)產品(pin)(pin)。通過(guo)本文,筆者希望基于以往經(jing)歷(li)過(guo)的(de)失(shi)敗或成功的(de)案例,與業界同仁探討在搭(da)建(jian)工(gong)業級推薦系(xi)統(tong)過(guo)程中(zhong)必須深入思考的(de)五(wu)個關鍵性問題。

問題1:算法是否有用?

根據業(ye)界主流(liu)定(ding)義,推薦算法是指建立在(zai)機器學習基礎之上的(de)一(yi)套包含模型訓練/預測(ce)功(gong)能的(de)決(jue)策系統。廣義的(de)算法其實(shi)包含各種(zhong)計(ji)算策略、方法和(he)技(ji)巧,不限(xian)于機器學習方法,比如一(yi)些求解技(ji)巧或者是結合業(ye)務特點(dian)的(de)先驗假設。

如前文所述,推(tui)薦系統目前已經成(cheng)為to C互聯(lian)網產(chan)(chan)品(pin)(pin)的(de)標配技術(shu),但是,你有(you)沒有(you)認真思考過(guo):你的(de)產(chan)(chan)品(pin)(pin)或者系統,有(you)沒有(you)必(bi)要利用推(tui)薦算法?推(tui)薦算法有(you)多大的(de)空(kong)間?

筆者經常(chang)見到一(yi)些初入門算(suan)法工程(cheng)師(shi),面(mian)對(dui)(dui)具體推薦(jian)場景(jing)時,沒有(you)做(zuo)好(hao)充分(fen)的評估建模(mo),一(yi)上來就三段(duan)式:樣本(ben)生(sheng)成、模(mo)型訓練、上線預測,最終折(zhe)騰(teng)半天沒有(you)任何效(xiao)果,甚至不(bu)如人工推薦(jian)的效(xiao)果。之所以會(hui)出現各種(zhong)結果,是因(yin)為這(zhe)些算(suan)法工程(cheng)師(shi)沒有(you)做(zuo)好(hao)前期建模(mo),分(fen)析數據基(ji)本(ben)面(mian),確(que)認(ren)面(mian)對(dui)(dui)的應用(yong)場景(jing)是不(bu)是屬于“用(yong)戶”和“事(shi)物(wu)(Item)”的雙(shuang)邊(bian)充分(fen)消(xiao)費市場。這(zhe)里面(mian),事(shi)物(wu)(Item)可(ke)以是人、信息、商(shang)品、服務等(deng),雙(shuang)邊(bian)基(ji)數越(yue)(yue)大(da)推薦(jian)算(suan)法作用(yong)越(yue)(yue)大(da),雙(shuang)邊(bian)消(xiao)費越(yue)(yue)頻繁,推薦(jian)效(xiao)果越(yue)(yue)好(hao)。

在2020年中量(liang)質子曾經接觸過一個做(zuo)小(xiao)游戲推(tui)薦的(de)(de)客戶。他們在產(chan)品(pin)(pin)早期有幾個策略(lve)工(gong)程師基(ji)于一些業務策略(lve)做(zuo)了(le)一版推(tui)薦系(xi)統,相(xiang)對于完全(quan)沒有策略(lve)的(de)(de)狀(zhuang)態推(tui)薦效果(guo)(guo)好了(le)很多,公司(si)決策層于是(shi)認為(wei)算(suan)(suan)法(fa)(fa)(fa)效果(guo)(guo)立竿見影(ying)、大(da)有可為(wei),高成本從抖音、百度等大(da)廠挖(wa)了(le)20多個高級算(suan)(suan)法(fa)(fa)(fa)工(gong)程師。算(suan)(suan)法(fa)(fa)(fa)同學加入之(zhi)后沒有充分理解小(xiao)游戲場(chang)景的(de)(de)用戶行為(wei)特點(dian)和產(chan)品(pin)(pin)指標評估體系(xi),而是(shi)把內容類產(chan)品(pin)(pin)的(de)(de)建模(mo)方法(fa)(fa)(fa)和模(mo)型(xing)算(suan)(suan)法(fa)(fa)(fa)應(ying)用在App上,評估指標體系(xi)是(shi)用戶人均使用時長(chang)和用戶留存,結果(guo)(guo)做(zuo)了(le)半年嘗試了(le)各種模(mo)型(xing)算(suan)(suan)法(fa)(fa)(fa)都沒有任何進展(zhan),團(tuan)隊信心喪失,人員流失嚴重,這時公司(si)決策層又開始(shi)懷疑算(suan)(suan)法(fa)(fa)(fa)的(de)(de)價值。那么究(jiu)竟是(shi)哪里出了(le)差錯呢(ni)?

其實,這個案例的(de)核心問題出(chu)在建模目標、模型拆解、樣本生成、評估(gu)體系(xi)上。小游(you)(you)戲(xi)(xi)(xi)場景和(he)內(nei)(nei)(nei)容(rong)分發(fa)類(lei)產(chan)品(pin)差別(bie)很大(da)。內(nei)(nei)(nei)容(rong)分發(fa)類(lei)產(chan)品(pin)一(yi)(yi)個最大(da)的(de)特點(dian)是(shi):推薦內(nei)(nei)(nei)容(rong)都(dou)是(shi)新(xin)的(de)不(bu)(bu)重復的(de)(工業級(ji)內(nei)(nei)(nei)容(rong)推薦系(xi)統(tong)都(dou)有展現(xian)消(xiao)重模塊),用戶(hu)對老(lao)內(nei)(nei)(nei)容(rong)會本能排斥。而小游(you)(you)戲(xi)(xi)(xi)則不(bu)(bu)同,相(xiang)比內(nei)(nei)(nei)容(rong)消(xiao)費(fei),玩(wan)小游(you)(you)戲(xi)(xi)(xi)是(shi)一(yi)(yi)個中度(du)決策(ce)的(de)場景,用戶(hu)一(yi)(yi)個時(shi)段傾向(xiang)于玩(wan)相(xiang)同游(you)(you)戲(xi)(xi)(xi)直到興趣消(xiao)退,對新(xin)游(you)(you)戲(xi)(xi)(xi)發(fa)現(xian)需求不(bu)(bu)如(ru)內(nei)(nei)(nei)容(rong)分發(fa)強。因此,就需要仔細(xi)權衡新(xin)老(lao)游(you)(you)戲(xi)(xi)(xi)分發(fa)權重、冷啟動策(ce)略(lve)如(ru)何制定(ding)、多目標如(ru)何拆解、模型樣本怎么(me)定(ding)義(yi)等等關鍵(jian)節點(dian)。如(ru)果(guo)這些(xie)關鍵(jian)點(dian)沒有做(zuo)到位,那么(me)后續怎么(me)調參(can)都(dou)不(bu)(bu)會有效(xiao)果(guo)。同時(shi),在產(chan)品(pin)宏觀指(zhi)標算法效(xiao)果(guo)評估(gu)上也要能反應出(chu)產(chan)品(pin)大(da)目標,比如(ru)人均(jun)消(xiao)費(fei)游(you)(you)戲(xi)(xi)(xi)數量、人均(jun)新(xin)游(you)(you)戲(xi)(xi)(xi)打開數,并綜(zong)合考慮留(liu)存(cun)和(he)人均(jun)時(shi)長指(zhi)標。

中量質子團隊在2020年(nian)還曾經(jing)服(fu)務過(guo)一(yi)(yi)個(ge)做(zuo)(zuo)藝(yi)術(shu)(shu)品(pin)(pin)(pin)的(de)社區社交的(de)客戶(hu),其產(chan)品(pin)(pin)(pin)UI類(lei)小紅書。客戶(hu)的(de)產(chan)品(pin)(pin)(pin)從UI形式(shi)上看非常適(shi)合推薦(jian)(jian),然而我們(men)嘗試了(le)一(yi)(yi)段(duan)時間,效果始終(zhong)做(zuo)(zuo)的(de)不(bu)好。經(jing)過(guo)深度復盤(pan),我們(men)終(zhong)于發現核心原因是用(yong)戶(hu)數量太少,每天的(de)用(yong)戶(hu)行為非常少,導致模(mo)型(xing)學習非常不(bu)充分預測(ce)不(bu)準;而且(qie),用(yong)戶(hu)的(de)消(xiao)費(fei)行為不(bu)像內容(rong)消(xiao)費(fei)那么高頻度。這(zhe)些用(yong)戶(hu)對一(yi)(yi)個(ge)藝(yi)術(shu)(shu)品(pin)(pin)(pin)會反(fan)復瀏覽,是一(yi)(yi)個(ge)重度決策過(guo)程,更(geng)接(jie)近一(yi)(yi)個(ge)電商商品(pin)(pin)(pin)推薦(jian)(jian)。此外(wai),這(zhe)家(jia)客戶(hu)設定的(de)評估指標(biao)是人(ren)均(jun)消(xiao)費(fei)金(jin)額(e),相(xiang)比與時長留(liu)存,這(zhe)是一(yi)(yi)個(ge)行為更(geng)稀疏的(de)指標(biao),更(geng)難做(zuo)(zuo)多目標(biao)的(de)拆解和(he)模(mo)型(xing)算法的(de)充分學習。最終(zhong),我們(men)給(gei)客戶(hu)的(de)建議是:這(zhe)個(ge)階段(duan)的(de)產(chan)品(pin)(pin)(pin)更(geng)適(shi)合基(ji)于策略做(zuo)(zuo)熱門(men)運(yun)營半自動推薦(jian)(jian),先做(zuo)(zuo)好用(yong)戶(hu)增長。記(ji)不(bu)記(ji)得前(qian)面(mian)我曾經(jing)講(jiang)過(guo),在“用(yong)戶(hu)”和(he)“事物”的(de)雙(shuang)邊(bian)消(xiao)費(fei)市場里,雙(shuang)邊(bian)基(ji)數越(yue)大(da)推薦(jian)(jian)算法作(zuo)用(yong)越(yue)大(da),雙(shuang)邊(bian)消(xiao)費(fei)越(yue)頻繁(fan)推薦(jian)(jian)效果越(yue)好。

其實,對于(yu)算法硬(ying)實力筆者認為不必(bi)過(guo)分強調,反(fan)而對于(yu)理(li)解業務場景、建模問題、定義模型目標等等推薦系統團隊(dui)的軟(ruan)實力,大家應該給(gei)予更多的重視。

問題2:特征工程該怎么做?

在(zai)確認(ren)了產品的(de)場景適合用算法(fa)提升(sheng)匹配(pei)效率,并且評(ping)估了產品和數據基本(ben)面(mian),完成了建模(mo)(mo)后(hou),“特征(zheng)工(gong)程(cheng)”是(shi)下(xia)一個決定模(mo)(mo)型能否(fou)充分訓(xun)練學習(xi)、精(jing)準預測(ce)的(de)關鍵環(huan)節。不知道你對于特征(zheng)工(gong)程(cheng)是(shi)否(fou)熟悉(xi)。據筆者的(de)觀察,目前行(xing)業里系統性介紹特征(zheng)工(gong)程(cheng)的(de)技術(shu)文章(zhang)不多(duo),也(ye)不如算法(fa)受重(zhong)視程(cheng)度高(gao),特征(zheng)的(de)重(zhong)要性往往被忽視。

什(shen)么是(shi)特(te)(te)征(zheng)?特(te)(te)征(zheng)是(shi)影響模(mo)型預測的(de)(de)輸入因子,而模(mo)型是(shi)預測時(shi)(shi)基于輸入因子的(de)(de)計算方法(fa)。從兩者間的(de)(de)相互關系,你立刻就會意識到特(te)(te)征(zheng)的(de)(de)重要性(xing)(xing)有(you)多么大(da)。在(zai)深(shen)度學習算法(fa)時(shi)(shi)代來臨之前,以邏輯回歸為代表的(de)(de)線性(xing)(xing)寬度模(mo)型是(shi)業(ye)界主(zhu)要應(ying)(ying)用的(de)(de)模(mo)型,那時(shi)(shi)特(te)(te)征(zheng)工程幾乎(hu)對(dui)算法(fa)效果具有(you)決定(ding)性(xing)(xing)的(de)(de)作用。時(shi)(shi)至今日(ri),在(zai)深(shen)度學習模(mo)型廣泛(fan)應(ying)(ying)用的(de)(de)大(da)背景下,特(te)(te)征(zheng)工程依然是(shi)推(tui)(tui)薦系統的(de)(de)核心前置工程,復雜(za)的(de)(de)特(te)(te)征(zheng)工程和復雜(za)的(de)(de)深(shen)度模(mo)型結構(gou)都(dou)是(shi)主(zhu)流工業(ye)級推(tui)(tui)薦引擎必不可(ke)少(shao)的(de)(de)基石(shi)性(xing)(xing)的(de)(de)組成部分(fen)。

那(nei)么,特(te)(te)(te)(te)(te)征(zheng)(zheng)工(gong)(gong)(gong)程是什么?是如(ru)何影響模(mo)(mo)型(xing)的(de)(de)(de)(de)(de)?具體而言,特(te)(te)(te)(te)(te)征(zheng)(zheng)工(gong)(gong)(gong)程屬(shu)于建(jian)模(mo)(mo)的(de)(de)(de)(de)(de)一(yi)部分,指用哪些因(yin)子(特(te)(te)(te)(te)(te)征(zheng)(zheng))去支持模(mo)(mo)型(xing)做決(jue)策判(pan)斷。特(te)(te)(te)(te)(te)征(zheng)(zheng)和行(xing)為(wei)埋(mai)點(dian)、畫像(xiang)系(xi)統(tong)密(mi)切關聯,行(xing)為(wei)埋(mai)點(dian)是最(zui)(zui)原(yuan)始(shi)的(de)(de)(de)(de)(de)數(shu)據來源,畫像(xiang)字段(duan)(duan)一(yi)般是用行(xing)為(wei)埋(mai)點(dian)和用戶(hu)以及事(shi)(shi)物的(de)(de)(de)(de)(de)元信息生(sheng)成的(de)(de)(de)(de)(de)。特(te)(te)(te)(te)(te)征(zheng)(zheng)工(gong)(gong)(gong)程的(de)(de)(de)(de)(de)關鍵(jian)是找(zhao)到一(yi)系(xi)列判(pan)定(ding)模(mo)(mo)型(xing)目標(biao)的(de)(de)(de)(de)(de)決(jue)策因(yin)子,并且在(zai)工(gong)(gong)(gong)程上有一(yi)套(tao)標(biao)準化的(de)(de)(de)(de)(de)特(te)(te)(te)(te)(te)征(zheng)(zheng)抽取和表示方(fang)法,一(yi)般可以分為(wei)單維特(te)(te)(te)(te)(te)征(zheng)(zheng)(比如(ru)各畫像(xiang)字段(duan)(duan)維度(du))、多維組合特(te)(te)(te)(te)(te)征(zheng)(zheng)(比如(ru)用戶(hu)和事(shi)(shi)物的(de)(de)(de)(de)(de)特(te)(te)(te)(te)(te)征(zheng)(zheng)組合)、機(ji)器學習特(te)(te)(te)(te)(te)征(zheng)(zheng)(比如(ru)用戶(hu)和事(shi)(shi)物的(de)(de)(de)(de)(de)embedding特(te)(te)(te)(te)(te)征(zheng)(zheng))。特(te)(te)(te)(te)(te)征(zheng)(zheng)是模(mo)(mo)型(xing)的(de)(de)(de)(de)(de)原(yuan)始(shi)輸入,工(gong)(gong)(gong)業級推(tui)薦(jian)系(xi)統(tong)優化到一(yi)定(ding)階段(duan)(duan),特(te)(te)(te)(te)(te)征(zheng)(zheng)工(gong)(gong)(gong)程就(jiu)成為(wei)算法工(gong)(gong)(gong)程師(shi)最(zui)(zui)主要的(de)(de)(de)(de)(de)工(gong)(gong)(gong)作。

在特征工程領域,中(zhong)量質(zhi)子團隊(dui)在“行業級最佳實(shi)踐”和“工程實(shi)現”兩個關(guan)鍵領域積累了深厚的(de)實(shi)力。

行業(ye)級最佳實(shi)踐,是一種準確判斷(duan)在不同的(de)產品場景應(ying)(ying)用(yong)哪些(xie)(xie)特征(zheng)(zheng)(zheng)能夠獲得最優(you)效(xiao)果的(de)能力。特征(zheng)(zheng)(zheng)工程也遵循(xun)28原則,你需要(yao)找到在每(mei)個領(ling)(ling)域起核(he)(he)心(xin)作用(yong)的(de)那些(xie)(xie)少數特征(zheng)(zheng)(zheng)。中量質(zhi)子團隊(dui)在內容、短視頻、新聞資訊、社(she)(she)區社(she)(she)交、電(dian)商、直播等(deng)應(ying)(ying)用(yong)領(ling)(ling)域已經積累(lei)了(le)大量的(de)最佳特征(zheng)(zheng)(zheng)體系實(shi)踐,比如電(dian)商領(ling)(ling)域哪些(xie)(xie)是核(he)(he)心(xin)特征(zheng)(zheng)(zheng)、怎么構建用(yong)戶側特征(zheng)(zheng)(zheng)、特征(zheng)(zheng)(zheng)字段計(ji)算方法和更新頻率(lv)等(deng)等(deng)。

關于工程實現,有三個維度你需(xu)要給予(yu)特(te)別的關注:

  • 首先,特征工程中最消耗算法工程師時間的工作是頻繁嘗試新特征,這需要在工程上做各種提效支持,比如可配置特征和訓練時特征屏蔽功能等等。在這方面,中量質子經過多年實戰,已經具備了一套高效標準化的特征抽取和表示方法,我們提出的DeepTouch推薦系統擁有各種特征增刪、組合配置、屏蔽的功能,并和模型創建、訓練、預測等管理功能形成高效協同的一體化框架。
  • 其次,是特征工程的規模。工業級推薦系統數據量巨大,特征工程規模也越做越大,千億幾乎成了行業標準,萬億級特征也成為不少系統追求的目標。中量質子的DeepTouch推薦系統已經實現了萬億級特征實時在線學習的能力。
  • 最后,特征工程不是獨立的系統,其和模型訓練、模型預測、參數服務器單元高效耦合是一個巨大的工程挑戰。DeepTouch推薦系統已經實現了以上所有關鍵要素的高效耦合。

由于文字篇幅所限,筆(bi)者(zhe)在(zai)本文中重點分(fen)(fen)(fen)享(xiang)了從零開始(shi)搭建工(gong)業(ye)級推薦系(xi)統的(de)(de)(de)過(guo)程中,最為(wei)關鍵(jian)的(de)(de)(de)兩(liang)大問題。“算法”和“特征工(gong)程”,這兩(liang)個話題一(yi)個在(zai)行業(ye)內為(wei)大家(jia)(jia)(jia)所津津樂道,而另一(yi)個則名聲不顯。但是(shi),通過(guo)筆(bi)者(zhe)實戰經歷的(de)(de)(de)分(fen)(fen)(fen)享(xiang),相(xiang)信(xin)大家(jia)(jia)(jia)一(yi)定(ding)已經認識到了他們(men)在(zai)工(gong)業(ye)級推薦系(xi)統中的(de)(de)(de)基石性(xing)的(de)(de)(de)作用。在(zai)接(jie)下來的(de)(de)(de)文章中,筆(bi)者(zhe)將就對(dui)于搭建工(gong)業(ye)級推薦系(xi)統另外(wai)三個至關重要的(de)(de)(de)問題跟大家(jia)(jia)(jia)做進(jin)一(yi)步的(de)(de)(de)分(fen)(fen)(fen)享(xiang)。

消息來源:北京中量質子網絡信息科技有限公司
相關鏈接:
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection