導(dǎo)讀:知識(shí)圖譜作為一種富信息工程,已經(jīng)深入到各行各業(yè)中,也為產(chǎn)業(yè)效率的提升做出了很大的貢獻(xiàn)。將知識(shí)圖譜賦能到招聘這個(gè)垂直的領(lǐng)域中,提升招聘整個(gè)鏈路的轉(zhuǎn)化效率和人崗匹配的能力是我們一直探索的方向。本文將講述58同城在這個(gè)方向上的工作和成果,主要圍繞以下四個(gè)方面展開(kāi):
01 業(yè)務(wù)背景 首先和大家分享下全國(guó)招聘行業(yè)的大背景以及58招聘的業(yè)務(wù)背景。 據(jù)人社部數(shù)據(jù)統(tǒng)計(jì)顯示,截止到2020年末,全國(guó)就業(yè)人員達(dá)到7.5億左右,其中城鎮(zhèn)就業(yè)人員約4.6億。2021全年全國(guó)城鎮(zhèn)調(diào)查失業(yè)率平均值為5.1%,同比下降0.5個(gè)百分點(diǎn)。從上圖右側(cè)可以看出,我國(guó)這幾年新增就業(yè)人數(shù)均在千萬(wàn)級(jí)別,同時(shí)全國(guó)高校畢業(yè)人數(shù)呈現(xiàn)出逐年增長(zhǎng)的態(tài)勢(shì)。由此可見(jiàn),我國(guó)的招聘市場(chǎng)十分龐大。此外,為緩解我國(guó)勞動(dòng)力結(jié)構(gòu)性矛盾突出與就業(yè)形式不確定的現(xiàn)象,尤其是疫情期間,為了配合國(guó)家相關(guān)部門(mén)開(kāi)展招聘活動(dòng),中國(guó)網(wǎng)絡(luò)招聘平臺(tái)的規(guī)模持續(xù)增長(zhǎng)。我們可以看到,我國(guó)在2021年的招聘市場(chǎng)規(guī)模相較于2016年已經(jīng)翻了三番,所以持續(xù)優(yōu)化針對(duì)招聘領(lǐng)域的雙邊匹配的效率成為行業(yè)的大趨勢(shì)。其中,將AI賦能招聘成為了達(dá)成這一目標(biāo)的必備技術(shù)。 58招聘作為58同城最核心的業(yè)務(wù)之一,又是互聯(lián)網(wǎng)招聘中的龍頭平臺(tái),立足服務(wù)于大規(guī)模求職者及大中小型企業(yè)。平臺(tái)上每天都有海量的連接,促成大量的就業(yè)。在這個(gè)背景下,58一直致力于提升匹配效率,將知識(shí)圖譜賦能于推薦,助力于優(yōu)化匹配效果和推薦效率。 傳統(tǒng)推薦如新聞推薦和電商推薦,是單邊的推薦模式。推薦系統(tǒng)基于用戶(hù)標(biāo)簽和隱藏的興趣推薦相應(yīng)的內(nèi)容,僅需要滿(mǎn)足用戶(hù)單邊的要求即可。相比之下,招聘推薦是一個(gè)雙邊的匹配任務(wù),因?yàn)槲覀冃枰瑫r(shí)滿(mǎn)足求職者和企業(yè)雙邊的一個(gè)訴求。所以,我們需要考慮雙邊的CTR/CVR的效果。此外,在招聘的后續(xù)流程,如面試等,平臺(tái)無(wú)法追蹤最后的結(jié)果,無(wú)法如傳統(tǒng)推薦系統(tǒng)一樣形成閉環(huán)。 另外,招聘推薦是一個(gè)弱表達(dá)強(qiáng)相關(guān)的業(yè)務(wù)。在目前這種集團(tuán)化招聘或者小作坊招聘中,很多情況下職位發(fā)布者對(duì)jd的描述過(guò)于寬泛,對(duì)具體需求的描述不夠清晰,從而導(dǎo)致招聘推薦的“弱表達(dá)”?!皬?qiáng)相關(guān)”則意味著某個(gè)職位是需要求職者具備對(duì)應(yīng)的能力與素質(zhì)才能去勝任的,并不是所有人都合適。最后,招聘推薦的領(lǐng)域?qū)傩暂^強(qiáng),職位與應(yīng)聘者擅長(zhǎng)的領(lǐng)域需要相互匹配。 招聘匹配的特點(diǎn),帶來(lái)了以下四個(gè)難點(diǎn):
58招聘主要關(guān)注雙邊連接場(chǎng)景,即同時(shí)考慮to B和to C的推薦。在普通推薦場(chǎng)景,我們會(huì)根據(jù)用戶(hù)過(guò)往的交互行為與歷史信息來(lái)預(yù)測(cè)用戶(hù)下一步的行為;在搜索推薦場(chǎng)景,用戶(hù)會(huì)擁有明確的搜索意圖。當(dāng)用戶(hù)的意圖比較模糊時(shí),我們會(huì)引入標(biāo)簽推薦來(lái)引導(dǎo)用戶(hù)完善意圖,完成智能化引導(dǎo)推薦。 -- 02 招聘知識(shí)圖譜的構(gòu)建 上圖展現(xiàn)了招聘知識(shí)圖譜的全貌,它由求職者、企業(yè)和職位組成。職位作為中間橋梁串聯(lián)了求職者和企業(yè)。求職者具有自身的特性和素質(zhì),如性別、身高、駕照、所擁有的技能等,還有他所期望的職位以及福利。與此同時(shí),企業(yè)也有豐富的基礎(chǔ)信息,例如所處行業(yè)、規(guī)模、地理位置,并且它會(huì)發(fā)布一系列待招聘的職位。職位作為中間實(shí)體將BC兩端連接,它也有很多基本屬性,比如職位所需技能和崗位能提供給求職者的收益等。職位之間還有上下位關(guān)系,例如“司機(jī)”囊括了“客運(yùn)司機(jī)”、“貨運(yùn)司機(jī)”等。從全貌圖可以看到,求職者、企業(yè)、職位是知識(shí)圖譜中最重要的三大節(jié)點(diǎn),知識(shí)圖譜圍繞它們生成了大量節(jié)點(diǎn)屬性以及節(jié)點(diǎn)之間的關(guān)系。 基于上述特點(diǎn),我們將構(gòu)建知識(shí)圖譜分成三大任務(wù):標(biāo)簽體系的構(gòu)建、標(biāo)簽的挖掘和關(guān)系構(gòu)建。 1. 標(biāo)簽體系的構(gòu)建 現(xiàn)在介紹一下標(biāo)簽體系的構(gòu)建。在構(gòu)建之前,我們需要弄明白標(biāo)簽體系的作用與定位。在58招聘中,標(biāo)簽體系作為底層的基礎(chǔ)數(shù)據(jù),要為上層的雙邊連接提供更多層次更多維度的信息匹配?;谶@一定位,我們要求標(biāo)簽體系滿(mǎn)足以下兩方面:
上圖展示了我們標(biāo)簽體系的兩個(gè)案例。左圖是職位信息,右圖是簡(jiǎn)歷信息。我們會(huì)將這些信息做層次化的歸納,結(jié)合BC兩端的訴求,最終形成我們的標(biāo)簽體系。 舉個(gè)例子,職位體系不僅僅包含崗位名稱(chēng),還包含了行業(yè)、場(chǎng)所、企業(yè)等,經(jīng)驗(yàn)包含了工作年限、技能、證書(shū)等多維度信息。歸納之后的信息構(gòu)成了一系列層次化信息,如“銷(xiāo)售”這一職位,它可以進(jìn)一步分為“汽車(chē)銷(xiāo)售”、“醫(yī)藥銷(xiāo)售”、“房產(chǎn)銷(xiāo)售”等,而“房產(chǎn)銷(xiāo)售”之下還包含了“一手房銷(xiāo)售”、“二手房銷(xiāo)售”、“文案地產(chǎn)銷(xiāo)售”等。 2. 標(biāo)簽挖掘 構(gòu)建了標(biāo)簽體系之后,接下來(lái)就進(jìn)入標(biāo)簽挖掘模塊。在探索過(guò)程中,我們遇到最大的兩個(gè)挑戰(zhàn)是認(rèn)知不統(tǒng)一和專(zhuān)業(yè)性強(qiáng),導(dǎo)致標(biāo)注成本很高。例如,“中醫(yī)針灸推拿師”的職位標(biāo)簽可能是“推拿師”或者“針灸推拿師”,亦或是“中醫(yī)針灸推拿師”,這一例子展示了認(rèn)知不統(tǒng)一帶來(lái)的標(biāo)注混淆。專(zhuān)業(yè)性強(qiáng)的典型例子是“五險(xiǎn)一金DBA”,“DBA”在計(jì)算機(jī)專(zhuān)業(yè)領(lǐng)域人員來(lái)說(shuō)很容易知道是“數(shù)據(jù)庫(kù)管理員”這一職位,但是大多數(shù)其他領(lǐng)域的人,對(duì)它的認(rèn)知僅僅是一個(gè)字符串。 為了更高質(zhì)量地進(jìn)行標(biāo)簽挖掘,我們采用了數(shù)據(jù)增廣的方法,它可以被分成三大類(lèi):bootstrap, EDA和DAGA。
實(shí)驗(yàn)結(jié)果表明,我們的樣本量在數(shù)據(jù)增廣操作后翻了約三倍,標(biāo)簽量增加了近五倍。而且,在標(biāo)注樣本數(shù)量不大的情況下,我們使用這三種數(shù)據(jù)增廣的方法對(duì)模型線上效果提升非常顯著。 有了數(shù)據(jù)之后,接下來(lái)就是標(biāo)簽挖掘模塊。其實(shí)每一家企業(yè)的標(biāo)簽挖掘技術(shù)相差并不會(huì)很大,通常僅僅會(huì)根據(jù)自己所處領(lǐng)域的特性對(duì)模型進(jìn)行優(yōu)化。我們的模型由輸入層+深度學(xué)習(xí)模型層+CRF組成,輸出最終的標(biāo)簽。 根據(jù)58所處領(lǐng)域的特點(diǎn),我們?cè)谳斎雽舆M(jìn)行了知識(shí)信息的融合。具體地,我們加入了position embedding和topic embedding,其中,position embedding考慮了不同的數(shù)據(jù)塊有不同的標(biāo)簽偏好,如年齡大概率會(huì)出現(xiàn)在崗位要求中。Topic embedding考慮到每個(gè)職位都有一個(gè)層次體系,其對(duì)應(yīng)了一個(gè)topic。這些外部信息可以有效地融入模型中,提高標(biāo)簽挖掘的準(zhǔn)召率。 我們也一直在探索標(biāo)簽抽取模型的優(yōu)化,上圖就是我們目前主要應(yīng)用的模型。其中深度學(xué)習(xí)部分我們采用了BERT,并且選取了不一樣的知識(shí)融合方式。我們對(duì)BERT中的attention模塊進(jìn)行了改造,加入了topic attention和position attention,以此來(lái)替代輸入端的知識(shí)簡(jiǎn)單拼接的操作。從左上角的可視化圖可以看出,“職責(zé)”對(duì)“崗位”、“品牌”等的關(guān)注度很高,這也符合我們的基本認(rèn)知。此外,為了保證線上的耗時(shí),我們利用公司平臺(tái),使用TensorRT加速深度學(xué)習(xí)推理,并使用知識(shí)蒸餾等方法在算法層面進(jìn)行優(yōu)化。 3. 關(guān)系抽取 下面介紹關(guān)系抽取相關(guān)工作。以上圖的例子來(lái)說(shuō),“送餐員”與“美團(tuán)”之間是“品牌”的關(guān)系,“送餐員”和“五險(xiǎn)一金”是“保險(xiǎn)”的關(guān)系,“送餐員”和“提供住宿”是“吃住”的關(guān)系。 在關(guān)系抽取的研究中,我們采用了兩條技術(shù)路線:pipeline路線和joint路線。其中,pipeline路線將實(shí)體抽取與關(guān)系抽取分為兩個(gè)獨(dú)立的過(guò)程,關(guān)系抽取依賴(lài)于實(shí)體抽取的結(jié)果。我們的模型采用了lstm+attention,輸出層使用softmax+l2,最終得到實(shí)體關(guān)系。我們?cè)陉P(guān)系抽取輸入層引入了領(lǐng)域先驗(yàn)知識(shí),不同于傳統(tǒng)的輸入由token embedding與position embedding組成,我們還加入了實(shí)體所述域以及層級(jí)關(guān)系信息。 但是,pipeline路線存在天然的兩個(gè)缺點(diǎn)。
基于上述思想,我們探索出了joint路線。具體地,我們采用識(shí)別“SPO”的方式,即利用指針網(wǎng)絡(luò)先識(shí)別“s”實(shí)體,然后再去識(shí)別對(duì)應(yīng)的“p”和“o”,緩解重疊情況帶來(lái)的問(wèn)題。我們的模型主框架是CNN+Attention,借鑒了seq2seq的概率圖思路,對(duì)于三元組(s,o,p)建模為:想抽取“s”實(shí)體,再在已知“s”的條件下抽取“o”,最后在知道“s”和“o”的條件下抽取“p”。這一方法采用了MRC中常用的指針網(wǎng)絡(luò)的抽取方法,即僅抽取答案的開(kāi)始和結(jié)束位置,而不是預(yù)測(cè)詞的類(lèi)別。另外,這一方法把預(yù)測(cè)開(kāi)始和結(jié)束位置的任務(wù)轉(zhuǎn)化為了預(yù)測(cè)每一個(gè)位置是否為開(kāi)始位置或結(jié)束位置,從多分類(lèi)任務(wù)轉(zhuǎn)變?yōu)槎鄠€(gè)二分類(lèi)任務(wù)。通過(guò)joint路線,我們有效地緩解了重疊情況帶來(lái)的問(wèn)題。 pipeline路線與joint路線各有優(yōu)缺點(diǎn)。Pipeline路線的優(yōu)點(diǎn)是簡(jiǎn)單,但是它會(huì)累積實(shí)體識(shí)別部分的誤差,且不能處理復(fù)雜語(yǔ)境下的關(guān)系抽取。Joint路線的優(yōu)點(diǎn)是解決了pipeline路線誤差累積以及復(fù)雜語(yǔ)境關(guān)系抽取的問(wèn)題,但是它的模型復(fù)雜,預(yù)測(cè)耗時(shí)長(zhǎng),需要我們后續(xù)進(jìn)行如知識(shí)蒸餾等算法上的優(yōu)化。從測(cè)試中的F1值來(lái)看,joint路線的得分高于pipeline路線約兩個(gè)點(diǎn)。在工業(yè)實(shí)際落地時(shí),我們需要判斷自己的領(lǐng)域是否包含復(fù)雜關(guān)系語(yǔ)境下的關(guān)系抽取,若沒(méi)有復(fù)雜關(guān)系則完全可以使用pipeline路線。58招聘落地時(shí)采用的模型是joint路線的。 -- 03 圖譜在推薦中的應(yīng)用 下面我選取推薦中幾個(gè)常見(jiàn)的場(chǎng)景來(lái)展示圖譜在推薦中的應(yīng)用。
58經(jīng)常遇到針對(duì)用戶(hù)不同的求職偏好、人才偏好的場(chǎng)景。為了提升雙邊匹配的效率,我們可以利用知識(shí)圖譜靈活地組織,滿(mǎn)足該用戶(hù)的流量。對(duì)于招聘高峰期,我們還可以以個(gè)性化的專(zhuān)題去組織流量。例如,我們可以組織“老鄉(xiāng)”專(zhuān)題,或者在某些節(jié)日上組織與節(jié)日相關(guān)的專(zhuān)題。 傳統(tǒng)的推薦模式下是以單個(gè)標(biāo)簽或者割裂式多標(biāo)簽堆疊的方式組織流量。相對(duì)地,使用基于知識(shí)圖譜的推薦模式就從關(guān)系的角度串聯(lián)標(biāo)簽、組織流量,擁有多維度、精準(zhǔn)、可解釋性高的優(yōu)點(diǎn)。比如,我們可以根據(jù)用戶(hù)對(duì)場(chǎng)所、對(duì)企業(yè)的偏好來(lái)推薦對(duì)應(yīng)企業(yè)的職位。又如對(duì)于一個(gè)職位如“送餐外賣(mài)員”,多維度匹配會(huì)考慮如“高收入”、“時(shí)間自由”等標(biāo)簽,通過(guò)簡(jiǎn)歷庫(kù)與職位庫(kù)的個(gè)性化標(biāo)簽匹配,使得推薦時(shí)更精準(zhǔn)地組織流量?;谥R(shí)圖譜的招聘流量組織在上線后占總流量的15%左右,對(duì)CVR的提升約4%,面邀率上升了2.5%。
求職者、平臺(tái)和招聘方不可能永遠(yuǎn)保持平衡。這是因?yàn)榍舐毿袨槭且粋€(gè)短時(shí)間連續(xù)行為,滿(mǎn)足之后便不復(fù)存在;此外,B端職位是有限的資源,尤其是特定領(lǐng)域的崗位更為搶手;對(duì)于特定領(lǐng)域的人才,求職者也是一個(gè)十分有限的資源。 面對(duì)供求關(guān)系不平衡的情況,傳統(tǒng)的推薦方式會(huì)基于熱門(mén)的職位、簡(jiǎn)歷做補(bǔ)充?;谥R(shí)圖譜的推薦會(huì)利用圖計(jì)算技術(shù)與圖譜中屬性相關(guān)的實(shí)體,發(fā)現(xiàn)一些相似、相關(guān)的職位。此外,它還可以利用用戶(hù)的背景職位關(guān)系、行為序列關(guān)系發(fā)現(xiàn)一些同背景的職位。在58招聘推薦中,利用知識(shí)圖譜進(jìn)行推薦的方法覆蓋了75%的供求不匹配的流量,日新增點(diǎn)擊達(dá)到了超過(guò)2000的提升,雙邊連接效率上升了約1.6%。
比如一個(gè)用戶(hù)點(diǎn)擊了“保安”這一職位,若用戶(hù)下刷了很久都沒(méi)有找到合適的崗位,那么我們就通過(guò)知識(shí)圖譜推薦一些相似職位或者進(jìn)行相關(guān)標(biāo)簽的引導(dǎo),讓用戶(hù)更加明確自己的意圖。例如用戶(hù)在第一次引導(dǎo)以后點(diǎn)擊了“商場(chǎng)保安”,那么我們會(huì)為他推薦“商場(chǎng)保安”這一專(zhuān)題的職位,同時(shí)更精細(xì)化地為他進(jìn)行標(biāo)簽引導(dǎo)。值得注意的是,后續(xù)的標(biāo)簽引導(dǎo)不能與前期的標(biāo)簽有重合,而應(yīng)從職位的另外一些角度進(jìn)行標(biāo)簽推薦。通過(guò)這一過(guò)程,用戶(hù)逐漸從各個(gè)維度明確自己的意圖。經(jīng)過(guò)實(shí)驗(yàn),智能標(biāo)簽的引導(dǎo)為后續(xù)的雙邊連接率的提升非常明顯,達(dá)到了5%。
在搜索場(chǎng)景下,多元化、口語(yǔ)化的訴求表達(dá)較多,例如“外貿(mào)”、“網(wǎng)約車(chē)”、“寶媽工作”、“沒(méi)學(xué)歷送外賣(mài)”等。對(duì)于“寶媽工作”,我們會(huì)利用知識(shí)圖譜對(duì)query進(jìn)行分析,形成圖譜中標(biāo)準(zhǔn)的知識(shí)節(jié)點(diǎn),如“女性”、“時(shí)間自由”、“雙休”等,最后基于這些知識(shí)對(duì)用戶(hù)生成推薦。此外,我們還會(huì)將解析出的知識(shí)加入創(chuàng)意標(biāo)題。Query檢索承載了平臺(tái)約一半的流量,知識(shí)圖譜輔助的認(rèn)知推薦占比達(dá)到1/5,后續(xù)的雙邊連接率相對(duì)提升了約2.5%。 -- 04 未來(lái)展望 首先,58招聘的未來(lái)核心目標(biāo)是持續(xù)沉淀招聘領(lǐng)域的知識(shí),將知識(shí)圖譜打造得更完善。另外,由于疫情的關(guān)系,招聘這一垂直領(lǐng)域的產(chǎn)業(yè)格局發(fā)生了很大的變化。 所以,我們需要繼續(xù)優(yōu)化知識(shí)圖譜的工程能力,更靈活地適應(yīng)業(yè)務(wù)的變化。對(duì)于知識(shí)圖譜在業(yè)務(wù)中的應(yīng)用,后續(xù)我們會(huì)賦能平臺(tái)生態(tài)建設(shè),依靠知識(shí)圖譜促進(jìn)建立和職位發(fā)布的智能化,提升BC兩端的工作效率,提高其發(fā)布的信息質(zhì)量。另外,我們會(huì)針對(duì)結(jié)合知識(shí)圖譜的個(gè)性化推薦進(jìn)行持續(xù)優(yōu)化和模式迭代。最后,我們希望基于知識(shí)圖譜的生態(tài)平臺(tái),賦能更多業(yè)務(wù)應(yīng)用,如智能面試、QA、信質(zhì)等。 -- 05 Q&A Q:求職者與企業(yè)的特征是如何與職業(yè)標(biāo)簽體系結(jié)合的? A:求職者與企業(yè)對(duì)一個(gè)職位的表述角度不同。在構(gòu)建標(biāo)簽體系時(shí),我們會(huì)使用統(tǒng)一的標(biāo)準(zhǔn)。那么求職者對(duì)職位描述的特征與企業(yè)對(duì)職位描述的特征都會(huì)被映射到標(biāo)準(zhǔn)空間中,那么此時(shí)三者就可以在同一空間下進(jìn)行建模,實(shí)現(xiàn)通過(guò)職位標(biāo)簽打通BC兩端的目的。 Q:特征的映射是人工實(shí)現(xiàn)的還是機(jī)器實(shí)現(xiàn)的? A:映射是由人工與機(jī)器共同實(shí)現(xiàn)的。前期由于缺乏數(shù)據(jù)與標(biāo)簽基礎(chǔ),我們需要借助專(zhuān)家知識(shí)來(lái)人工進(jìn)行映射。在標(biāo)簽體系建設(shè)至一定的完備度時(shí),我們會(huì)使用機(jī)器學(xué)習(xí)算法輔助人工,提高效率。 今天的分享就到這里,謝謝大家。 |
|
來(lái)自: 獨(dú)角戲jlahw6jw > 《職場(chǎng)》