小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

今日頭條是如何做個(gè)性化推薦的?

 方之圓 2017-05-11

  作者:天善智能社區(qū)用戶(hù) 宿痕(支付寶張斌,又名面包君,數(shù)據(jù)俠)

  今日頭條作為一種新型的新聞閱讀方式,已經(jīng)將傳統(tǒng)的新浪、騰訊、網(wǎng)易、搜狐這些新聞媒體以一種大數(shù)據(jù)+新聞內(nèi)容的方式呈現(xiàn)給用戶(hù)。上線(xiàn)沒(méi)幾年,用戶(hù)量已經(jīng)發(fā)展到3億累計(jì)用戶(hù),日活奔著3000萬(wàn)去。看到這樣的數(shù)據(jù),小編還是比較震撼。這幾乎是目前APP Top10的水平,所以有必要對(duì)今日頭條好好研究下。

  

  個(gè)性化推薦大概思路簡(jiǎn)單來(lái)看下今日頭條這類(lèi)的個(gè)性化推薦要實(shí)現(xiàn)大概是什么樣的流程:

 ?。?)今日頭條服務(wù)器1000臺(tái)左右,通過(guò)代碼實(shí)現(xiàn)的爬蟲(chóng)功能,在其他傳媒的網(wǎng)站和門(mén)戶(hù)上抓取各種信息。如果在網(wǎng)站上抓取到紙媒的內(nèi)容,優(yōu)先從紙媒門(mén)戶(hù)上抓取信息

 ?。?)抓取信息后,對(duì)有價(jià)值的信息通過(guò)算法進(jìn)行分析歸類(lèi)。

 ?。?)推送到有感興趣的今日頭條客戶(hù)端。

 ?。?)用戶(hù)注冊(cè)或登錄(新浪微博、QQ、人人網(wǎng))時(shí),通過(guò)數(shù)據(jù)挖掘分析,對(duì)用戶(hù)進(jìn)行分析,推薦感興趣的信息。

 ?。?)推送后,根據(jù)用戶(hù)的體驗(yàn)(閱讀時(shí)間、評(píng)論)判斷信息是否符合客戶(hù)需求,再進(jìn)一步調(diào)整推送信息內(nèi)容。

 ?。?)敏感信息審查。

 ?。?)網(wǎng)頁(yè)轉(zhuǎn)碼,手機(jī)信息打開(kāi)紙媒或網(wǎng)站信息,因附帶有大量廣告或樣式信息,下載速度很慢,影響用戶(hù)體驗(yàn),轉(zhuǎn)碼后保留內(nèi)容資源,格式更適合閱讀。

  而我們?cè)趯?shí)際使用產(chǎn)品的過(guò)程中:

  1. 可以訂閱自己關(guān)注的頻道;

  2. 可以給自己不感興趣的內(nèi)容打上標(biāo)簽;

  3. 內(nèi)容有些少,推來(lái)推去還是那些;

  4. 泛閱讀,推薦的新聞都是即時(shí)性很高,閱后即焚,沒(méi)有太多的精選文章;

  5. 評(píng)論沒(méi)有高質(zhì)量的用戶(hù),都是比較短淺的評(píng)論;

  6. 熱點(diǎn)文章排序還有待提升。

  在今日頭條技術(shù)實(shí)現(xiàn)層面,重點(diǎn)包含兩個(gè)環(huán)節(jié):網(wǎng)絡(luò)爬蟲(chóng),算法推薦。

  網(wǎng)絡(luò)爬蟲(chóng)以今日頭條為例說(shuō)明一下網(wǎng)絡(luò)爬蟲(chóng)在新聞抓取中的工作流程:

  STEP 1:工作人員先要在后臺(tái)設(shè)置新聞來(lái)源的字典,比如“網(wǎng)易新聞”、“新浪新聞”、“鳳凰新聞”、“浙江新聞”等等;

  STEP 2:通過(guò)這些字典,網(wǎng)絡(luò)爬蟲(chóng)將會(huì)鎖定到這些網(wǎng)站的超鏈接,從中抓取新聞。

  補(bǔ)充說(shuō)明:

  如果這條新聞是在這些新聞平臺(tái)相關(guān)的博客當(dāng)中的內(nèi)容,而不是新聞平臺(tái)本身的新聞,網(wǎng)絡(luò)爬蟲(chóng)就抓不到了。

  聚合媒體的概念并非如此簡(jiǎn)單,除了匯聚來(lái)自不同媒體的內(nèi)容之外,聚合媒體更重要的特征是對(duì)不同信息進(jìn)行分類(lèi)并排序,得到一個(gè)信息匯總界面(aggregator),這種信息匯總往往表現(xiàn)為某種排行榜。這種排行榜在傳播機(jī)制上滿(mǎn)足網(wǎng)絡(luò)科學(xué)中所說(shuō)的“優(yōu)先鏈接機(jī)制”,即用戶(hù)的注意力更傾向于投向那些排名靠前的信息,這個(gè)過(guò)程可以被經(jīng)典的傳播學(xué)發(fā)現(xiàn):“樂(lè)隊(duì)花車(chē)效應(yīng)”。這個(gè)發(fā)現(xiàn)起源于美國(guó)的選舉過(guò)程。候選人會(huì)站在樂(lè)隊(duì)花車(chē)上拉選票,贊同者會(huì)站到他的車(chē)上。研究發(fā)現(xiàn),人們傾向于登上那些站滿(mǎn)了人的花車(chē),而非那些只有很少人的花車(chē)。

  算法推薦

  據(jù)了解,今日頭條在實(shí)現(xiàn)個(gè)性化推薦上,重點(diǎn)引入了幾個(gè)機(jī)制:算法排序+人工運(yùn)營(yíng),還有重點(diǎn)介紹的A/B test+投票機(jī)制。

  今日頭條的用戶(hù)登錄非常人性化。作為一個(gè)后起之秀,今日頭條非常具有策略性地允許用戶(hù)使用微博、QQ等社交賬號(hào)登錄。這個(gè)過(guò)程實(shí)際上授權(quán)今日頭條挖掘個(gè)人社交網(wǎng)絡(luò)的基本信息。因而,便于獲取用戶(hù)的個(gè)性化信息,比如用戶(hù)的興趣、用戶(hù)屬性。越用越懂用戶(hù),從而進(jìn)行精準(zhǔn)的閱讀內(nèi)容推薦。

  個(gè)性化推薦的基礎(chǔ)是構(gòu)建推薦系統(tǒng)推薦系統(tǒng)廣泛地應(yīng)用于用戶(hù)沒(méi)有明確需求的場(chǎng)景。推薦系統(tǒng)就算法而言,可以分為:

  社會(huì)化推薦(Social recommendation, 比如向朋友咨詢(xún));

  基于內(nèi)容的推薦(content-based filtering, 例如根據(jù)用戶(hù)觀看過(guò)的電影推薦其他與之相似的電影);

  基于協(xié)同過(guò)濾的推薦(collaborative filtering,例如查看排行榜,或者找到和自己興趣相似的用戶(hù),看看他們最近看什么電影)。

  所以,可以用于構(gòu)建推薦系統(tǒng)的信息也分為三類(lèi):好友、歷史興趣、注冊(cè)信息。

  推薦系統(tǒng)就是可以關(guān)聯(lián)用戶(hù)和物品的一種自動(dòng)化工具。除了這些信息之外,時(shí)間、地點(diǎn)等信息均可加入到推薦系統(tǒng)的構(gòu)建中來(lái)?,F(xiàn)在,推薦系統(tǒng)已經(jīng)廣泛地應(yīng)用于新聞推薦、圖書(shū)推薦、音樂(lè)推薦、電影推薦、朋友推薦等領(lǐng)域,作為人工智能的一種形式,極大地方便了人們的生活和交往。

  推薦系統(tǒng)算法的基礎(chǔ)就是要構(gòu)造相似性矩陣

  這種相似性矩陣可以是物與物的相似性,例如書(shū)籍之間的相似性、音樂(lè)之間的相似性。以下以基于物品的協(xié)同過(guò)濾算法(item-based collaborative filtering, ItemCF)為例?;谖锲返膮f(xié)同過(guò)濾算法可以利用用戶(hù)的歷史行為,因而可以使得推薦結(jié)果具有很強(qiáng)解釋性。比如,可以給喜歡讀足球新聞的用戶(hù)推薦其它相似的新聞。基于物品的協(xié)同過(guò)濾算法主要分為兩步:

  STEP 1:計(jì)算物品之間的相似度。

  STEP 2: 根據(jù)用戶(hù)的歷史行為生成用戶(hù)的推薦列表。

  假設(shè)有四個(gè)用戶(hù):

  用戶(hù)1在今日頭條的瀏覽記錄是[a、b、d],

  用戶(hù)2的瀏覽記錄是[b、c],

  用戶(hù)3的瀏覽記錄是[c、d],

  用戶(hù)4的瀏覽記錄是[b、c、d];

  可將這四個(gè)人的瀏覽行為表達(dá)為以下四個(gè)物品矩陣:

  

  將個(gè)體用戶(hù)的物品矩陣相加,可以匯總為所有的新聞矩陣M,M[i][j]表示新聞i和新聞j被多個(gè)人同時(shí)閱讀的次數(shù)。如下所示:

  

  矩陣邏輯

  如果兩個(gè)新聞被多個(gè)人同時(shí)瀏覽,那么可以說(shuō)它們之間的相似度更高。

  將以上矩陣歸一化就可以對(duì)矩陣進(jìn)行操作并計(jì)算新聞之間的相似度,比如相關(guān)相似度或者余弦相似度。

  基于物品間的相似性度,如果有一個(gè)新用戶(hù)進(jìn)入系統(tǒng),并且他閱讀了新聞c,那么ItemCF算法可以很快給出與新聞c相似度最高的新聞(b和d),并推薦給這個(gè)新用戶(hù)。

  在推薦過(guò)程中,推薦系統(tǒng)可以根據(jù)用戶(hù)的行為不斷優(yōu)化相似矩陣,使得推薦越來(lái)越準(zhǔn)確。

  或者,如果用戶(hù)可以手動(dòng)對(duì)每個(gè)新聞的興趣(如喜歡或討厭)標(biāo)出,就可以使得推薦更準(zhǔn)確。

  本質(zhì)上來(lái)說(shuō),上面兩個(gè)圖是熱點(diǎn)新聞、以及個(gè)人定制新聞的基礎(chǔ)原理。它分為兩步完成:

  STEP 1:先找出新聞之間的熱點(diǎn)與相似度

  STEP 2:將熱點(diǎn)與相似度高的新聞推送給用戶(hù)。

  舉個(gè)栗子——

  假設(shè)在抗戰(zhàn)勝利70周年當(dāng)天,有4個(gè)人同時(shí)瀏覽今日頭條的新聞,

  A是女讀者,她點(diǎn)擊了秋季糖水制作方法、育兒應(yīng)注意的五個(gè)事項(xiàng)、閱兵式、新型武器等新聞,

  B是中年上班族,他點(diǎn)擊了閱兵式、中國(guó)最新兵器譜等新聞,

  C是一位年長(zhǎng)者,他點(diǎn)擊了養(yǎng)生、閱兵式、新型武器等新聞,

  D是一位剛畢業(yè)的男大學(xué)生,他點(diǎn)擊了英雄聯(lián)盟攻略、好萊塢旅行攻略、閱兵式、新型武器等新聞。

  熱點(diǎn)和相似度的產(chǎn)生過(guò)程:

  STEP 1:這四個(gè)人同時(shí)點(diǎn)擊閱兵式和新型武器,系統(tǒng)算法就會(huì)通過(guò)點(diǎn)擊和停留的時(shí)間計(jì)算出閱兵式和新型武器是當(dāng)天的熱點(diǎn)。

  STEP 2:閱兵式和新型武器同時(shí)被多人點(diǎn)擊,代表他們之間具有相似性。

  STEP 3:當(dāng)新進(jìn)用戶(hù)點(diǎn)擊新聞時(shí),今日頭條會(huì)以最快速度分析他點(diǎn)擊的內(nèi)容,并在已經(jīng)排查出的熱點(diǎn)新聞當(dāng)中尋找他所感興趣的相關(guān)內(nèi)容匹配給他,引導(dǎo)他閱讀熱點(diǎn)。

  這一系列的行為都由計(jì)算機(jī)自動(dòng)完成。

  今日頭條的個(gè)性推薦算法公式

  推薦最難的不是劃分人群,也不是判斷用戶(hù)人群歸屬,更不是文章屬性判斷,一個(gè)人可以屬于多個(gè)人群,也有多個(gè)文章候選,選哪個(gè)推薦才是最難的。而今日頭條的推薦內(nèi)容是怎么算出來(lái)的呢?

  

  通過(guò)上圖的計(jì)算公式:W1*候選1的投票率+W2*候選2的投票率+W3候選3的投票率+……=最高分,最后能計(jì)算出一個(gè)得分,按得分的高低來(lái)排序,就可以得到推薦文章的一個(gè)侯選,這個(gè)過(guò)程實(shí)際上是一個(gè)比較簡(jiǎn)單的算法,而這在今日頭條內(nèi)部叫邏輯回歸。

  機(jī)制的缺陷

  上面的例子說(shuō)明了定制新聞以泛熱點(diǎn)新聞為基礎(chǔ)數(shù)據(jù)來(lái)完成的事實(shí),這就出現(xiàn)一個(gè)問(wèn)題,即當(dāng)一個(gè)人關(guān)注的新聞不是熱點(diǎn)時(shí),系統(tǒng)得不到相關(guān)的熱點(diǎn),就會(huì)在該新聞當(dāng)中尋找其他信息進(jìn)行再匹配,這樣匹配出的新聞在現(xiàn)有信息的基礎(chǔ)上最大程度吻合了用戶(hù)的興趣,但未必會(huì)推送當(dāng)天最熱點(diǎn)的新聞。

  要想達(dá)到這種長(zhǎng)尾理論所設(shè)想的定制服務(wù),關(guān)鍵是對(duì)新聞的細(xì)分。只有將不同主題細(xì)分成各種子主題,再細(xì)分下設(shè)內(nèi)容,才能達(dá)到真正的私人定制。要做到這一點(diǎn),實(shí)際已經(jīng)脫離了機(jī)械,而在于人對(duì)于事物性質(zhì)的認(rèn)知與把握。正如法國(guó)社會(huì)學(xué)家福柯在《知識(shí)考古學(xué)》當(dāng)中的觀點(diǎn),分類(lèi),是一事物區(qū)別于其他事物的根本。而分類(lèi),歸根結(jié)底是人的主觀能動(dòng)性的體現(xiàn);當(dāng)系統(tǒng)中累計(jì)的用戶(hù)行為越 多,這種分類(lèi)越準(zhǔn)確,自動(dòng)化的私人定制也會(huì)越貼近用戶(hù)需求。

  A/B測(cè)試、雙盲交叉驗(yàn)證

  

  

  

  怎么做A/B測(cè)試,第一步線(xiàn)上流量進(jìn)行分流,正常用戶(hù)還是走正常的流量,一部分流量我們要保證樣本無(wú)偏(不要樣本全是女的或者全是90后),通過(guò)科學(xué)方法去劃分出一些流量做實(shí)驗(yàn),還要進(jìn)行分組,分出對(duì)照組和實(shí)踐組,對(duì)照組和線(xiàn)上的策略完全一樣,實(shí)驗(yàn)組我們做一些小小的改變。

  比如頭條網(wǎng)頁(yè)版的首頁(yè),新版加了一個(gè)鏈接,老版加了一個(gè)任務(wù)評(píng)論。我們看哪個(gè)好呢?通過(guò)A/B測(cè)試的方式,一部分人看到新版的結(jié)果,一部分是老版效果。事后統(tǒng)計(jì)分析,看到底哪個(gè)版本效果好。

  

  

  

  還有在驗(yàn)證過(guò)程介入雙盲交叉驗(yàn)證。它是說(shuō)在評(píng)估一項(xiàng)數(shù)據(jù)的時(shí)候,我可以把一部分樣本抽樣,讓其他人再評(píng)估一下。根據(jù)抽樣數(shù)據(jù)評(píng)估的一致性來(lái)判斷該評(píng)估的可靠性怎么樣,比如你審一些黃色反動(dòng)的文章,機(jī)器做得再好,必須有人來(lái)把關(guān)。

  這個(gè)事本身判斷特別復(fù)雜,機(jī)器也不能做好,我們要保證評(píng)估的有效性,要引入爭(zhēng)議復(fù)評(píng)機(jī)制。

  

  人工運(yùn)營(yíng)

  在頭條剛才提到有些業(yè)務(wù)需要人工的評(píng)估。因?yàn)槟阄恼氯绻诸?lèi)分不準(zhǔn)的話(huà),可能就會(huì)影響你的推薦。有很多東西要人去審的,審核和評(píng)估都有一個(gè)問(wèn)題,什么問(wèn)題呢?它依賴(lài)人。

  大家印象中人比機(jī)器靠譜的,從大的面上來(lái)說(shuō),機(jī)器比人更靠譜,機(jī)器不求回報(bào)。在互聯(lián)網(wǎng)公司,審核和評(píng)估投入這塊肯定比工程師低很多,這就造成兩個(gè)后果,第一個(gè)就是審核人員敬業(yè)或者他的能力上可能跟工程師相比,他會(huì)有一定的差距,這是客觀存在的。因?yàn)槲覀兊娜肆Τ杀疽脖容^低。

  第二個(gè)就是他的流動(dòng)性可能比較大,另外標(biāo)準(zhǔn)經(jīng)常變來(lái)變?nèi)ァN覀円欢ㄒ脵C(jī)器去監(jiān)控人的工作怎么樣,需要有一個(gè)預(yù)警。這塊我們需要引入一個(gè)雙盲的交叉驗(yàn)證,幫助我們?nèi)タ催@些運(yùn)營(yíng)同學(xué)他們工作的穩(wěn)定性怎么樣,同時(shí)去激勵(lì)不斷提升自己的判斷力,得到機(jī)器更好的評(píng)估。

  

  

  

  個(gè)性化推薦技術(shù)本身并不神秘,歸根到底推薦算法關(guān)鍵是還在于對(duì)海量用戶(hù)行為的數(shù)據(jù)分析與挖掘,也許各家算法略有不同,但最終目的都是殊途同歸,為實(shí)現(xiàn)最精準(zhǔn)的內(nèi)容推薦而努力中。

  本文出自天善智能社區(qū) 宿痕,轉(zhuǎn)載必須完整保留此段信息。

  原作者@ 杭州平面設(shè)計(jì)培訓(xùn)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多