小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密

 KILLKISS 2017-12-04

隨著 Web 技術(shù)的發(fā)展,使得內(nèi)容的創(chuàng)建和分享變得越來越容易。每天都有大量的圖片、博客、視頻發(fā)布到網(wǎng)上。信息的極度爆炸使得人們找到他們需要的信息將變得越來越 難。傳統(tǒng)的搜索技術(shù)是一個(gè)相對(duì)簡(jiǎn)單的幫助人們找到信息的工具,也廣泛的被人們所使用,但搜索引擎并不能完全滿足用戶對(duì)信息發(fā)現(xiàn)的需求,原因一是用戶很難用 恰當(dāng)?shù)年P(guān)鍵詞描述自己的需求,二是基于關(guān)鍵詞的信息檢索在很多情況下是不夠的。而推薦引擎的出現(xiàn),使用戶獲取信息的方式從簡(jiǎn)單的目標(biāo)明確的數(shù)據(jù)的搜索轉(zhuǎn)換 到更高級(jí)更符合人們使用習(xí)慣的上下文信息更豐富的信息發(fā)現(xiàn)。

信息發(fā)現(xiàn)

如今已經(jīng)進(jìn)入了一個(gè)數(shù)據(jù)爆炸的時(shí)代,隨著 Web 2.0 的發(fā)展, Web 已經(jīng)變成數(shù)據(jù)分享的平臺(tái),那么,如何讓人們?cè)诤A康臄?shù)據(jù)中想要找到他們需要的信息將變得越來越難。

在這樣的情形下,搜索引擎(Google,Bing,百度等等)成為大家快速找到目標(biāo)信息的最好途徑。在用戶對(duì)自己需求相對(duì)明確的時(shí)候,用搜索引擎 很方便的通過關(guān)鍵字搜索很快的找到自己需要的信息。但搜索引擎并不能完全滿足用戶對(duì)信息發(fā)現(xiàn)的需求,那是因?yàn)樵诤芏嗲闆r下,用戶其實(shí)并不明確自己的需要, 或者他們的需求很難用簡(jiǎn)單的關(guān)鍵字來表述。又或者他們需要更加符合他們個(gè)人口味和喜好的結(jié)果,因此出現(xiàn)了推薦系統(tǒng),與搜索引擎對(duì)應(yīng),大家也習(xí)慣稱它為推薦 引擎。

隨著推薦引擎的出現(xiàn),用戶獲取信息的方式從簡(jiǎn)單的目標(biāo)明確的數(shù)據(jù)的搜索轉(zhuǎn)換到更高級(jí)更符合人們使用習(xí)慣的信息發(fā)現(xiàn)。

如今,隨著推薦技術(shù)的不斷發(fā)展,推薦引擎已經(jīng)在電子商務(wù) (E-commerce,例如 Amazon,當(dāng)當(dāng)網(wǎng) ) 和一些基于 social 的社會(huì)化站點(diǎn) ( 包括音樂,電影和圖書分享,例如豆瓣,Mtime 等 ) 都取得很大的成功。這也進(jìn)一步的說明了,Web2.0 環(huán)境下,在面對(duì)海量的數(shù)據(jù),用戶需要這種更加智能的,更加了解他們需求,口味和喜好的信息發(fā)現(xiàn)機(jī)制。

推薦引擎

前面介紹了推薦引擎對(duì)于現(xiàn)在的 Web2.0 站點(diǎn)的重要意義,這一章我們將講講推薦引擎到底是怎么工作的。推薦引擎利用特殊的信息過濾技術(shù),將不同的物品或內(nèi)容推薦給可能對(duì)它們感興趣的用戶。

圖 1. 推薦引擎工作原理圖

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 1 給出了推薦引擎的工作原理圖,這里先將推薦引擎看作黑盒,它接受的輸入是推薦的數(shù)據(jù)源,一般情況下,推薦引擎所需要的數(shù)據(jù)源包括:

  • 要推薦物品或內(nèi)容的元數(shù)據(jù),例如關(guān)鍵字,基因描述等;
  • 系統(tǒng)用戶的基本信息,例如性別,年齡等
  • 用戶對(duì)物品或者信息的偏好,根據(jù)應(yīng)用本身的不同,可能包括用戶對(duì)物品的評(píng)分,用戶查看物品的記錄,用戶的購(gòu)買記錄等。其實(shí)這些用戶的偏好信息可以分為兩類:
  • 顯式的用戶反饋:這類是用戶在網(wǎng)站上自然瀏覽或者使用網(wǎng)站以外,顯式的提供反饋信息,例如用戶對(duì)物品的評(píng)分,或者對(duì)物品的評(píng)論。
  • 隱式的用戶反饋:這類是用戶在使用網(wǎng)站是產(chǎn)生的數(shù)據(jù),隱式的反應(yīng)了用戶對(duì)物品的喜好,例如用戶購(gòu)買了某物品,用戶查看了某物品的信息等等。

顯式的用戶反饋能準(zhǔn)確的反應(yīng)用戶對(duì)物品的真實(shí)喜好,但需要用戶付出額外的代價(jià),而隱式的用戶行為,通過一些分析和處理,也能反映用戶的喜好,只是數(shù) 據(jù)不是很精確,有些行為的分析存在較大的噪音。但只要選擇正確的行為特征,隱式的用戶反饋也能得到很好的效果,只是行為特征的選擇可能在不同的應(yīng)用中有很 大的不同,例如在電子商務(wù)的網(wǎng)站上,購(gòu)買行為其實(shí)就是一個(gè)能很好表現(xiàn)用戶喜好的隱式反饋。

推薦引擎的分類

推薦引擎的分類可以根據(jù)很多指標(biāo),下面我們一一介紹一下:

1、推薦引擎是不是為不同的用戶推薦不同的數(shù)據(jù)

根據(jù)這個(gè)指標(biāo),推薦引擎可以分為基于大眾行為的推薦引擎和個(gè)性化推薦引擎

這是一個(gè)最基本的推薦引擎分類,其實(shí)大部分人們討論的推薦引擎都是將個(gè)性化的推薦引擎,因?yàn)閺母旧险f,只有個(gè)性化的推薦引擎才是更加智能的信息發(fā)現(xiàn)過程。

  • 根據(jù)大眾行為的推薦引擎,對(duì)每個(gè)用戶都給出同樣的推薦,這些推薦可以是靜態(tài)的由系統(tǒng)管理員人工設(shè)定的,或者基于系統(tǒng)所有用戶的反饋統(tǒng)計(jì)計(jì)算出的當(dāng)下比較流行的物品。
  • 個(gè)性化推薦引擎,對(duì)不同的用戶,根據(jù)他們的口味和喜好給出更加精確的推薦,這時(shí),系統(tǒng)需要了解需推薦內(nèi)容和用戶的特質(zhì),或者基于社會(huì)化網(wǎng)絡(luò),通過找到與當(dāng)前用戶相同喜好的用戶,實(shí)現(xiàn)推薦。

根據(jù)推薦引擎的數(shù)據(jù)源

其實(shí)這里講的是如何發(fā)現(xiàn)數(shù)據(jù)的相關(guān)性,因?yàn)榇蟛糠滞扑]引擎的工作原理還是基于物品或者用戶的相似集進(jìn)行推薦。那么參考圖 1 給出的推薦系統(tǒng)原理圖,根據(jù)不同的數(shù)據(jù)源發(fā)現(xiàn)數(shù)據(jù)相關(guān)性的方法可以分為以下幾種:

  • 根據(jù)系統(tǒng)用戶的基本信息發(fā)現(xiàn)用戶的相關(guān)程度,這種被稱為基于人口統(tǒng)計(jì)學(xué)的推薦(Demographic-based Recommendation)
  • 根據(jù)推薦物品或內(nèi)容的元數(shù)據(jù),發(fā)現(xiàn)物品或者內(nèi)容的相關(guān)性,這種被稱為基于內(nèi)容的推薦(Content-based Recommendation)
  • 根據(jù)用戶對(duì)物品或者信息的偏好,發(fā)現(xiàn)物品或者內(nèi)容本身的相關(guān)性,或者是發(fā)現(xiàn)用戶的相關(guān)性,這種被稱為基于協(xié)同過濾的推薦(Collaborative Filtering-based Recommendation)。

根據(jù)推薦模型的建立方式

可以想象在海量物品和用戶的系統(tǒng)中,推薦引擎的計(jì)算量是相當(dāng)大的,要實(shí)現(xiàn)實(shí)時(shí)的推薦務(wù)必需要建立一個(gè)推薦模型,關(guān)于推薦模型的建立方式可以分為以下幾種:

  • 基于物品和用戶本身的,這種推薦引擎將每個(gè)用戶和每個(gè)物品都當(dāng)作獨(dú)立的實(shí)體,預(yù)測(cè)每個(gè)用戶對(duì)于每個(gè)物品的喜好 程度,這些信息往往是用一個(gè)二維矩陣描述的。由于用戶感興趣的物品遠(yuǎn)遠(yuǎn)小于總物品的數(shù)目,這樣的模型導(dǎo)致大量的數(shù)據(jù)空置,即我們得到的二維矩陣往往是一個(gè) 很大的稀疏矩陣。同時(shí)為了減小計(jì)算量,我們可以對(duì)物品和用戶進(jìn)行聚類, 然后記錄和計(jì)算一類用戶對(duì)一類物品的喜好程度,但這樣的模型又會(huì)在推薦的準(zhǔn)確性上有損失。
  • 基于關(guān)聯(lián)規(guī)則的推薦(Rule-based Recommendation):關(guān)聯(lián)規(guī)則的挖掘已經(jīng)是數(shù)據(jù)挖掘 中的一個(gè)經(jīng)典的問題,主要是挖掘一些數(shù)據(jù)的依賴關(guān)系,典型的場(chǎng)景就是“購(gòu)物籃問題”,通過關(guān)聯(lián)規(guī)則的挖掘,我們可以找到哪些物品經(jīng)常被同時(shí)購(gòu)買,或者用戶 購(gòu)買了一些物品后通常會(huì)購(gòu)買哪些其他的物品,當(dāng)我們挖掘出這些關(guān)聯(lián)規(guī)則之后,我們可以基于這些規(guī)則給用戶進(jìn)行推薦。
  • 基于模型的推薦(Model-based Recommendation):這是一個(gè)典型的機(jī)器學(xué)習(xí)的問題,可以將已有的用戶喜好信息作為訓(xùn)練樣本,訓(xùn)練出一個(gè)預(yù)測(cè)用戶喜好的模型,這樣以后用戶在進(jìn)入系統(tǒng),可以基于此模型計(jì)算推薦。這種方法的問題在于如何將用戶實(shí)時(shí)或者近期的喜好信息反饋給訓(xùn)練好的模型,從而提高推薦的準(zhǔn)確度。

其實(shí)在現(xiàn)在的推薦系統(tǒng)中,很少有只使用了一個(gè)推薦策略的推薦引擎,一般都是在不同的場(chǎng)景下使用不同的推薦策略從而達(dá)到最好的推薦效果,例如 Amazon 的推薦,它將基于用戶本身歷史購(gòu)買數(shù)據(jù)的推薦,和基于用戶當(dāng)前瀏覽的物品的推薦,以及基于大眾喜好的當(dāng)下比較流行的物品都在不同的區(qū)域推薦給用戶,讓用戶 可以從全方位的推薦中找到自己真正感興趣的物品。

深入推薦機(jī)制

這一章的篇幅,將詳細(xì)介紹各個(gè)推薦機(jī)制的工作原理,它們的優(yōu)缺點(diǎn)以及應(yīng)用場(chǎng)景。

基于人口統(tǒng)計(jì)學(xué)的推薦

基于人口統(tǒng)計(jì)學(xué)的推薦機(jī)制(Demographic-based Recommendation)是一種最易于實(shí)現(xiàn)的推薦方法,它只是簡(jiǎn)單的根據(jù)系統(tǒng)用戶的基本信息發(fā)現(xiàn)用戶的相關(guān)程度,然后將相似用戶喜愛的其他物品推薦給當(dāng)前用戶,圖 2 給出了這種推薦的工作原理。

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 2. 基于人口統(tǒng)計(jì)學(xué)的推薦機(jī)制的工作原理

從圖中可以很清楚的看到,首先,系統(tǒng)對(duì)每個(gè)用戶都有一個(gè)用戶 Profile 的建模,其中包括用戶的基本信息,例如用戶的年齡,性別等等;然后,系統(tǒng)會(huì)根據(jù)用戶的 Profile 計(jì)算用戶的相似度,可以看到用戶 A 的 Profile 和用戶 C 一樣,那么系統(tǒng)會(huì)認(rèn)為用戶 A 和 C 是相似用戶,在推薦引擎中,可以稱他們是“鄰居”;最后,基于“鄰居”用戶群的喜好推薦給當(dāng)前用戶一些物品,圖中將用戶 A 喜歡的物品 A 推薦給用戶 C。

這種基于人口統(tǒng)計(jì)學(xué)的推薦機(jī)制的好處在于:

  • 因?yàn)椴皇褂卯?dāng)前用戶對(duì)物品的喜好歷史數(shù)據(jù),所以對(duì)于新用戶來講沒有“冷啟動(dòng)(Cold Start)”的問題。
  • 這個(gè)方法不依賴于物品本身的數(shù)據(jù),所以這個(gè)方法在不同物品的領(lǐng)域都可以使用,它是領(lǐng)域獨(dú)立的(domain-independent)。

那么這個(gè)方法的缺點(diǎn)和問題是什么呢?這種基于用戶的基本信息對(duì)用戶進(jìn)行分類的方法過于粗糙,尤其是對(duì)品味要求較高的領(lǐng)域,比如圖書,電影和音樂等領(lǐng) 域,無(wú)法得到很好的推薦效果??赡茉谝恍╇娮由虅?wù)的網(wǎng)站中,這個(gè)方法可以給出一些簡(jiǎn)單的推薦。另外一個(gè)局限是,這個(gè)方法可能涉及到一些與信息發(fā)現(xiàn)問題本身 無(wú)關(guān)卻比較敏感的信息,比如用戶的年齡等,這些用戶信息不是很好獲取。

基于內(nèi)容的推薦

基于內(nèi)容的推薦是在推薦引擎出現(xiàn)之初應(yīng)用最為廣泛的推薦機(jī)制,它的核心思想是根據(jù)推薦物品或內(nèi)容的元數(shù)據(jù),發(fā)現(xiàn)物品或者內(nèi)容的相關(guān)性,然后基于用戶以往的喜好記錄,推薦給用戶相似的物品。圖 3 給出了基于內(nèi)容推薦的基本原理。

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 3. 基于內(nèi)容推薦機(jī)制的基本原理

圖 3 中給出了基于內(nèi)容推薦的一個(gè)典型的例子,電影推薦系統(tǒng),首先我們需要對(duì)電影的元數(shù)據(jù)有一個(gè)建模,這里只簡(jiǎn)單的描述了一下電影的類型;然后通過電影的元數(shù)據(jù) 發(fā)現(xiàn)電影間的相似度,因?yàn)轭愋投际恰皭矍?,浪漫”電?A 和 C 被認(rèn)為是相似的電影(當(dāng)然,只根據(jù)類型是不夠的,要得到更好的推薦,我們還可以考慮電影的導(dǎo)演,演員等等);最后實(shí)現(xiàn)推薦,對(duì)于用戶 A,他喜歡看電影 A,那么系統(tǒng)就可以給他推薦類似的電影 C。

這種基于內(nèi)容的推薦機(jī)制的好處在于它能很好的建模用戶的口味,能提供更加精確的推薦。但它也存在以下幾個(gè)問題:

  1. 需要對(duì)物品進(jìn)行分析和建模,推薦的質(zhì)量依賴于對(duì)物品模型的完整和全面程度。在現(xiàn)在的應(yīng)用中我們可以觀察到關(guān)鍵詞和標(biāo)簽(Tag)被認(rèn)為是描述物品元數(shù)據(jù)的一種簡(jiǎn)單有效的方法。
  2. 物品相似度的分析僅僅依賴于物品本身的特征,這里沒有考慮人對(duì)物品的態(tài)度。
  3. 因?yàn)樾枰谟脩粢酝南埠脷v史做出推薦,所以對(duì)于新用戶有“冷啟動(dòng)”的問題。

雖然這個(gè)方法有很多不足和問題,但他還是成功的應(yīng)用在一些電影,音樂,圖書的社交站點(diǎn),有些站點(diǎn)還請(qǐng)專業(yè)的人員對(duì)物品進(jìn)行基因編碼,比如潘多拉,在一份報(bào)告中說道,在潘多拉的推薦引擎中,每首歌有超過 100 個(gè)元數(shù)據(jù)特征,包括歌曲的風(fēng)格,年份,演唱者等等。

基于協(xié)同過濾的推薦

隨著 Web2.0 的發(fā)展,Web 站點(diǎn)更加提倡用戶參與和用戶貢獻(xiàn),因此基于協(xié)同過濾的推薦機(jī)制因運(yùn)而生。它的原理很簡(jiǎn)單,就是根據(jù)用戶對(duì)物品或者信息的偏好,發(fā)現(xiàn)物品或者內(nèi)容本身的相關(guān) 性,或者是發(fā)現(xiàn)用戶的相關(guān)性,然后再基于這些關(guān)聯(lián)性進(jìn)行推薦?;趨f(xié)同過濾的推薦可以分為三個(gè)子類:基于用戶的推薦(User-based Recommendation),基于項(xiàng)目的推薦(Item-based Recommendation)和基于模型的推薦(Model-based Recommendation)。下面我們一個(gè)一個(gè)詳細(xì)的介紹著三種協(xié)同過濾的推薦機(jī)制。

基于用戶的協(xié)同過濾推薦

基于用戶的協(xié)同過濾推薦的基本原理是,根據(jù)所有用戶對(duì)物品或者信息的偏好,發(fā)現(xiàn)與當(dāng)前用戶口味和偏好相似的“鄰居”用戶群,在一般的應(yīng)用中是采用計(jì)算“K- 鄰居”的算法;然后,基于這 K 個(gè)鄰居的歷史偏好信息,為當(dāng)前用戶進(jìn)行推薦。下圖 4 給出了原理圖。

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 4. 基于用戶的協(xié)同過濾推薦機(jī)制的基本原理

上圖示意出基于用戶的協(xié)同過濾推薦機(jī)制的基本原理,假設(shè)用戶 A 喜歡物品 A,物品 C,用戶 B 喜歡物品 B,用戶 C 喜歡物品 A ,物品 C 和物品 D;從這些用戶的歷史喜好信息中,我們可以發(fā)現(xiàn)用戶 A 和用戶 C 的口味和偏好是比較類似的,同時(shí)用戶 C 還喜歡物品 D,那么我們可以推斷用戶 A 可能也喜歡物品 D,因此可以將物品 D 推薦給用戶 A。

基于用戶的協(xié)同過濾推薦機(jī)制和基于人口統(tǒng)計(jì)學(xué)的推薦機(jī)制都是計(jì)算用戶的相似度,并基于“鄰居”用戶群計(jì)算推薦,但它們所不同的是如何計(jì)算用戶的相似 度,基于人口統(tǒng)計(jì)學(xué)的機(jī)制只考慮用戶本身的特征,而基于用戶的協(xié)同過濾機(jī)制可是在用戶的歷史偏好的數(shù)據(jù)上計(jì)算用戶的相似度,它的基本假設(shè)是,喜歡類似物品 的用戶可能有相同或者相似的口味和偏好。

基于項(xiàng)目的協(xié)同過濾推薦

基于項(xiàng)目的協(xié)同過濾推薦的基本原理也是類似的,只是說它使用所有用戶對(duì)物品或者信息的偏好,發(fā)現(xiàn)物品和物品之間的相似度,然后根據(jù)用戶的歷史偏好信息,將類似的物品推薦給用戶,圖 5 很好的詮釋了它的基本原理。

假設(shè)用戶 A 喜歡物品 A 和物品 C,用戶 B 喜歡物品 A,物品 B 和物品 C,用戶 C 喜歡物品 A,從這些用戶的歷史喜好可以分析出物品 A 和物品 C 時(shí)比較類似的,喜歡物品 A 的人都喜歡物品 C,基于這個(gè)數(shù)據(jù)可以推斷用戶 C 很有可能也喜歡物品 C,所以系統(tǒng)會(huì)將物品 C 推薦給用戶 C。

與上面講的類似,基于項(xiàng)目的協(xié)同過濾推薦和基于內(nèi)容的推薦其實(shí)都是基于物品相似度預(yù)測(cè)推薦,只是相似度計(jì)算的方法不一樣,前者是從用戶歷史的偏好推斷,而后者是基于物品本身的屬性特征信息。

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 5. 基于項(xiàng)目的協(xié)同過濾推薦機(jī)制的基本原理

同時(shí)協(xié)同過濾,在基于用戶和基于項(xiàng)目?jī)蓚€(gè)策略中應(yīng)該如何選擇呢?其實(shí)基于項(xiàng)目的協(xié)同過濾推薦機(jī)制是 Amazon 在基于用戶的機(jī)制上改良的一種策略,因?yàn)樵诖蟛糠值?Web 站點(diǎn)中,物品的個(gè)數(shù)是遠(yuǎn)遠(yuǎn)小于用戶的數(shù)量的,而且物品的個(gè)數(shù)和相似度相對(duì)比較穩(wěn)定,同時(shí)基于項(xiàng)目的機(jī)制比基于用戶的實(shí)時(shí)性更好一些。但也不是所有的場(chǎng)景都 是這樣的情況,可以設(shè)想一下在一些新聞推薦系統(tǒng)中,也許物品,也就是新聞的個(gè)數(shù)可能大于用戶的個(gè)數(shù),而且新聞的更新程度也有很快,所以它的形似度依然不穩(wěn) 定。所以,其實(shí)可以看出,推薦策略的選擇其實(shí)和具體的應(yīng)用場(chǎng)景有很大的關(guān)系。

基于模型的協(xié)同過濾推薦

基于模型的協(xié)同過濾推薦就是基于樣本的用戶喜好信息,訓(xùn)練一個(gè)推薦模型,然后根據(jù)實(shí)時(shí)的用戶喜好的信息進(jìn)行預(yù)測(cè),計(jì)算推薦。

基于協(xié)同過濾的推薦機(jī)制是現(xiàn)今應(yīng)用最為廣泛的推薦機(jī)制,它有以下幾個(gè)顯著的優(yōu)點(diǎn):

  • 它不需要對(duì)物品或者用戶進(jìn)行嚴(yán)格的建模,而且不要求物品的描述是機(jī)器可理解的,所以這種方法也是領(lǐng)域無(wú)關(guān)的。
  • 這種方法計(jì)算出來的推薦是開放的,可以共用他人的經(jīng)驗(yàn),很好的支持用戶發(fā)現(xiàn)潛在的興趣偏好

而它也存在以下幾個(gè)問題:

  • 方法的核心是基于歷史數(shù)據(jù),所以對(duì)新物品和新用戶都有“冷啟動(dòng)”的問題。
  • 推薦的效果依賴于用戶歷史偏好數(shù)據(jù)的多少和準(zhǔn)確性。
  • 在大部分的實(shí)現(xiàn)中,用戶歷史偏好是用稀疏矩陣進(jìn)行存儲(chǔ)的,而稀疏矩陣上的計(jì)算有些明顯的問題,包括可能少部分人的錯(cuò)誤偏好會(huì)對(duì)推薦的準(zhǔn)確度有很大的影響等等。
  • 對(duì)于一些特殊品味的用戶不能給予很好的推薦。
  • 由于以歷史數(shù)據(jù)為基礎(chǔ),抓取和建模用戶的偏好后,很難修改或者根據(jù)用戶的使用演變,從而導(dǎo)致這個(gè)方法不夠靈活。

混合的推薦機(jī)制

在現(xiàn)行的 Web 站點(diǎn)上的推薦往往都不是單純只采用了某一種推薦的機(jī)制和策略,他們往往是將多個(gè)方法混合在一起,從而達(dá)到更好的推薦效果。關(guān)于如何組合各個(gè)推薦機(jī)制,這里講幾種比較流行的組合方法。

  1. 加權(quán)的混合(Weighted Hybridization): 用線性公式(linear formula)將幾種不同的推薦按照一定權(quán)重組合起來,具體權(quán)重的值需要在測(cè)試數(shù)據(jù)集上反復(fù)實(shí)驗(yàn),從而達(dá)到最好的推薦效果。
  2. 切換的混合(Switching Hybridization):前面也講到,其實(shí)對(duì)于不同的情況(數(shù)據(jù)量,系統(tǒng)運(yùn)行狀況,用戶和物品的數(shù)目等),推薦策略可能有很大的不同,那么切換的混合方式,就是允許在不同的情況下,選擇最為合適的推薦機(jī)制計(jì)算推薦。
  3. 分區(qū)的混合(Mixed Hybridization):采用多種推薦機(jī)制,并將不同的推薦結(jié)果分不同的區(qū)顯示給用戶。其實(shí),Amazon,當(dāng)當(dāng)網(wǎng)等很多電子商務(wù)網(wǎng)站都是采用這樣的方式,用戶可以得到很全面的推薦,也更容易找到他們想要的東西。
  4. 分層的混合(Meta-Level Hybridization): 采用多種推薦機(jī)制,并將一個(gè)推薦機(jī)制的結(jié)果作為另一個(gè)的輸入,從而綜合各個(gè)推薦機(jī)制的優(yōu)缺點(diǎn),得到更加準(zhǔn)確的推薦。

推薦引擎的應(yīng)用

介紹完推薦引擎的基本原理,基本推薦機(jī)制,下面簡(jiǎn)要分析幾個(gè)有代表性的推薦引擎的應(yīng)用,這里選擇兩個(gè)領(lǐng)域:Amazon 作為電子商務(wù)的代表,豆瓣作為社交網(wǎng)絡(luò)的代表。

推薦在電子商務(wù)中的應(yīng)用 – Amazon

Amazon 作為推薦引擎的鼻祖,它已經(jīng)將推薦的思想滲透在應(yīng)用的各個(gè)角落。Amazon 推薦的核心是通過數(shù)據(jù)挖掘算法和比較用戶的消費(fèi)偏好于其他用戶進(jìn)行對(duì)比,借以預(yù)測(cè)用戶可能感興趣的商品。對(duì)應(yīng)于上面介紹的各種推薦機(jī)制,Amazon 采用的是分區(qū)的混合的機(jī)制,并將不同的推薦結(jié)果分不同的區(qū)顯示給用戶,圖 6 和圖 7 展示了用戶在 Amazon 上能得到的推薦。

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 6. Amazon 的推薦機(jī)制 – 首頁(yè)

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 7. Amazon 的推薦機(jī)制 – 瀏覽物品

Amazon 利用可以記錄的所有用戶在站點(diǎn)上的行為,根據(jù)不同數(shù)據(jù)的特點(diǎn)對(duì)它們進(jìn)行處理,并分成不同區(qū)為用戶推送推薦:

  1. 今日推薦 (Today’s Recommendation For You): 通常是根據(jù)用戶的近期的歷史購(gòu)買或者查看記錄,并結(jié)合時(shí)下流行的物品給出一個(gè)折中的推薦。
  2. 新產(chǎn)品的推薦 (New For You): 采用了基于內(nèi)容的推薦機(jī)制 (Content-based Recommendation),將一些新到物品推薦給用戶。在方法選擇上由于新物品沒有大量的用戶喜好信息,所以基于內(nèi)容的推薦能很好的解決這個(gè)“冷啟動(dòng)”的問題。
  3. 捆綁銷售 (Frequently Bought Together): 采用數(shù)據(jù)挖掘技術(shù)對(duì)用戶的購(gòu)買行為進(jìn)行分析,找到經(jīng)常被一起或同一個(gè)人購(gòu)買的物品集,進(jìn)行捆綁銷售,這是一種典型的基于項(xiàng)目的協(xié)同過濾推薦機(jī)制。
  4. 別人購(gòu)買 / 瀏覽的商品 (Customers Who Bought/See This Item Also Bought/See): 這也是一個(gè)典型的基于項(xiàng)目的協(xié)同過濾推薦的應(yīng)用,通過社會(huì)化機(jī)制用戶能更快更方便的找到自己感興趣的物品。

值得一提的是,Amazon 在做推薦時(shí),設(shè)計(jì)和用戶體驗(yàn)也做得特別獨(dú)到:

Amazon 利用有它大量歷史數(shù)據(jù)的優(yōu)勢(shì),量化推薦原因。

  • 基于社會(huì)化的推薦,Amazon 會(huì)給你事實(shí)的數(shù)據(jù),讓用戶信服,例如:購(gòu)買此物品的用戶百分之多少也購(gòu)買了那個(gè)物品;
  • 基于物品本身的推薦,Amazon 也會(huì)列出推薦的理由,例如:因?yàn)槟愕馁?gòu)物框中有 ***,或者因?yàn)槟阗?gòu)買過 ***,所以給你推薦類似的 ***。

另外,Amazon 很多推薦是基于用戶的 profile 計(jì)算出來的,用戶的 profile 中記錄了用戶在 Amazon 上的行為,包括看了那些物品,買了那些物品,收藏夾和 wish list 里的物品等等,當(dāng)然 Amazon 里還集成了評(píng)分等其他的用戶反饋的方式,它們都是 profile 的一部分,同時(shí),Amazon 提供了讓用戶自主管理自己 profile 的功能,通過這種方式用戶可以更明確的告訴推薦引擎他的品味和意圖是什么。

推薦在社交網(wǎng)站中的應(yīng)用 – 豆瓣

豆瓣是國(guó)內(nèi)做的比較成功的社交網(wǎng)站,它以圖書,電影,音樂和同城活動(dòng)為中心,形成一個(gè)多元化的社交網(wǎng)絡(luò)平臺(tái),自然推薦的功能是必不可少的,下面我們看看豆瓣是如何推薦的。

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 8 . 豆瓣的推薦機(jī)制 – 豆瓣電影

當(dāng)你在豆瓣電影中將一些你看過的或是感興趣的電影加入你看過和想看的列表里,并為它們做相應(yīng)的評(píng)分,這時(shí)豆瓣的推薦引擎已經(jīng)拿到你的一些偏好信息,那么它將給你展示如圖 8 的電影推薦。

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 9 . 豆瓣的推薦機(jī)制 – 基于用戶品味的推薦

豆瓣的推薦是通過“豆瓣猜”,為了讓用戶清楚這些推薦是如何來的,豆瓣還給出了“豆瓣猜”的一個(gè)簡(jiǎn)要的介紹。

“你的個(gè)人推薦是根據(jù)你的收藏和評(píng)價(jià)自動(dòng)得出的,每個(gè)人的推薦清單都不同。你的收藏和評(píng)價(jià)越多,豆瓣給你的推薦會(huì)越準(zhǔn)確和豐富。
每天推薦的內(nèi)容可能會(huì)有變化。隨著豆瓣的長(zhǎng)大,給你推薦的內(nèi)容也會(huì)越來越準(zhǔn)?!?/p>

這一點(diǎn)讓我們可以清晰明了的知道,豆瓣必然是基于社會(huì)化的協(xié)同過濾的推薦,這樣用戶越多,用戶的反饋越多,那么推薦的效果會(huì)越來越準(zhǔn)確。

相對(duì)于 Amazon 的用戶行為模型,豆瓣電影的模型更加簡(jiǎn)單,就是“看過”和“想看”,這也讓他們的推薦更加專注于用戶的品味,畢竟買東西和看電影的動(dòng)機(jī)還是有很大不同的。

另外,豆瓣也有基于物品本身的推薦,當(dāng)你查看一些電影的詳細(xì)信息的時(shí)候,他會(huì)給你推薦出“喜歡這個(gè)電影的人也喜歡的電影”, 如圖 10,這是一個(gè)基于協(xié)同過濾的應(yīng)用。

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

圖 10 . 豆瓣的推薦機(jī)制 – 基于電影本身的推薦

總結(jié)

在網(wǎng)絡(luò)數(shù)據(jù)爆炸的年代,如何讓用戶更快的找到想要的數(shù)據(jù),如何讓用戶發(fā)現(xiàn)自己潛在的興趣和需求,無(wú)論是對(duì)于電子商務(wù)還是社會(huì)網(wǎng)絡(luò)的應(yīng)用都是至關(guān)重要 的。推薦引擎的出現(xiàn),使得這個(gè)問題越來越被大家關(guān)注。但對(duì)大多數(shù)人來講,也許還在驚嘆它為什么總是能猜到你到底想要些什么。推薦引擎的魔力在于你不清楚在 這個(gè)推薦背后,引擎到底記錄和推理了些什么。

通過這篇綜述性的文章,你可以了解,其實(shí)推薦引擎只是默默的記錄和觀察你的一舉一動(dòng),然后再借由所有用戶產(chǎn)生的海量數(shù)據(jù)分析和發(fā)現(xiàn)其中的規(guī)律,進(jìn)而慢慢的了解你,你的需求,你的習(xí)慣,并默默的無(wú)聲息的幫助你快速的解決你的問題,找到你想要的東西。

其實(shí),回頭想想,很多時(shí)候,推薦引擎比你更了解你自己。

通過第一篇文章,相信大家對(duì)推薦引擎有一個(gè)清晰的第一印象,本系列的下一篇文章將深入介紹基于協(xié)同過濾的推薦策略。在現(xiàn)今的推薦技術(shù)和算法中,最被 大家廣泛認(rèn)可和采用的就是基于協(xié)同過濾的推薦方法。它以其方法模型簡(jiǎn)單,數(shù)據(jù)依賴性低,數(shù)據(jù)方便采集,推薦效果較優(yōu)等多個(gè)優(yōu)點(diǎn)成為大眾眼里的推薦算法 “No.1”。本文將帶你深入了解協(xié)同過濾的秘密,并給出基于 Apache Mahout 的協(xié)同過濾算法的高效實(shí)現(xiàn)。Apache Mahout 是 ASF 的一個(gè)較新的開源項(xiàng)目,它源于 Lucene,構(gòu)建在 Hadoop 之上,關(guān)注海量數(shù)據(jù)上的機(jī)器學(xué)習(xí)經(jīng)典算法的高效實(shí)現(xiàn)。

感謝大家對(duì)本系列的關(guān)注和支持。



    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多