【原】白話商品推薦算法

發(fā)條書屋 2019-06-23

展開(kāi)全文

關(guān)于商品推薦

你肯定有過(guò)這種有趣的經(jīng)歷，就是登入某些網(wǎng)站或者APP時(shí)，發(fā)現(xiàn)曾經(jīng)在百度或者其他搜索引擎上搜索過(guò)的東西會(huì)出現(xiàn)在這些網(wǎng)站或APP的廣告位上，又或者這些網(wǎng)站或APP上的的廣告位上會(huì)出現(xiàn)一些與當(dāng)前頁(yè)面內(nèi)容的關(guān)鍵詞相關(guān)的內(nèi)容推薦。這是網(wǎng)站的JavaScript代碼讀取了瀏覽器的本地Cookies（通?？梢杂脕?lái)存儲(chǔ)瀏覽器上的表單信息、用戶名、搜索關(guān)鍵詞等信息）和當(dāng)前頁(yè)面的文本信息，并做了相應(yīng)的關(guān)鍵詞提取，最后根據(jù)這些關(guān)鍵詞來(lái)猜測(cè)用戶可能感興趣的內(nèi)容再推薦到廣告位上。

這是最早的一些較為簡(jiǎn)單的商品或廣告推薦思路，但是你可能很快就發(fā)現(xiàn)它們的“愚蠢”之處，即搜索并購(gòu)買了一些產(chǎn)品之后它依然不停地進(jìn)行類似產(chǎn)品的推薦。比如購(gòu)買了洗衣機(jī)還推薦洗衣機(jī)，買了空調(diào)還推薦空調(diào)（都不是一些高頻回購(gòu)的商品）。即便是在網(wǎng)站或APP能夠得知我購(gòu)買洗衣機(jī)和空調(diào)的成交記錄的情況下仍然這樣做，確實(shí)讓我們覺(jué)得系統(tǒng)很弱智。

由此在這里向大家講解目前較為常見(jiàn)的，更加智能的個(gè)性化商品推薦算法。

兩種個(gè)性化商品推薦算法

首先要說(shuō)明的是，我們所有的推薦算法，最終目的都是為了給用戶推薦他可能感興趣的商品，從而提高銷售和轉(zhuǎn)化率，忘記這個(gè)目的的所有算法設(shè)計(jì)都是自嗨。

目前常見(jiàn)的商品推薦算法是協(xié)同過(guò)濾，公認(rèn)比較常用的方法俗稱“鄰居方法”。鄰居方法中有兩種視角。第一種是基于用戶。第二種是基于商品。

基于用戶的協(xié)同過(guò)濾，稱為User-based CF（User-based Collaborative Filtering）。系統(tǒng)通過(guò)分析一個(gè)用戶和哪些用戶（參考用戶）的特征比較相似，然后看看這些參考用戶喜歡買哪類的商品，再?gòu)倪@些商品里挑出一些推薦給該用戶。

基于商品的協(xié)同過(guò)濾，稱為Item-based CF（Item-based Collaborative Filtering）。系統(tǒng)通過(guò)數(shù)據(jù)分析和挖掘用戶的購(gòu)買行為，來(lái)判斷用戶喜歡的商品類型，然后從那些用戶喜歡的商品類型里挑出一些推薦給用戶。

User-based CF 基于用戶的協(xié)同過(guò)濾

算法核心思路：當(dāng)用戶進(jìn)入一個(gè)電商平臺(tái)時(shí)，作為電商平臺(tái)系統(tǒng)找到那些和該用戶興趣/喜好類似的人，然后看看他們喜歡什么，就給該用戶推薦什么。簡(jiǎn)而言之，A和B兩個(gè)用戶相似，然后給A推薦B喜歡的東西。

假設(shè)有用戶ID為1001到1006的六個(gè)用戶，他們對(duì)幾種商品進(jìn)行了瀏覽、收藏、購(gòu)買、添加到購(gòu)物車、評(píng)論、分享等操作。

為了得到用戶對(duì)某類別產(chǎn)品的興趣度，我們可以設(shè)計(jì)這樣一個(gè)簡(jiǎn)單的模型，給不同的用戶行為賦予不同的分值，比如瀏覽行為賦予0.1分。整體的行為分值如表：

滿分10分，加到10后則不再累加。

然后，我們得到1001-1006六位用戶對(duì)各種商品的偏好程度（得分）表：

其中表格的數(shù)字是用戶對(duì)該商品“興趣程度”的一個(gè)量化值，0為沒(méi)興趣，10為非常有興趣?？瞻状磉@個(gè)商品在系統(tǒng)內(nèi)，還沒(méi)有任何依據(jù)來(lái)判斷興趣如何。

以用戶“1006”為研究對(duì)象，現(xiàn)在要找到和他興趣最接近的人，該如何實(shí)現(xiàn)？這里便需要對(duì)商品的多維向量進(jìn)行近似求法。

多維向量空間的相似性一般有兩種求法，一種是歐幾里得距離或曼哈頓距離，另一種是余弦相似度。這里用的是第二種余弦相似度來(lái)進(jìn)行度量。

余弦函數(shù)相信大家都不陌生，就是中學(xué)時(shí)候?qū)W的cosine函數(shù)cos（θ）。余弦相似度，又稱為余弦相似性，是通過(guò)計(jì)算兩個(gè)向量的夾角的余弦值來(lái)評(píng)估他們的相似度。具體公式如下：

這里的Ai和Bi分別代表向量A和B的各分量。

給出的相似性范圍從-1到1：結(jié)果為-1時(shí)意味著兩個(gè)向量指向的方向正好截然相反，1表示它們的指向是完全相同的，0通常表示它們之間是獨(dú)立的，而在這之間的值則表示中間的相似性或相異性。

用簡(jiǎn)單的話來(lái)說(shuō)，最相似的是1，最不相似的是-1。

回到剛剛的例子，把用戶在一些不相干的商品類別的愛(ài)好當(dāng)做一個(gè)空間向量，把每個(gè)商品類別作為一個(gè)維度，我們列的例子中就有手機(jī)、平板、筆記本電腦、智能手表、自拍桿、紅酒、白酒共7個(gè)維度。我們?cè)囍笠幌?006這個(gè)用戶和1005這個(gè)用戶已知部分的愛(ài)好相似程度：

由于1006用戶沒(méi)有紅酒和白酒的記錄，所以沒(méi)有用1005用戶的紅酒和白酒兩個(gè)維度的分?jǐn)?shù)來(lái)計(jì)算相似度。

因?yàn)椤白钕嗨频氖?，最不相似的是-1”。所以1005和1006兩個(gè)用戶的相似度還是很高的。同理也能夠求出1006用戶和其他任何一個(gè)用戶的興趣相似程度。

之后設(shè)置一個(gè)相似的閾值，如0.8、0.85……或者其他任何一個(gè)值，看看相似度超過(guò)這個(gè)閾值的用戶都有什么購(gòu)物喜好，把他們喜好購(gòu)買的東西推薦給1006用戶作為推薦方案即可（例如例子中，1005和1006的喜好高度相似，就可以將1005的喜歡的紅酒和白酒推薦給1006）。這就是一種思路最為樸素的基于用戶的協(xié)同過(guò)濾算法思路。

補(bǔ)充：

除了上述通過(guò)分析用戶的行為來(lái)設(shè)計(jì)這個(gè)用戶相似度外，還可以考慮通過(guò)用戶的畫像思維來(lái)補(bǔ)充和完善這個(gè)用戶協(xié)調(diào)過(guò)濾算法。用戶屬性表如表所示。

用戶屬性表

我們所有的產(chǎn)品幾乎都會(huì)有這種用戶屬性表，這也是構(gòu)建用戶畫像的常見(jiàn)方法，利用這種列表同樣也能夠去觀察哪些用戶之間更相似，然后找到相似的用戶，再把這些用戶比較喜好的，感興趣的產(chǎn)品推薦給他。方法有很多，基本邏輯相同。以后有機(jī)會(huì)開(kāi)一個(gè)用戶畫像專題再細(xì)講。

Item-based CF 基于商品的協(xié)同過(guò)濾

基于物品的協(xié)同過(guò)濾算法最早由著名的電商公司亞馬遜提出的。這種算法給用戶推薦那些和他們之前喜歡的商品相似的商品。

一般，推薦算法核心思想是，給用戶推薦那些和他們之前喜歡的物品相似的物品。

比如，內(nèi)容推薦算法的“基于內(nèi)容的協(xié)同過(guò)濾”，用戶A之前閱讀過(guò)《香港最后一個(gè)童話破滅——許志安出軌了》，該算法會(huì)根據(jù)此行為給你推薦《震驚！許志安給馬明戴綠帽了》，但是基于物品的協(xié)同過(guò)濾有點(diǎn)不同，Item-based CF算法并不利用物品的內(nèi)容屬性計(jì)算物品之間的相似度，它主要通過(guò)分析用戶的行為記錄計(jì)算物品之間的相似度。

Item-based CF算法認(rèn)為，“有很多人喜歡商品A，同時(shí)他們也喜歡商品B，所以A和B應(yīng)該是比較類似的商品?！?/p>

計(jì)算起來(lái)可以分成以下兩個(gè)步驟：

計(jì)算商品之間的相似度。

根據(jù)物品的相似度和用戶的偏好來(lái)給用戶生成推薦列表。

（一）計(jì)算物品之間的相似度。

這里同樣用到了余弦相似性來(lái)求物品的相似度，但是公式略有不同：

其中，|N(i)|是喜歡物品i的用戶數(shù)，|N(j)|是喜歡物品j的用戶數(shù)，|N(i)&N(j)|是同時(shí)喜歡物品i和物品j的用戶數(shù)。

從上面的定義看出，在協(xié)同過(guò)濾中兩個(gè)物品產(chǎn)生相似度是因?yàn)樗鼈児餐缓芏嘤脩粝矚g，兩個(gè)物品相似度越高，說(shuō)明這兩個(gè)物品共同被很多人喜歡。

這里面蘊(yùn)含著一個(gè)假設(shè)：就是假設(shè)每個(gè)用戶的興趣都局限在某幾個(gè)方面，因此如果兩個(gè)物品屬于一個(gè)用戶的興趣列表，那么這兩個(gè)物品可能就屬于有限的幾個(gè)領(lǐng)域，而如果兩個(gè)物品屬于很多用戶的興趣列表，那么它們就可能屬于同一個(gè)領(lǐng)域，因而有很大的相似度。

舉例說(shuō)明，首先我們假定有5個(gè)用戶，分別為A、B、C、D、E，他們的商品購(gòu)買記錄分別如下：

這是一個(gè)文娛用品商店的銷售記錄，記錄了每一個(gè)用戶購(gòu)買的產(chǎn)品內(nèi)容，這里只用5個(gè)用戶來(lái)做一個(gè)演示。

首先要分別得到每個(gè)用戶購(gòu)買物品的鄰接矩陣，如用戶A購(gòu)物鄰接矩陣如表所示：

用戶A購(gòu)物鄰接矩陣

這個(gè)矩陣就是根據(jù)剛剛看到的用戶A的購(gòu)買記錄得到的，由于紅酒、啤酒和顯示器同時(shí)出現(xiàn)在他的購(gòu)物列表里，所以“紅酒和啤酒”、“紅酒和顯示器”、“啤酒和顯示器”兩兩“鄰接”，也就是說(shuō)這些標(biāo)注1的小格子代表這兩種一起在一個(gè)人的購(gòu)物記錄里出現(xiàn)過(guò)一次——注意買過(guò)就算，不是必須出現(xiàn)在同一次購(gòu)物籃里。

同理能夠得到其他B、C、D、E幾人的購(gòu)物鄰接矩陣（所有的鄰接矩陣都是沿對(duì)角線對(duì)稱的。）。然后將A、B、C、D、E五人的鄰接矩陣，通過(guò)矩陣“疊加”的方式，即將每一個(gè)矩陣的每個(gè)對(duì)應(yīng)的方格數(shù)字相加，最后得到中間矩陣C，過(guò)程如下：

疊加過(guò)程

最終的疊加結(jié)果——中間矩陣C：

中間矩陣C

從這個(gè)中間矩陣C里，可以看到同時(shí)喜歡紅酒和啤酒的有2個(gè)人，同時(shí)喜歡鼠標(biāo)和鍵盤的有2個(gè)人，同時(shí)喜歡白酒和紅酒的有1個(gè)人……由于矩陣是對(duì)稱的，我為大家都劃出了對(duì)角線，大家看表格對(duì)角線的一邊就行。

這時(shí)便可以計(jì)算任意兩個(gè)商品的相似度做評(píng)估了，如計(jì)算鼠標(biāo)和鍵盤的相似程度，套用剛才的公式：

說(shuō)明相似度極高，買鍵盤的人必買鼠標(biāo)，買鼠標(biāo)的人必買鍵盤。

再試算一下紅酒和白酒的相似度：

說(shuō)明相似度極高，買鍵盤的人必買鼠標(biāo)，買鼠標(biāo)的人必買鍵盤。

現(xiàn)在，再試算一下紅酒和白酒的相似度：

以此類推，便可計(jì)算出所有商品之間的相似度。

（二）根據(jù)物品的相似度和用戶的歷史行為給用戶生成推薦列表：

得到相似度后，便可以計(jì)算基于相似度的商品推薦列表了。

計(jì)算完中間矩陣之后，當(dāng)要對(duì)一個(gè)用戶做推薦時(shí)，先把這個(gè)用戶的歷史購(gòu)買記錄都列出來(lái)，假設(shè)有n個(gè)購(gòu)買記錄。然后對(duì)這個(gè)列表里每一個(gè)產(chǎn)品都用查表的方法查一次相似度，這樣會(huì)得到n個(gè)列表，每個(gè)列表里都是一個(gè)產(chǎn)品和其對(duì)應(yīng)的相似度的關(guān)系。把這n個(gè)列表做一個(gè)排序，相似度高的在前，相似度低的在后。如果要推薦3個(gè)商品就取前3個(gè)，如果要推薦5個(gè)商品就取前5個(gè)。

大概的推薦算法思路說(shuō)到這大概就說(shuō)完了，因?yàn)槲覀儾皇羌夹g(shù)，產(chǎn)品經(jīng)理了解到這個(gè)層面就差不多了。深挖一層還可以根據(jù)相似度和歷史行為計(jì)算出用戶對(duì)物品的感興趣度，然后再給用戶生成推薦列表。就是在相似度的維度上，在增加一個(gè)感興趣的維度，作為推薦商品的衡量指標(biāo)，思路相似，這里不再展開(kāi)。

優(yōu)缺點(diǎn)說(shuō)明

優(yōu)點(diǎn)是推薦都是基于用戶的行為數(shù)據(jù)去不斷學(xué)習(xí)和完善，在過(guò)程中發(fā)現(xiàn)用戶的潛在商品興趣，能給用戶“制造驚喜”的同時(shí)，也在為自己制造驚喜。這是一個(gè)持續(xù)成長(zhǎng)的過(guò)程，而推薦不過(guò)是其中的一個(gè)短程跑道，設(shè)計(jì)者的目光應(yīng)該長(zhǎng)遠(yuǎn)些，將最終的目放在構(gòu)建行業(yè)的大數(shù)據(jù)庫(kù)和用戶畫像的產(chǎn)業(yè)生態(tài)上。

缺點(diǎn)則是啟動(dòng)的門檻高，用戶量不夠時(shí)，商品量太少時(shí)幾乎無(wú)法開(kāi)展；并且學(xué)習(xí)量不夠時(shí)推薦結(jié)果較差，就會(huì)導(dǎo)致文初說(shuō)的“愚蠢”現(xiàn)象出現(xiàn)，這也是很多時(shí)候人工智能被大家吐槽為“人工智障”的原因之一。

總而言之

關(guān)于個(gè)性化推薦的算法，在網(wǎng)上有很多資料，也有很多其他的實(shí)現(xiàn)方法，區(qū)區(qū)在下，所知實(shí)在有限。這里只是嘗試以產(chǎn)品經(jīng)理的角度，用較簡(jiǎn)單的語(yǔ)言來(lái)將自己學(xué)到的推薦算法原理剖析給大家聽(tīng)。

關(guān)于產(chǎn)品經(jīng)理要不要懂技術(shù)的問(wèn)題，也是老生常談了，高論很多，不敢多贊一詞。只說(shuō)一句，產(chǎn)品經(jīng)理在算法產(chǎn)品的設(shè)計(jì)中，絕不能一句“做個(gè)性化推薦”就完事的，你須深入算法內(nèi)部，了解算法，然后結(jié)合產(chǎn)品特點(diǎn)來(lái)優(yōu)化和設(shè)計(jì)。

贊賞

共11人贊賞

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看