為什么普通人「出圈」，都在小紅書？

天承辦公室 2024-01-17 發(fā)布于江蘇

展開全文

機器之心報道

作者：WX

解碼小紅書推薦系統(tǒng)：為什么在這里普通人更容易被看見？

出差期間，我在酒店百無聊賴地打開了小紅書。一篇看似平淡無奇的筆記吸引了我的注意——一位 ID 叫「倚著彩虹看夕陽」的用戶發(fā)帖，說自己在酒店的床上看西游記時，感覺到前所未有的放松。

從標題到配圖，這篇發(fā)布于去年 5 月的筆記沒有任何明顯的爆點，但顯然在小紅書上引發(fā)了廣泛的共鳴，收到了大量的點贊、收藏和評論。我也被吸引，陷入了#走不出的評論區(qū)。

現(xiàn)代人的信息獲取方式很大程度上受推薦系統(tǒng)所影響，這篇筆記在發(fā)布 8 個月后依然能進入我的視野，小紅書的推薦系統(tǒng)功不可沒。相比之下，很難想象同樣的內容在其他平臺上也能得到如此廣泛的傳播。

為什么在小紅書上普通人更容易被看見？它的流量算法，如何讓每個人都有機會成為爆款文的主角？為什么身邊人越來越愛刷小紅書？

帶著這些疑問，我走訪了小紅書技術團隊，希望通過他們的解釋，能更深入地了解這個讓無數(shù)用戶感嘆「特別懂我」且「氛圍極好」的內容社區(qū)。

重視普通人表達——

小紅書內容分發(fā)和推薦邏輯

隨著近些年用戶和內容的快速破圈，小紅書搖身一變，從「人間種草機」成為「生活百科全書」。作為一個基于用戶生成內容（UGC）的生活指南社區(qū)，小紅書融合圖文、視頻、直播等多種內容形式，內容維度非常豐富。推薦系統(tǒng)需要權衡多重目標優(yōu)化，算法背后的價值觀讓小紅書選擇了不一樣的技術路徑——去中心化分發(fā)、注重用戶體驗和社區(qū)的高質量互動，這也形成了其特別的內容分發(fā)和推薦策略。

小紅書旨在創(chuàng)建一個「普通人幫助普通人」的內容分享社區(qū)，滿足普通人的內容被看見的需要。有一個非常典型的案例凸顯了小紅書推薦系統(tǒng)的快速與準確，曾經(jīng)有一位女孩在信號較差的火車上發(fā)帖求助衛(wèi)生巾，僅僅兩個小時后，她就收到了陌生人的神奇饋贈。在這里，任何人都可以分享他們覺得有趣或有用的生活細節(jié)，無論多么微小。

為什么我們在小紅書上能看到這么多「素帖爆火」的案例，其中一個重要的影響因素是技術分發(fā)的邏輯。小紅書的技術理念很獨特，將大約一半的流量給普通 UGC 用戶，讓普通人的創(chuàng)作有平等被看到的機會。與此同時，這些普通人的經(jīng)驗與生活分享也會在未來逐步釋放出長尾價值。

在小紅書上，筆記被推薦的綜合考慮因素很多，沒有標準的公式一概而論。具體說，納入考慮的因子包括點擊、時長、完播、下滑、質量、點贊、收藏、關注、轉發(fā)、評論等。小紅書的推薦系統(tǒng)會根據(jù)用戶的習慣調整各因子的權重，一般會綜合考慮消費、互動和體驗類指標，結合用戶的消費行為偏好，實現(xiàn)個性化的權重組合。同時，小紅書推薦系統(tǒng)也會根據(jù)筆記的發(fā)布意圖來調整收藏、轉發(fā)和評論的權重，例如，日常分享類的筆記更看重點贊，工具類筆記更看重收藏，求助類筆記更看重評論。

小紅書上各種「被看見」的普通人普通事

當一篇新的筆記在小紅書發(fā)布后，它將經(jīng)歷一系列復雜的處理步驟，通過「人以群分」的內容分發(fā)體系，把信息精準給需要的人。雖說當前各種推薦系統(tǒng)的核心算法和基本流程在很大程度上是類似的，但與傳統(tǒng)推薦系統(tǒng)追逐的「全局最優(yōu)」不同，小紅書將流量分層，尋求「局部最優(yōu)」，通過識別不同的人群，讓好的內容從各個群體中涌現(xiàn)出來，跑出了適合社區(qū)的新一代推薦系統(tǒng)。

那些素帖爆火背后的秘籍，無一不透露著：一個優(yōu)秀的推薦系統(tǒng)，關鍵在于如何根據(jù)具體的應用場景、用戶行為和反饋來調整和優(yōu)化這些基本方法。

對小紅書來說，關鍵的問題包括在冷啟／爬坡階段，如何進行內容理解從而定位種子人群并進行高效的人群擴散；在召回／排序環(huán)節(jié)，如何提升模型預測的精準度，以及如何進行實時流量調控；還有如何保證內容的多樣性，使用戶的短期興趣和長期興趣得到平衡。

挖掘長尾，高效分發(fā)——多模態(tài)內容理解

內容理解是推薦分發(fā)的基礎。精細和準確的個性化推薦，離不開對內容的充分理解，只有讓系統(tǒng)真正掌握了到底內容在講什么，才能夠推薦得更加準確。傳統(tǒng)的內容理解主要依賴于標簽化體系，然而，這種體系的主要問題在于標簽粒度過大和標簽維度過窄。在小紅書這樣海量且多樣性強的內容場景中，這兩個問題尤其突出。無論如何定義標簽體系，都難以覆蓋多樣化、長尾化的內容，同時，標簽體系的運營更新也難以跟上內容的迭代和發(fā)展。

為了解決標簽化內容理解體系的問題，小紅書技術團隊借助大規(guī)模多模態(tài)預訓練模型，構建了向量化的內容理解體系。這種向量體系具有更開放的通識知識和動態(tài)自由的使用方案。作為傳統(tǒng)標簽體系的補充，向量化系統(tǒng)通過隱性聚類能力實現(xiàn)了細粒度、動態(tài)化的內容分類；另一方面，通過預訓練和微調的方式，提高了系統(tǒng)在更多維度上對內容識別和評價的精度。

在多模態(tài)預訓練方面，團隊采用了類似于 CLIP 的對比學習，在經(jīng)過清洗和去噪的小紅書筆記樣本上進行訓練。小紅書是一個天然的優(yōu)質多模態(tài)圖文對樣本集散地，通過將筆記封面圖和筆記標題組對的方式，不需要人工標注，就能獲得數(shù)以十億甚至更大的樣本集合，保證了樣本的規(guī)模性、多樣性和時效性。在優(yōu)質樣本的支持下，團隊開發(fā)出了參數(shù)量從 10M 到 10B 不等的各種 backbone 選型，支持 BERT、RoBERTa、ResNet、Swin-T、ViT 等架構，以滿足下游的各種使用需求。

以多模態(tài)預訓練向量為基座，實現(xiàn)對復雜多模態(tài)內容的綜合語義表征

在應用實例上，團隊實踐了基于筆記多模態(tài)向量的層次化內容聚類，用于 Feed 的多樣性打散。通過向量聚類得到的 ClusterID 作為隱性內容標簽，并通過調整聚類相似度門限來動態(tài)控制 ClusterID 的粒度，從而實現(xiàn)自由粒度上的相似內容打散和頻控。

基于純靜態(tài)內容特征刻畫筆記質量，實現(xiàn)冷啟／長尾優(yōu)質內容高效分發(fā)

同時，團隊利用內容的后驗分發(fā)數(shù)據(jù)（例如點擊率、點贊率、快劃率等），對預訓練向量進行微調，從而實現(xiàn)對內容分發(fā)質量的級別預測。小紅書開創(chuàng)性地構建了一整套內容質量框架，利用封面圖片畫質美學模型和多模態(tài)筆記質量分模型，定義有用和美好的內容。由于內容分發(fā)質量完全聚焦在內容的靜態(tài)特征上，因此在冷啟動和長尾內容推薦上更為有效，不會受到馬太效應的影響，避免了推薦趨向于熱門內容的問題。

新筆記冷啟動，種子人群識別——

去中心化分發(fā)的基礎

小紅書發(fā)現(xiàn)，扶持新發(fā)布、低曝光的筆記可以增強作者的發(fā)布意愿。在全域曝光中，大約一半的流量分發(fā)是普通用戶發(fā)表的內容。優(yōu)質、有價值、引發(fā)共鳴的內容永不過時。小紅書推薦分發(fā)還具有獨特的中長尾流量效應。哪怕一條筆記的初始數(shù)據(jù)一般，只要它有價值，系統(tǒng)捕捉到中長尾信號，依然會被推薦給需要的用戶，與發(fā)布時效無關。

一個素人博主沒有多少粉絲，創(chuàng)作的內容都有可能成為爆款，帖子點贊量或收藏數(shù)上千。在前文「酒店的床上看西游記」的例子中，發(fā)帖的用戶粉絲量少，主頁互動內容也不多，如何對其進行推薦和展示？

這歸結為推薦系統(tǒng)的一個核心問題——新內容的冷啟動。冷啟動的問題本質是在行為數(shù)據(jù)比較少的情況下充分理解內容，從而實現(xiàn)更精準的推薦，一般會被建模為一個 Regret Minimization 問題，主要關注如何最小化獎勵函數(shù)的損失值。其中，獎勵函數(shù)的估值標準至關重要，因為它反映了每個平臺的不同價值選擇。

多數(shù)平臺會選擇消費類指標，如點擊率和停留時長，作為獎勵函數(shù)的評估標準。相比別的平臺，小紅書具有更強的 UGC 生態(tài)，社區(qū)屬性更強。所以，在冷啟動階段，系統(tǒng)更加關注高質量評論的數(shù)量、挖掘高潛筆記，因為高質量的評論數(shù)量反映了目標人群對新內容的互動情況，也即新內容是否被準確分發(fā)到了符合其特性的人群中。

在新內容冷啟動問題方面，小紅書技術團隊形成了一套包含 4 步的 pipeline：

1、內容信息提?。?/span>新內容剛上傳時，沒有用戶行為信息，只能通過內容信息進行分發(fā)。技術團隊運用 NLP、CV 和多模態(tài)融合技術，提取內容信息，生成相關的話題和內容特征。

2、種子人群圈選和投放：團隊利用內容信息定位目標人群，這些人群是通過雙塔模型和圖神經(jīng)網(wǎng)絡產出的用戶 Embedding 進行聚類得到的。然后根據(jù)內容信息，判斷哪些人群對新內容更感興趣。新內容在種子人群中的投放，借助貝葉斯尋優(yōu)調整 boost 系數(shù)，以找到用戶指標損失和新內容曝光的最優(yōu)權衡。

3、基于行為反饋的人群擴散：在初期分發(fā)后，新內容會積累一定的用戶反饋。小紅書希望將這些新內容也分發(fā)給與反饋用戶相似的其他用戶。他們通過 lookalike 模型進行人群擴散，根據(jù)與新內容有過交互的用戶向量生成新內容向量，并將其作為向量索引。通過定義不同的用戶向量和新內容向量的相似度函數(shù)，小紅書推薦系統(tǒng) lookalike 模型的點擊率提高了約 7%。

4、模型承接：在完成初期的冷啟動后，新內容進入正常分發(fā)階段。模型的時效性決定了模型是否能有效處理新內容。通過持續(xù)迭代，目前小紅書首頁推薦的召回、粗排和精排模型的訓練都做到了分鐘級更新。

最終的效果，小紅書已經(jīng)實現(xiàn)了每日新內容占 40% 曝光，新內容的分發(fā)效率（pCTR）與老內容持平，且 24 小時內冷啟動完成率超過 98%。

推薦多樣性，長短期興趣的平衡——

興趣的探索和保留

在小紅書 APP 首頁，會用「發(fā)現(xiàn) Explore」定義信息流推薦的場景，希望能夠幫助用戶發(fā)現(xiàn)感興趣的內容，或是找到新的興趣。在「發(fā)現(xiàn)」這一目標的驅動下，多樣化的推薦顯得尤為重要。

用戶的興趣是多樣化的，并且會隨著時間的推移而變化。這些變化可能體現(xiàn)在一天的早晚，一年的四季，或者人生的不同階段。因此，小紅書的推薦系統(tǒng)不僅要提供用戶當前感興趣的內容，還要積極探索用戶可能感興趣的新領域，以更好地滿足用戶的期待。

為了達到推薦多樣性的目標，小紅書推薦系統(tǒng)引入了兩個關鍵策略——精細化信號利用（Exploitation）和探索（Exploration）。在精細化信號利用中，系統(tǒng)對用戶在多個場景（如搜索、推薦、個人頁和作者頁等）的各種行為進行精細化利用，歸因不同場景不同權重，并根據(jù)用戶的行為歷史進行序列化建模（實時、近一天、近一周、近一個月、近一年）。這種方法提高了模型對用戶興趣的捕獲和刻畫能力，有助于滿足用戶的短期興趣。

在探索策略中，系統(tǒng)使用 DPP 和 MGS 等向量打散機制，解決追打密集導致的實時興趣內容過量、長期興趣快速遺忘的問題。同時，系統(tǒng)通過人群召回來解決興趣探索問題，有助于發(fā)現(xiàn)并滿足用戶的長期興趣。

為了平衡推薦質量與多樣性，小紅書提出了滑動頻譜分解（Sliding Spectrum Decomposition，SSD）模型。在信息流推薦場景中，SSD 模型通過高效的滑窗計算，將單篇模型的價值排序轉化為整個瀏覽周期的建模。

在多樣性的定義中，需要利用 Embedding 來計算內容的相似度。相對于頭部內容，中長尾內容的用戶交互數(shù)據(jù)更加稀疏，傳統(tǒng)的協(xié)同過濾方法在計算相似度時效果不佳。因此，團隊設計了一種基于內容的協(xié)同過濾方法（CB2CF），使用內容信息預測協(xié)同過濾的結果，更有效地衡量中長尾內容的相似性。CB2CF 方法僅使用內容作為輸入，依賴模型的泛化能力為新內容提供良好的預測結果，同時依賴全體用戶的協(xié)同標注獲取用戶感知的信號，從而提高推薦質量。

CB2CF 的思想源于微軟 2019 年發(fā)表在 RecSys 上的工作。小紅書在此基礎上改進了 loss 的構造方法，取得了更好的結果 [1]

大模型時代，推薦系統(tǒng)的下一站

作為近年來增長最快速的移動互聯(lián)網(wǎng)平臺之一，小紅書證明了推薦系統(tǒng)可以兼顧用戶價值和平臺利益。當用戶在平臺表達自己的偏好，如對哪種類型的內容感興趣、希望看到和不希望看到哪些人或事等，推薦系統(tǒng)會精準的感知并不斷調優(yōu)來滿足用戶需求。這樣，用戶的滿意度提升，社區(qū)持續(xù)長大，平臺的流量價值和商業(yè)利益就在其中自然而然地生長起來。

在大模型時代，推薦系統(tǒng)正面臨著前所未有的發(fā)展機遇。大模型具有強大的泛化能力和知識理解能力，可以為推薦系統(tǒng)帶來更精準的推薦結果、更好的用戶體驗，以及解決實際問題的能力。然而，大模型在推薦系統(tǒng)中的應用也面臨著諸多挑戰(zhàn)，如計算資源需求、模型可解釋性等。

隨著大模型的蓬勃發(fā)展，小紅書的推薦系統(tǒng)將如何演進？

大模型時代推薦系統(tǒng)的機遇和挑戰(zhàn)

目前，在推薦系統(tǒng)與大模型結合領域，存在兩種技術路線：一種是將大語言模型（LLM）發(fā)展或改造成為一個推薦系統(tǒng)，另一種則是將現(xiàn)有推薦系統(tǒng)與 LLM 結合，例如將 LLM 作為特征編碼器，或者作為推薦 pipeline 的控制／調度模塊。

在第一種路線上，小紅書進行了一系列的嘗試。現(xiàn)階段而言，主要挑戰(zhàn)在于處理速度過慢。盡管輸入的參數(shù)有時會帶來出人意料的結果，但這種方法與長期積累的推薦系統(tǒng)工具和算法之間存在斷裂。小紅書技術團隊發(fā)現(xiàn)，如果完全依賴于 LLM 進行推薦，那么推薦性能將從一個相對高的行業(yè)基線跌落。因此，小紅書技術團隊目前更偏向于后者，也即在推薦系統(tǒng)的傳統(tǒng)流程中融入 LLM 的功能，他們認為這是一個極具潛力的研究方向。

總的來說，推薦系統(tǒng)與大模型的結合具有巨大的發(fā)展前景，特別是讓用戶能夠接受和系統(tǒng)進行多輪交互這一點，與傳統(tǒng)搜推系統(tǒng)場景不同，大多數(shù)用戶都愿意與 ChatGPT 等 LLM 多聊上幾句，讓推薦系統(tǒng)有了更多機會去學習和了解用戶的意圖和需求，而傳統(tǒng)場景下用戶在最初一兩次搜索沒有得到想要的結果后便會離開。因此，對于有明確業(yè)務場景的公司，可以在大模型時代挖掘出新的機會。

結語

在網(wǎng)絡內容爆炸的當下，小紅書的推薦系統(tǒng)通過其獨特的算法和設計，為普通人提供了一個發(fā)現(xiàn)和被發(fā)現(xiàn)的平臺。這種理念背后的用戶導向和社區(qū)價值，讓每個用戶的聲音都有可能被放大，成為共鳴的起點。

隨著技術的發(fā)展，推薦系統(tǒng)需要更多人性化的考慮，例如，如何在確保內容質量和保持算法公正性之間找到平衡，如何避免讓不具備長期價值的內容被過度放大。大模型時代，推薦系統(tǒng)的可解釋性和透明度如何增強，也是一個重要的挑戰(zhàn)。

在小紅書的案例中，我們看到了技術如何助力構建更加平等和多元的內容生態(tài)，這個過程中的技術抉擇和價值考量是推動社區(qū)長期健康發(fā)展的關鍵。對于用戶而言，思考這些問題，不僅是享受個性化內容帶來的便捷，也是理解和參與未來數(shù)字社會的重要一步。

注釋

[1] 論文：Sliding Spectrum Decomposition for Diversified Recommendation，https:///abs/2107.05204

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內容，請點擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

為什么普通人「出圈」，都在小紅書？

為什么普通人「出圈」，都在小紅書？