
探尋微博背后的大數據原理:微博推薦算法簡述
“We are leaving the age of information and entering the age of recommendation” — Chris Anderson in The Long Tail。
我們正在遠離信息,而進入推薦時代?!死锼埂ぐ驳律?/span>
在介紹微博推薦算法之前,我們先聊一聊推薦系統和推薦算法。有這樣一些問題:推薦系統適用哪些場景?用來解決什么問題、具有怎樣的價值?效果如何衡量?
推薦系統誕生很早,但真正被大家所重視,緣起于以”facebook”為代表的社會化網絡的興起和以“淘寶“為代表的電商的繁榮,”選擇“的時代已經來臨,信息和物品的極大豐富,讓用戶如浩瀚宇宙中的小點,無所適從。推薦系統迎來爆發的機會,變得離用戶更近:
推薦系統的適用場景還有很多,不再一一列舉;其主要解決的問題是為用戶找到合適的item(連接和排序),并找到一個合理的理由來解釋推薦結果。而問題的解決,就是系統的價值,即建立關聯、促進流動和傳播、加速優勝劣汰。
推薦算法是實現推薦系統目標的方法和手段。算法與產品相結合,搭載在高效穩定的架構上,才能發揮它的最大功效。
接下來我們說一下微博推薦,微博本身的產品設計,使得即使沒有推薦系統,仍然會形成一個大的用戶關系網絡,實現信息快速傳播;而衡量一個事物的價值,一個簡單的方法是對比看看保留它和去掉它時的差別。微博需要健康的用戶關系網絡,保障用戶feed流的質量,且需要優質信息快速流動,通過傳播淘汰低質信息。微博推薦的作用在于加速這一過程,并在特定的情況下控制信息的流向,所以微博推薦的角色是一個加速器和控制器。
最后回到微博推薦算法中來,上面扯了那么多,只是為了讓大家能對微博推薦算法有更好的理解。我們的工作,是將微博推薦的目標和需要解決的問題,抽樣為一系列的數學問題,然后運用多種數據工具進行求解。
接下來首先用一個圖梳理下我們用到的方法和技術,然后再逐一介紹。
這一層算法的主要作用是為微博推薦挖掘必要的基礎資源、解決推薦時的通用技術問題、完成必要的數據分析為推薦業務提供指導。
這一部分中常用的算法和技術如下:
是微博內容推薦的基礎,用于將微博內容轉化為結構化向量,包括詞語切分、詞語信息標注、內容核心詞/實體詞提取、語義依存分析等。
用于微博內容推薦候選的分析,包含微博內容分類和營銷廣告/色情類微博識別;
內容分類采用決策樹分類模型實現,共3級分類體系,148個類別;營銷廣告/色情類微博的識別,采用貝葉斯與最大熵的混合模型。
主要用于熱點話題挖掘,以及為內容相關推薦提供關聯資源。屬于微博自主研發的聚類技術WVT算法(word vector topic),依據微博內容特點和傳播規律設計。
開展微博傳播模型研究和用戶網絡影響力分析(包含深度影響力、廣度影響力和領域內影響力)。
微博具有這樣的特點:用戶貢獻內容,社會化途徑傳播,帶來信息的爆炸式傳播。之所以稱作graph-based 推薦算法,而不是業界通用的memory-based 算法,主要原因在于:
從graph的宏觀角度看,我們的目標是建立一個具有更高價值的用戶關系網絡,促進優質信息的快速傳播,提升feed流質量;其中的重要工作是關鍵節點挖掘、面向關鍵節點的內容推薦、用戶推薦。
對這部分的算法做相應的梳理,如下面的表格:
這里的困難點在于graph的“邊”怎樣量化與取舍,依據多個“邊”與“節點”的綜合評分計算,以及與網絡挖掘分析結果的融合。
這部分的算法研發中,產出了如下的數據附產品:
Content-based 是微博推薦中最常用也是最基礎的推薦算法,它的主要技術環節在于候選集的內容結構化分析和相關性運算。
正文頁相關推薦是content-based 應用最廣的地方,以它為例,簡要的說一下
內容分析的很多點已在前面描述過了,這里重點說2個地方:
相關計算的技術點在于向量的量化和距離度量,我們通常使用“tf*idf權重量化 + 余弦距離”或者“topic 概率 + KLD距離“的兩種方法。
微博作為中國最大的社會化媒體產品,具有海量的用戶和信息資源;這就給推薦帶來了2個挑戰:
來源融合與排序
候選的極大豐富,意味著我們有更多的選擇,于是我們推薦結果的產生包含兩層:多種推薦算法的初選與來源融合排序的精選,為了得到更客觀準確的排序結果,我們需要引入機器學習模型,來學習隱藏在用戶群體行為背后的規律。
內容動態分類和語義相關
微博UGC的內容生產模式,以及信息快速傳播和更新的特點,意味著之前人工標注樣本,訓練靜態分類模型的方法已經過時了,我們需要很好的聚類模型把近期的全量信息聚合成類,然后建立語義相關,完成推薦。
Model-based 算法就是為了解決上述的問題,下面是我們兩塊最重要的機器學習工作:
3.1 CTR/RPM(每千次推薦關系達成率)預估模型,采用的基本算法為Logistic regression,下面是我們CTR預估模型整體的架構圖:
這部分工作包含樣本選擇、數據清洗、特征提取與選擇、模型訓練、在線預估和排序。值得一提的是,模型訓練前的數據清洗和噪音剔除非常重要,數據質量是算法效果的上界,我們之前就在這個地方吃過虧。
Logisitic regression是一個2分類概率模型
優化的目標在于最大化“樣本正確分類概率的連乘值“;我們借助yahoo 研發的vowpal_wabbit機器學習平臺來完成模型特征值求解的最優化過程。
3.2 LFM(Latent Factor Model):LDA、矩陣分解(SVD++、SVD Feature)
LDA是2014年初重點開展的項目,現在已經有了較好的產出,也在推薦線上產品中得到了應用;LDA本身是一個非常漂亮和嚴謹的數學模型,下面是我們一個LDA topic的例子,僅供參考。
至于矩陣分解,2013年的時候做過相應的嘗試,效果不是特別理想,沒有繼續投入。
隱語義模型是推薦精度最高的單一模型,其困難在于數據規模大時,計算效率會成為瓶頸;我們在這個地方開展了一些工作,后續會有同學專門介紹這一塊。
三個臭皮匠頂個諸葛亮,每一種方法都有其局限性,將不同的算法取長補短,各自發揮價值,是極為有效的方式。微博推薦算法主要采用了下面的混合技術:
即在推薦過程的不同時間段,采用不同的推薦算法;以正文頁相關推薦為例,在正文頁曝光的前期階段,采用content-based + ctr預估的方法生成推薦結果,待產生的足量可信的用戶點擊行為后,再采用user-based 協同過濾的方法得到推薦結果,如下圖所示:
這樣利用content-based很好的解決了冷啟動的問題,又充分發揮了user-based CF的作用,實現1+1>2的效果。
很多情況下,一個模型無法很好的得到想要的效果,而分層組合往往會取得比較好的效果,分層模型混合即“將上一層模型的輸出作為下層模型的特征值,來綜合訓練模型,完成推薦任務“。比如我們在做微博首頁右側的ctr預估排序時,采用分層邏輯回歸模型,解決了不同產品間特征天然缺失與樣本量差異、曝光位置帶來的效果偏差等問題。
這類混合技術思路非常簡單,即在推薦候選非常豐富的情況下,采用逐層過濾的方法的得到推薦結果,通常將運算快、區分度低的算法放在前面,完成大量候選集的篩選;將運算慢、區分度高的算法放在后面,精細計算剩下的小規模集合。這類混合在微博推薦中大量使用,我們采用各種輕量算法完成候選集粗選,然后采用ctr預估做精細化排序。
各類推薦算法中子技術,可以在另外的推薦算法中綜合使用,比如content-based在相關性計算中積累的距離計算方法,可以很好的應用在協同過濾的量化計算中。實際的例子,我們將研究LDA時積累的向量計算方法成功的應用到用戶推薦中。
微博數據的特點(海量、多樣、靜態與動態數據混在一起),決定了大部分推薦產品的結果需要同時借助online和offline的計算來完成。從系統和算法設計的角度,這是一個“重”與“輕”的問題,計算分解和組合是關鍵,我們需要將對時間不敏感的重型計算放在offline端,而將時間敏感性強的輕型快速計算放在online端。幾種我們常用的方式如下圖:
Online需要簡單可靠的算法,快速得到結果;簡要說明下上面的圖,如下
1)計算過程拆解的離線部分,如user-based CF中的用戶相似度,online通過數據庫讀取后在線計算完成user-based 推薦。
2)離線挖掘的優質候選集,如正文頁相關推薦的內容候選集,online通過索引獲取到數據后,再通過相關性和ctr預估排序生成推薦結果。
3)具有較高相似度的推薦結果集,如offline計算好粉絲相似高的用戶,在線對用戶行為做出實時反饋,實時補充推薦與其剛關注用戶相似的用戶。
此外,我們也有直接online計算完成的推薦結果,如首頁右側話題推薦,由于用戶對話題需求的差異非常小,它基本上是一個排行榜的需求,但熱門微博也可以有精巧的設計,我們采用了一個曝光動態收益模型,通過上一段時段的(點擊收益-曝光成本)來控制下一時段的item曝光幾率,取得了非常好的效果,ctr和導流量有3倍以上的提升。
不同類型的推薦結果,要輔以不同的推薦理由,這一點需要前端的多種展示嘗試和offline的日志分析。
算法效果的度量方式決定了大家努力的方向,而對于不同類型的推薦,最好根據產品的定位和目標,采用不同的標準體系去衡量工作結果。實際效果的評測分為3個層次:用戶滿意度、產品層指標(如ctr)、算法層指標,我們的效果評測也會分為人工評測、線上A/B測試、離線算法效果評測3種。
產品指標的制定,應該從產品期望達成的目標出發,體現用戶滿意度。
對算法離線評測而言,關鍵的是找到一套合理的算法評測指標去擬合產品層指標,因為算法離線評測總是在上線前進行,這個對應做的越好,算法的優化成果才能更好的轉化為線上的產品指標。
下圖為我們的算法離線效果評測的架構圖
常用的離線評測指標有:RMSE、召回率、AUC、用戶內多樣性、用戶間多樣性、新穎性等。對于不同的產品有不同的組合指標去衡量,比如用戶推薦中“用戶間多樣性”非常重要,而熱點話題卻可以允許用戶間有較大的結果重合度。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25