
粗糙的貝葉斯轉化概率預測模型
轉化率是網站分析中最受關注的指標之一,如何設定轉化率目標?哪些用戶最有可能轉化?他們有哪些特征?如何發現并找到這些用戶?這些都是負責網站運營和市場營銷的同學最關注的問題。本篇文章通過貝葉斯算法對網站中已經完成轉化的歷史用戶數據進行分析,發現購買轉化用戶的特征,并通過交叉細分對不同用戶購買轉化的概率進行預測。
貝葉斯是分類和預測算法中的一種,我們在前面的文章中已經詳細介紹過它的計算過程。貝葉斯通過已知的P(B|A)的概率計算P(A|B)的概率。如果P(A)和P(B)相互獨立,成為樸素貝葉斯(Naive Bayes)。以下為貝葉斯的計算公式:
我們將通過這個公式對用戶的轉化概率進行預測。下面是一個人工生成的數據表截圖(需要說明的是,這些數據都是人工生成的示例數據,并不代真實的品類及來源表現)。這類數據表可能來自網站的服務器日志,CRM系統,用戶調研報告或者網站數據報告中。在這個簡單的數據表里只包含有兩個字段:品類和是否購買。其中品類表示用戶訪問過的頁面所屬的商品類別,是否購買表示用戶最終是否付款。在這個數據表中,是否購買是我們所關注的結果。品類是維度。
在使用貝葉斯公式開始計算之前,我們首先需要將數據表轉化為以維度和結果組成的頻率表,頻率表中包含4類信息:
每個品類用戶的數量。
購買和未購買用戶的數量。
不同品類購買和未購買的訪問者數量。
用戶的總數量。
我們將使用者四類信息來計算貝葉斯算法中所需要的概率值。在生成頻率表的過程中有一點需要注意,結果信息(購買/未購買)要放在列的位置,維度信息(數碼,家居)要放在行的位置。下面我們將通過頻率表生成用于計算的似然表。
以下為似然表,其中包含了用于貝葉斯算法中所需要的概率值。我們與貝葉斯公式對照來看:P(A)=P(購買)是完成購買的概率,P(B)=P(數碼)是數碼類別的概率,P(B|A)=P(數碼|購買)是已經購買的用戶中數碼品類的概率。下面的圖表中標識了這幾個概率和所對應的位置。
將各個對應的概率值代入到貝葉斯公式中,求出各品類的購買概率。下面是以數碼品類為例計算出的購買概率。
將其他品類的數據分別代入到貝葉斯公式中,求出所有品類的購買概率。每個品類購買概率的數值如下表所示。
這個概率值可以理解為不同品類的轉化率。這里有兩個需要說明的問題。首先,預測的概率數據可能并不準確,因為我們只考慮了單一維度的因素(品類)。而影響用戶購買的影響因素會有很多,并且品類維度也未必是最重要的影響因素。這就好像我們看見一個黑人就認為他來自非洲一樣。只依靠膚色這個單一的維度來做判斷結果可能并不準確。其次,這個分品類的轉化率我們通過現有數據也能求出來,不需要通過復雜的貝葉斯算法計算。并且這個預測數據對于尋找新的轉化用戶,以及優化購買轉化率并沒有明顯的支持作用。
因此,為了獲得更準確并且有價值的預測數據,我們需要在更廣泛的數據源中增加新的維度。下面的數據表與之前相比增加了新的維度“來源”,我們通過來源和品類兩個維度重新計算轉化概率。
計算的方法和之前一樣,先分別計算并生成兩個維度的頻率表。下面是來源和品類維度各自的頻率表。
在頻率表的基礎上分別對來源和品類維度生成似然表。下面的圖表中標注了所需要的概率值。
將似然表中的概率值代入到公式中,求出所需的概率值。這里以SEM流量在數碼品類的購買概率為例進行計算。
將渠道和品類的概率值分別代入公式獲得分來源的品類購買概率。如下表所示??梢园l現,與之前相比每個品類的轉化概率都與來源維度進行了交叉細分。對細分后的品類轉化概率進行對比后可以發現每個流量來源對于不同品類的轉化概率。例如:對于數碼品類,引薦流量,EDM流量和社交媒體的購買概率要高于其他來源。到了這一步也許你還想知道每個流量來源的特征和在不同品類中的轉化概率。
我們以來源作為主維度來重新組織數據,分析不同流量來源的特征以及在不同品類中的轉化概率。以SEM流量為例,在示例數據中,SEM流量在汽車,圖書和戶外品類中的轉化概率較高,在數碼和服裝的轉化概率一般,在家居品類的的轉化概率則相對較差。
到這一步我們已經有了流量來源和品類交叉的概率。與之前的單一品類維度轉化概率來看要更準確一些,并已經能對流量渠道選擇和廣告投放有一些初步的指導作用。但這些數據并不是基于人的,無法幫助我們發現用戶的特征以及如何尋找更多的轉化用戶。因此,我們需要增加與人有關的維度。這些數據可能并不在網站日志中,他們可能來自用戶調研或其他渠道。下面的數據表中增加了用戶的人群屬性信息,如月收入,婚姻狀況,學歷,和星座等信息,這也更貼近網站分析中的真實情況。
我們重新調整視角,把關注和分析的維度從流量來源轉向與人有關的屬性。首先是用戶月收入屬性和品類。這里我們假定品類是用戶來訪的目的。以服裝品類為例,通過月收入和品類維度的交叉細分可以發現,月收入15000元以上用戶完成購買的概率較高,而月收入在5001-10000元的用戶完成購買的概率較低,為0.38。
重新整理兩個細分維度的順序,將月收入作為主維度可以發現不同收入區間用戶對品類的網站商品購買的概率。以15001-20000元區間為例,購買圖書,汽車,母嬰和服裝的概率較高,而購買家居和戶外品類的概率則相對較低。
兩個維度的購買概率預測明顯要優于單一維度的結果。因為我們掌握了更多的信息,降低了結果的不確定性。但這還并不能回答本文開篇時的問題,哪些用戶最有可能轉化?如何找到這些用戶?他們有哪些特征?因此,還需要引入更多的用戶屬性。下面我們將維度增加到3個,以更好的對用戶進行細分和定位。
在下面的數據表中,我們使用品類,學歷和婚姻狀況三個維度進行交叉細分,建立不同用戶的購買概率表。與兩個維度的概率表相比,三個維度的概率表無論是在內容還是計算量上都增加了一倍(這還只是在增量了婚姻狀況后的情況,如果增加星座維度,會更加復雜)。多維度的概率表應該由程序計算和維護,而不應該手動計算。
三個維度交叉后的購買概率表能夠更加精準的描述用戶屬性,并定位用戶的購買偏好。對于一個??茖W歷,未婚的用戶,我們可以根據歷史的購買數據來判斷他有0.94的概率會購買戶外用品?;蛘邠Q個角度來看,對于汽車這個品類,尋找未婚的碩士研究生用戶可能比尋找已婚小學用戶購買概率高0.2(0.81-0.61)。
這個購買的預測概率準確嗎?按照這個概率來尋找用戶投放廣告就一定能有收獲嗎?答案是不一定。概率只是這件事發生的可能性,并不是說這件事一定會發生。因為實際情況比模型要復雜的多,以服裝品類為例,這其中可能還涉及到季節性因素和品牌因素和價格因素的影響。因此我們還需要按照每次預測的結果對模型進行不斷的調整和優化。
最后再次說明,本文中的所有數據都是人工生成的示例數據,只為說明分析思路和計算過程,沒有任何代表性。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25