熱線電話:13121318867

登錄
首頁精彩閱讀粗糙的貝葉斯轉化概率預測模型
粗糙的貝葉斯轉化概率預測模型
2016-05-05
收藏

粗糙的貝葉斯轉化概率預測模型

轉化率是網站分析中最受關注的指標之一,如何設定轉化率目標?哪些用戶最有可能轉化?他們有哪些特征?如何發現并找到這些用戶?這些都是負責網站運營和市場營銷的同學最關注的問題。本篇文章通過貝葉斯算法對網站中已經完成轉化的歷史用戶數據進行分析,發現購買轉化用戶的特征,并通過交叉細分對不同用戶購買轉化的概率進行預測。

貝葉斯是分類和預測算法中的一種,我們在前面的文章中已經詳細介紹過它的計算過程。貝葉斯通過已知的P(B|A)的概率計算P(A|B)的概率。如果P(A)和P(B)相互獨立,成為樸素貝葉斯(Naive Bayes)。以下為貝葉斯的計算公式:

貝葉斯計算公式

我們將通過這個公式對用戶的轉化概率進行預測。下面是一個人工生成的數據表截圖(需要說明的是,這些數據都是人工生成的示例數據,并不代真實的品類及來源表現)。這類數據表可能來自網站的服務器日志,CRM系統,用戶調研報告或者網站數據報告中。在這個簡單的數據表里只包含有兩個字段:品類和是否購買。其中品類表示用戶訪問過的頁面所屬的商品類別,是否購買表示用戶最終是否付款。在這個數據表中,是否購買是我們所關注的結果。品類是維度。

圖書

在使用貝葉斯公式開始計算之前,我們首先需要將數據表轉化為以維度和結果組成的頻率表,頻率表中包含4類信息:

每個品類用戶的數量。

購買和未購買用戶的數量。

不同品類購買和未購買的訪問者數量。

用戶的總數量。


我們將使用者四類信息來計算貝葉斯算法中所需要的概率值。在生成頻率表的過程中有一點需要注意,結果信息(購買/未購買)要放在列的位置,維度信息(數碼,家居)要放在行的位置。下面我們將通過頻率表生成用于計算的似然表。

似然表

以下為似然表,其中包含了用于貝葉斯算法中所需要的概率值。我們與貝葉斯公式對照來看:P(A)=P(購買)是完成購買的概率,P(B)=P(數碼)是數碼類別的概率,P(B|A)=P(數碼|購買)是已經購買的用戶中數碼品類的概率。下面的圖表中標識了這幾個概率和所對應的位置。

頻率

將各個對應的概率值代入到貝葉斯公式中,求出各品類的購買概率。下面是以數碼品類為例計算出的購買概率。購買概率

將其他品類的數據分別代入到貝葉斯公式中,求出所有品類的購買概率。每個品類購買概率的數值如下表所示。數值

這個概率值可以理解為不同品類的轉化率。這里有兩個需要說明的問題。首先,預測的概率數據可能并不準確,因為我們只考慮了單一維度的因素(品類)。而影響用戶購買的影響因素會有很多,并且品類維度也未必是最重要的影響因素。這就好像我們看見一個黑人就認為他來自非洲一樣。只依靠膚色這個單一的維度來做判斷結果可能并不準確。其次,這個分品類的轉化率我們通過現有數據也能求出來,不需要通過復雜的貝葉斯算法計算。并且這個預測數據對于尋找新的轉化用戶,以及優化購買轉化率并沒有明顯的支持作用。

因此,為了獲得更準確并且有價值的預測數據,我們需要在更廣泛的數據源中增加新的維度。下面的數據表與之前相比增加了新的維度“來源”,我們通過來源和品類兩個維度重新計算轉化概率。

來源

計算的方法和之前一樣,先分別計算并生成兩個維度的頻率表。下面是來源和品類維度各自的頻率表。維度頻率表

在頻率表的基礎上分別對來源和品類維度生成似然表。下面的圖表中標注了所需要的概率值。概率值

將似然表中的概率值代入到公式中,求出所需的概率值。這里以SEM流量在數碼品類的購買概率為例進行計算。概率計算

將渠道和品類的概率值分別代入公式獲得分來源的品類購買概率。如下表所示??梢园l現,與之前相比每個品類的轉化概率都與來源維度進行了交叉細分。對細分后的品類轉化概率進行對比后可以發現每個流量來源對于不同品類的轉化概率。例如:對于數碼品類,引薦流量,EDM流量和社交媒體的購買概率要高于其他來源。到了這一步也許你還想知道每個流量來源的特征和在不同品類中的轉化概率。轉化概率

我們以來源作為主維度來重新組織數據,分析不同流量來源的特征以及在不同品類中的轉化概率。以SEM流量為例,在示例數據中,SEM流量在汽車,圖書和戶外品類中的轉化概率較高,在數碼和服裝的轉化概率一般,在家居品類的的轉化概率則相對較差。家居轉換

到這一步我們已經有了流量來源和品類交叉的概率。與之前的單一品類維度轉化概率來看要更準確一些,并已經能對流量渠道選擇和廣告投放有一些初步的指導作用。但這些數據并不是基于人的,無法幫助我們發現用戶的特征以及如何尋找更多的轉化用戶。因此,我們需要增加與人有關的維度。這些數據可能并不在網站日志中,他們可能來自用戶調研或其他渠道。下面的數據表中增加了用戶的人群屬性信息,如月收入,婚姻狀況,學歷,和星座等信息,這也更貼近網站分析中的真實情況。情況

我們重新調整視角,把關注和分析的維度從流量來源轉向與人有關的屬性。首先是用戶月收入屬性和品類。這里我們假定品類是用戶來訪的目的。以服裝品類為例,通過月收入和品類維度的交叉細分可以發現,月收入15000元以上用戶完成購買的概率較高,而月收入在5001-10000元的用戶完成購買的概率較低,為0.38。概率調整

重新整理兩個細分維度的順序,將月收入作為主維度可以發現不同收入區間用戶對品類的網站商品購買的概率。以15001-20000元區間為例,購買圖書,汽車,母嬰和服裝的概率較高,而購買家居和戶外品類的概率則相對較低。購買家居概率

兩個維度的購買概率預測明顯要優于單一維度的結果。因為我們掌握了更多的信息,降低了結果的不確定性。但這還并不能回答本文開篇時的問題,哪些用戶最有可能轉化?如何找到這些用戶?他們有哪些特征?因此,還需要引入更多的用戶屬性。下面我們將維度增加到3個,以更好的對用戶進行細分和定位。

在下面的數據表中,我們使用品類,學歷和婚姻狀況三個維度進行交叉細分,建立不同用戶的購買概率表。與兩個維度的概率表相比,三個維度的概率表無論是在內容還是計算量上都增加了一倍(這還只是在增量了婚姻狀況后的情況,如果增加星座維度,會更加復雜)。多維度的概率表應該由程序計算和維護,而不應該手動計算。

三個維度交叉后的購買概率表能夠更加精準的描述用戶屬性,并定位用戶的購買偏好。對于一個??茖W歷,未婚的用戶,我們可以根據歷史的購買數據來判斷他有0.94的概率會購買戶外用品?;蛘邠Q個角度來看,對于汽車這個品類,尋找未婚的碩士研究生用戶可能比尋找已婚小學用戶購買概率高0.2(0.81-0.61)。

未婚碩士概率

這個購買的預測概率準確嗎?按照這個概率來尋找用戶投放廣告就一定能有收獲嗎?答案是不一定。概率只是這件事發生的可能性,并不是說這件事一定會發生。因為實際情況比模型要復雜的多,以服裝品類為例,這其中可能還涉及到季節性因素和品牌因素和價格因素的影響。因此我們還需要按照每次預測的結果對模型進行不斷的調整和優化。

最后再次說明,本文中的所有數據都是人工生成的示例數據,只為說明分析思路和計算過程,沒有任何代表性。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢