熱線電話:13121318867

登錄
首頁精彩閱讀淺談機器學習在市場營銷中的應用
淺談機器學習在市場營銷中的應用
2017-03-06
收藏


目前,在線展示廣告越來越流行。在線展示廣告的目的是獲取更多的潛在客戶,吸引客戶購買商品。在線展示廣告的一個基本要求就是通過廣告獲取用戶所需費用要小于用戶購買商品所耗費用,進而使得通過廣告吸引來的客戶為企業帶來利潤。


在線展示廣告中,比較流行的方式是通過手工精心設計更吸引人的廣告,來招攬客戶。然而,這種方法具有其局限性,并不是所有用戶的興趣點都一致,由于這種方式沒有個性化特征,所帶來的效果并沒有特別顯著。既然人工方式帶來的效果不顯著,那么可以考慮利用機器學習自動挖掘其中的潛在特性,進而帶來更好的效果。

什么是機器學習呢?機器學習即為利用算法自動發現人們自己不能發現的潛在特征,或者隱藏的一些規律。機器學習已經在很多領域取得了顯著的效果,如圖像識別,語音識別,自然語言處理等。

如何在市場營銷中利用機器學習呢?首先需要找出相關的特征。機器學習中,一般用一行表示一個樣本,每個列是一個相關的特征。針對不同的應用場景,需要找出不同的特征。本文以客戶流失預測為例,客戶流失預測相關的特征大致有距離上次登錄時間,下單數,消費總金額,評論數等等。

其次要確定目標變量。每個樣本都對應一個目標變量,比如在客戶流失場景中,可以用 0 和 1 來標識某個用戶是否流失。

確定了特征和目標變量,就要收集相關數據。為收集相關數據,需要找到相關的數據庫以及相關的表格中相應的列或者其他存儲方式的原始數據。在這個步驟中,可以得到一張集成的表格,其中包含了相關特征和目標變量。每一行對應一個樣本。

收集完數據,接下來要選擇恰當的機器學習算法來解決客戶流失預測問題。由于預測客戶流失本質上是一個二分類問題,可以選擇的算法主要有 logistic regression (邏輯回歸),  decision tree (決策樹), neural network (神經網絡), support vector machine (支持向量機)等等。 現實問題中,通常數據比算法更重要,解決問題的算法有很多,只要收集的數據質量比較好,那么利用恰當的算法往往比復雜算法用于質量比較差的數據時取得的效果更好。簡而言之,通常情況下數據比算法要重要。

logistic regresion 示意圖

decision tree 示意圖

neural network 示意圖

support vector machine 示意圖


選擇了恰當的算法,就要對原始數據進行分割,分割成訓練集和測試集。如此分割,是為了方便查看在訓練集上訓練所得模型是否在測試集中可以取得理想的效果。通常分割比例為 6 : 4 或者 7 : 3 。前者為訓練集占比,后者為測試集占比。訓練集用來訓練算法,學習其中的參數,測試集用來查看或檢驗所選算法在測試集上的效果。

將原始數據分成訓練集和測試集之后,就可以運行算法了。當前比較流行的機器學習算法都集成到了包里,用戶可以利用 R 或者 Python 來運行相關算法。目前,數據科學(data science)領域比較流行的運行機器學習算法的兩種語言就是 R 和 Python。

運行完算法,需要衡量算法效果。通??梢岳脺蚀_率,召回率,F1 score 以及 AUC (Area under ROC)。準確率即為預測成流失的樣本中真實流失樣本占比,召回率即為原本即為流失樣本且預測成流失樣本的樣本在真實流失樣本中的占比。F1 score 是準確率以及召回率的調和平均。AUC 是 ROC(receiver operating characteristic)曲線下的面積,其中 ROC 是曲線,橫坐標是 FPR(FALSE positive rate),縱坐標是 TPR(TRUE positive rate,也可以看做召回率)。

ROC 曲線示意圖

通過機器學習算法也可以發現對客戶流失造成較大影響的因素,進而可以采取相應的措施來挽留客戶。挽留客戶是營銷領域中比較重要的一項任務,挽留了客戶才可以使得客戶為企業帶來更大的價值。


作者    Frank
本文為 CDA 志愿者Frank原創作品,轉載需授權


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢