熱線電話:13121318867

登錄
首頁精彩閱讀聊一聊特征學習在用戶偏好預測中的應用
聊一聊特征學習在用戶偏好預測中的應用
2017-03-02
收藏


本文聊聊如何利用客戶購買行為預測其偏好。


為了基于客戶購買行為預測其偏好,可以利用機器學習中比較新興的稀疏編碼和稀疏限制性玻爾茲曼機將原始數據變換成稀疏高緯表示。這些特征學習技巧獨立于預測模型,比如 logit model ,并且可以使得偏好預測的準確率得以提升。

提取到的特征一般是比較抽象的,通常具有一定的解釋性,但也不是所有的特征都具有較好的解釋性意義。特征學習并不是簡單的尋找新數據,所學特征本質上是原始數據的函數。給定偏好預測模型,比如 logit 模型或支持向量機,經過特征學習之后會比在原始數據中直接利用偏好預測模型取得更好的效果,預測準確率會有較大程度的提升。

特征學習方不需要領域知識,可以用于多種類型的數據。特征學習在很多領域都取得較好的效果,比如圖像分類,語音識別,信息檢索,自然語言處理等。

特征學習方法能夠捕捉原始數據中的隱含因子,這些隱含因子可以通過對原始數據進行編碼得到。通常的做法如下,將原始數據映射到高維特征空間中,其維度高于原始數據所在空間,然后引入稀疏性限制或稀疏性約束因子,進而使得原數據可以由高維空間中部分因子來表示。這里的映射和新特征空間中的表示都是由最小化某種描述重構誤差的目標函數來決定的,重構誤差是指原始變量和新特征表示之間的誤差,其中還包含了對特征激活施加的稀疏性約束或懲罰項。

其中一種方法是稀疏編碼,這種方法跟主成分分析類似,因為它將原數據嵌入到新的基中。跟主成分分析不同之處在于,只有從特征表示到原始數據的解碼是線性的,編碼過程基于線性重構誤差和 L1 范數的稀疏懲罰項,這種做法可以保證系數是實值,并且具有稀疏性。由于基向量不再正交,稀疏編碼可以用來學習完備的基集合,其中基的個數多于原空間的維度?;陚涞膬瀯菰谟诳梢杂行У夭蹲綌祿袧撛诘慕y計分布,編碼效率更高。

一般情況下,稀疏編碼的數學表示如下:


其中x表示原空間中的向量,b 是新空間中的向量,h 是系數,β 是稀疏性系數。

如果原空間中包含了高斯分布的變量,如年齡,二項分布的變量,如性別,類別變量,如區域。則稀疏編碼的數學表示如下:


稀疏編碼的優化算法可以利用共軛梯度法和投影梯度搜索法。

第二種方法是稀疏限制性玻爾茲曼機。它是一般玻爾茲曼機的一種特殊情形,玻爾茲曼機是一種無向圖模型,其中狀態空間關聯的能量表示該狀態中找到系統的概率。限制性玻爾茲曼機中,每個狀態由顯式節點和隱式節點共同決定,每個節點都對應一個隨機變量。隱含節點取值隨機并且是二值的,這種節點可以增加系統模型的表示能力,并且可以看作捕捉高維表示的特征。這里的限制性是指沒有顯式節點內部的連接,也沒有隱式節點內部的連接。

限制性玻爾茲曼機的某個狀態所對應的概率如下:


針對實數取值的變量,其能量函數如下:


二項分布的變量,其能量函數如下:


類別隨機變量,其能量函數如下:


單個隱層節點的條件密度如下:


給定一個輸入,隱含層表示如下:


由于限制性,即層內之間沒有連接,則


為訓練限制性玻爾茲曼機,可以利用梯度下降法來訓練。梯度如下:


最后來介紹下整體流程。


首先將數據集分割成訓練集,驗證集和測試集,然后在訓練集上編碼和學習特征,進而利用偏好模型加以預測,在驗證集合中驗證效果,最后在測試集中查看效果。
這里的預測模型包含L1 and L2 logit 模型,樸素貝葉斯,L1 and L2 線性和核化的支持向量機,以及隨機森林等。

實驗結果如下


實驗結果表明利用稀疏編碼或稀釋限制性玻爾茲曼機提取特征,可以提高預測精度。其中數據集是機車購買數據,整合了 Maritz 汽車購買調查(Maritz Research Inc., 2007. Maritz Research 2006 new vehicle customer satisfactions survey. Information online at: http://www.maritz.com.),Chrome 汽車規格數據庫(Chrome Systems Inc., 2008. Chrome New Vehicle Database. Information inline at: http://www. chrome.com.), 美國人口調查局的收入和消費數據(United States Census Bureau, 2006. 2006 U.S. Census estimates. Information online at: http://www.census. gov.)。


作者    Frank
本文為 CDA 志愿者Frank原創作品,轉載需授權


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢