
情境大數據建模及其在用戶行為預測中的應用
隨著信息技術的快速發展,人類社會進入了全面的信息化時代。伴隨著大量網絡應用的出現,人們的生活方式發生了改變,越來越多的時間被投入在信息平臺上,如個人電腦、智能手機、平板電腦、智能電視等,同時人們的行為方式和習慣也很大程度上被傳感器、智能監控等設備收集。隨著平臺系統收集信息的能力不斷增強,大數據時代正在到來。
信息系統中收集了用戶主動或者被動留下的大量行為數據,同時也收集了大量與用戶行為相關的海量情境信息,如社交媒體上的輿情信息、自然環境信息(天氣、空氣、溫度等)、生產經濟信息(GDP、生產價格指數、CPI、證券)等數據。
在大數據時代的用戶分析應用中,越來越多的情景信息能夠提供豐富的用戶行為細節,更細致更全面地刻畫行為發生的背景,有效地輔助用戶行為建模。從另一個角度來看,大規模情境建模是一種處理大數據的趨勢,它將關聯的大數據直接轉換為特定目標任務所處環境的復雜情境信息,其作用也越來越重要。
在大數據場景下,當傳統行為數據收集極為充分之后,進一步收集行為數據在當前的模型框架下可能無法帶來預測性能的大幅度提升。因為當前模型建模的假設大多是針對用戶和對象本身,而忽略外在情境因素對用戶和對象的影響,更多的用戶行為數據也不能擬合出更好的模型參數進而得到更好的算法效果。
此時,引入豐富的情境大數據,進一步揭示行為發生的機制則更為重要。目前數據分析領域已經開始重視情境建模,越來越廣泛的研究領域在具體任務建模上引入情境大數據,大幅度提升了預測任務的性能。谷歌趨勢(Google Trend)將搜索引擎的檢索數據引入流感傳播的建模過程中[1]。它曾經構建了一套流感預測的系統,通過搜索引擎的檢索數據來預估各個時間點流感的狀況,在存在外部突發事件時,這套系統的預測結果會因為外部某個事件的刺激而遠遠偏離真實。
后期回到利用疾控中心數據進行預測上,將外部的用戶檢索數據作為情境信息,獲得了更加準確穩定的結果。金融領域也利用經濟和社會輿論等情境大數據來輔助建模股價、債券走勢的預測,例如美國斯坦福大學和谷歌研究人員訓練了一個長短期記憶網絡(long-short term memory network,LSTM)模型來預測標準普爾500指數的走勢[2]。
該模型結合了反映公眾情緒和宏觀經濟的谷歌趨勢情境大數據,包含經濟類關鍵詞檢索結果,獲得了遠超傳統模型的預測效果。
在信息檢索和數據挖掘領域的用戶行為預測場景中,情境大數據也非常豐富,其中用戶行為常常隨著這些情境信息的變化而發生改變。例如,當一個用戶與小孩在一起時,他可能會傾向于看動畫片;當與愛人在一起時,他可能會傾向于看浪漫電影。
將情境大數據因素納入模型構建,能夠細致地刻畫出用戶行為的場景,間接反映出產生用戶行為的原因,顯著提升行為預測的效果。目前,研究工作主要針對特定的情景信息進行建模,并應用到特定的任務中。例如分析社交媒體上的用戶行為,參考文獻[3]提出一種結合當前情境下輿情的主題模型,主要運用到與用戶興趣主題相關的領域。
本文主要從兩個角度描述情境大數據的建模及其在用戶行為預測中的應用。首先,闡述了兩種使用表達學習策略建模一般化情境信息的框架,介紹了情境操作張量建模策略[4,5],同時解釋如何將分層表達框架[6]應用在一般化的情境建模場景中。然后,針對情境大數據中最常見、最重要的時序情境建模問題,介紹基于循環神經網絡建模的框架,該框架可用到時序情境建模[7]中,也可用在復雜時序行為建模[8]上。
2 基于表達學習的情境建??蚣?
在情境信息下預測用戶行為最常用的是基于矩陣分解的方法,如張量分解(tensor factorization,TF)[9]和因子分解機(factorization machine,FM)[10],它假設把一種特定的情境信息當作用戶對象之外的另一種實體,并將這種情境信息轉化為單獨的一個維度,與傳統方法中用戶對象實體的維度一起進行分解。這類方法僅僅建模了實體和情境信息間的相似度,但這種相似度往往不是很合理。比如,一個用戶與工作日這個情境要比與周末這個情境的距離近,同時這類方法難以把握實體和情境交互后的共同潛在特性。
一些基于多領域關系預測的模型[11]也可以被用來進行情境感知,它們使用轉換矩陣將實體潛在向量從一種情境映射至另一種情境環境下。但是這類方法需要為一個特定的情境信息提供一個轉換矩陣,在處理情境大數據時會遇到擴展上的困難。
針對傳統模型假設不合理和擴展不足的缺陷,筆者認為實體和情境之間的關系可以使用向量來描述,而不再使用單一的值來表達。
這種建模方式能夠解決傳統框架下的假設局限性,同時利用模型的擴展性可對情境大數據進行建模。本節將介紹兩類最新的基于表達學習的情境建??蚣埽旱谝粋€框架通過建模情境信息對用戶對象實體的操作,得到實體在當前情境下的表達;第二個框架構建實體和情境信息的層次表達,將它們的交互建模到統一模型中。
2.1 情境信息的表達
傳統神經網絡語言模型將詞表達為連續的語義向量,稱之為詞嵌入。類似地,也將情境信息轉換為向量來表達。同時真實場景中有大量不同類型值的情境信息,如類屬型、類屬集型和數值型,筆者為它們設計了相應的轉換策略。
如類屬型的情境信息,為每一個特定的情境值學習一個表達;對于類屬集型的情境信息,計算出所有元素的平均值作為其表達;對于數值型的情境信息,就為這個情境學習一個表達,任意一個對應的情境值都可以通過乘積操作而得到。
有了這3種類型情境信息的向量表達,很多其他類型的情境信息都可以轉換為它們的一種,從而得到最終的表達。當用戶項目交互中,不同類型值的情境值都被轉換為連續值的情境向量之后,需要將交互中的一類情境向量使用加權的方式計算為單一向量,這種向量描述的是當前交互環境中某一類情境信息整體的表達。
2.2 情境操作張量建??蚣?
受自然語言領域研究的啟發,提出一種情境建模方法,稱之為情境操作張量(contextual operation tensor,COT)[4, 5],情景操作張量建??蚣苋鐖D1所示。在自然語言處理的語義分析研究中,名詞語義常常被表達為向量,形容詞被描述為名詞上的操作語義,由操作矩陣來表達這種屬性。
比如“優質產品”中的名詞“產品”被表達為潛在向量,形容詞“優質”被表達為矩陣,“優質產品”的聯合表達就是矩陣和向量相乘得到的向量表達。假設在用戶行為預測中的情境信息具有類似形容詞的這種操作屬性,能夠操作實體的潛在屬性,使得情境下的實體新屬性不僅能體現出其原始屬性,也能反映出在特定情境下實體表達上的改變。比如一個用戶因為和小孩在一起,這個陪伴的情境信息就改變了用戶當下的屬性,使其樂意去看動畫片。
不同于傳統模型中用戶和對象都有其固定的不隨著情境信息而改變的潛在向量表達,為了描述這種隨情境變化的用戶和對象的潛在屬性,為用戶和對象提供了特定情境下的潛在表達。同時將情境信息的潛在語義描述為操作矩陣,它說明對應情境信息有著改變用戶對象等實體潛在屬性的能力。
因為不同的情境信息常常具有類似的語義,即在對實體屬性操作上非常類似,比如人們周末或者在家都會想看小說而非專業書籍。因此通過多個基本的操作矩陣生成情境操作矩陣,這些基本的操作矩陣稱為情境操作張量,它們描述的是一些共同的情境語義操作。每個特定情境下的操作矩陣,都可以由它們而產生。因為使用了共有的情境操作張量,這種方式能夠有效地減少模型需要擬合參數的數量。
2.3 分層表達情境建??蚣?
在獲取實體和情境表達后,除了將情境信息轉換為情境操作矩陣直接作用在實體表達上,也在探索是否有更具擴展性的方式,建模更廣泛的情境信息。因此,提出了分層交互表達(hierarchical interaction representation, HIR)模型[6],將實體之間或者實體和情境之間的交互建模成一個共同的表達,使用一種分層交互表達來描述這種交互,如圖2所示。
當每種實體和情境信息都使用向量進行表達時,除了待交互的實體和情境表達之外,使用一個三階張量來獲取它們之間的高階交互。HIR構建了交互的向量表達,利用張量乘法生成兩個實體或者實體和情境的共同表達,然后將這個過程迭代進行,以得到所有實體和情境的最終分層交互表達。
HIR具有很好的擴展性,在獲得了兩個實體或者實體和情境的聯合表達之后,可以在框架下建模更多實體和情境的交互。這樣的循環操作可以獲取所有實體和情境交互作用下的最終表達,這種層次化構建方式得到的交互表達,稱之為層次化交互表達。
在獲得了最終的層次交互表達之后,可以在其后增加多個隱含層,以挖掘交互的深層隱藏特性,從而進一步增強實體和情境層次交互的表達能力。不同應用中的不同任務都可以基于隱含層的最終表達而構建,根據應用場景運用多種機器學習方法實現預測。在普通推薦、上下文推薦、協同檢索、廣告點擊預測等多個場景進行了實驗,實驗效果均超過了之前相關領域的最好方法。
3 基于循環神經網絡的時序情境建模
情境大數據中的時序情境信息描述的是事件發生最基本的因素,是實際應用系統中建模用戶行為的基礎,也是最廣泛存在的情境信息。較之特定領域的情境信息,時序情境建模更為根本和重要。這類時序情境建模方法具有一般性,可以被引入其他包含時序情境的特定應用領域,例如預測用戶簽到數據,也可以預測交通堵塞或恐怖組織的攻擊行為等。本節將針對時序情境建模展開介紹。
傳統的時序情境建模問題受到了廣泛的關注,很多研究者開展了一系列研究,相關方法主要包括因子分解方法[9]和基于馬爾科夫鏈[12]的方法。張量因子分解模型將時間當作實體外新的維度,并通過分解得到用戶、對象和時間箱體等潛在向量。
這類方法在預測那些從來沒有或很少出現在訓練數據的時間箱體時,會面臨冷啟動問題。另一方面,基于馬爾科夫鏈的方法已成為最受歡迎的時序預測方法,如個性化因子分解馬爾可夫鏈(factorizing personalized markov chain,FPMC)[12]等。該類基于馬爾可夫鏈的方法都基于馬爾可夫假設,只能建模局部序列行為,即相鄰行為之間的關系,但序列行為之間常常有著更復雜的關系,需要獲取序列高層階的交互關系,由行為的全局序列特征來做用戶行為的預測。
最近循環神經網絡(recurrent neural network,RNN)不僅成功應用于自然語言處理領域中的詞嵌入(word embedding)[13], 同時也被應用到信息檢索領域建模順序點擊預測行為[14]。
循環神經網絡由輸入層、輸出層和多個隱藏層組成,其中隱藏層的表示能夠動態地隨著行為歷史而變化,適合用來建模序列信息。然而,該模型只能考慮行為之間的順序關系,而忽略行為之間的時間間隔信息,這使其在建模具有連續值的時間信息時常遇到困難,而這些具有連續值的時序情境對用戶行為的建模往往非常重要。
3.1 時空情境一體化建模
空間和時間描述的是事件的基本因素,即什么時間和什么地點,它們是實際應用中建模用戶行為的基礎。這些具有連續值的空間和時間情境,對于揭示用戶當下的屬性有決定性作用,在行為建模上的作用非常重要。因為空間信息的屬性非常類似時間信息,將在同一個框架下為它們建模。構建基于RNN的方法建模具有連續值的時空序列信息,稱之為時空循環神經網絡(spatial temporal recurrent neural network,ST-RNN)[7]。
時空一體化建??蚣苋鐖D3所示。傳統RNN中每層只考慮一個元素作為輸入, ST-RNN將時空序列情境納入考量,將一個固定時間段內的行為作為一層的輸入來建模局部時序信息。同時ST-RNN利用循環結構捕獲時序情境信息的周期屬性。
另一方面,很難給所有的具有連續值的時空信息擬合出對應的轉換矩陣,將空間和時間切分為離散的區間。對于某個離散區間中的一個特定時間點,依靠其上界和下界對應的轉換矩陣通過線性插值的方式來計算其所對應的轉換矩陣,這樣ST-RNN就能夠使用轉換矩陣來表征具有連續值的動態時序信息。類似地,對于一個具有連續值的特定空間信息,也可以通過同樣方法生成其轉換矩陣。
圖3 時空一體化建??蚣?
3.2 復雜時序情境建模
除了上述的傳統時序情境場景外,在現實世界中時序情境往往更為復雜,例如客戶常常在同一時刻一次性購買一籃子物品。如何對這種復雜時序情境建模以有效預測用戶一籃子購買行為?上述時空情境一體化建模的方法只能實現簡單時序場景下用戶行為的建模,不能很好地把握單次購買行為中多種物品之間復雜的關聯關系。
為了挖掘復雜時序場景中全局序列特征,并揭示用戶興趣的動態變化,依然將循環神經網絡作為建??蚣芤脒@項工作[8]。雖然循環神經網絡的結構可以捕獲所有籃子上用戶的全局時序特征,但為了有效建模每次行為內部的復雜情境,將卷積神經網絡中的池化操作用于建?;@子本身,提出了動態循環神經網絡籃子模型。
它的輸入實例是由一個特定用戶的交易行為組成,每次交易行為由多個對象組成。引入的卷積神經網絡中的池化操作能用來獲取這些對象整體的表達,能提取出復雜行為對象包含的關鍵特征信息。筆者使用了最大池化和平均池化兩種操作,分別提取所有對象在對應維度上最大值和平均值作為對象整體表達的維度值,復雜情境建??蚣苋鐖D4所示。
在獲得了對象整體表達之后,它將作為輸入被放進循環神經網絡結構中,然后和輸入矩陣進行操作,并與用戶之前的隱含狀態一起得到下一個狀態的用戶表達。每個用戶的動態表示描述用戶屬性隨著時間推移和與不同籃子進行交互之后潛在屬性的變化。池化操作能獲得復雜時序行為上最重要的語義屬性,同時循環神經網絡結構可以從所有用戶整體歷史交易數據上,獲得用戶全局序列行為特征。這個框架能取得比傳統RNN和基于馬爾可夫方法更好的實驗效果。
4 結束語
本文介紹了使用表達學習策略建模一般化的情境信息,情境操作張量模型將情境信息看作操作語義,能改變實體在當下情境下的向量表達。分層表達模型使用層次模型來建模實體和情境的交互,獲得聯合表達。然后,針對最常見的時序情境,介紹如何使用循環神經網絡來建模這類信息,并獲得當前時序情境建模最好的實驗效果。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25