
機器學習中的許多數據挖掘方法主要是針對數值型數據的,算法也很偏向數理方法(例如支持向量機)。而分類數據(非數值型數據),其本質不過是簡單的計數,針對這類數據的一個簡單實用的方法就是關聯規則挖掘法,谷歌的MapReduce也為這類算法提供了很好的軟件構架。下面我們就來討論一下應用關聯規則法的有趣實例。
關聯規則法的核心在于研究一些經常相伴發生的事件之間的關系,特別是當他們同時發生的頻率遠遠超出預期時。它最早被用于超市銷售,因此又被稱為市場 購物籃分析法。舉一個數據挖掘教科書中的關于啤酒和尿布關聯性的經典案例-去超市買啤酒的男人同時也經常買尿布。假如超市銷售量有如下數據:
總銷售量:600000
尿布銷售量:7500(1.25%)
啤酒銷售量:60000(10%)
尿布和啤酒共同銷售量:6000(1%)
如果啤酒和尿布之間沒有關聯的話(即他們之間是統計上獨立的),那么按照啤酒在總銷售量中的比例來計算,我們預計只有10%的尿布購買者也會買啤 酒。但實際情況卻是80%(=6000/7500)的尿布購買者都購買了啤酒,是我們預計的8倍。這個值在關聯規則法中被稱作電梯值(Lift),即事件 X和Y實際同時發生的頻率和預期同時發生的頻率之間的比例(Lift=P(x,y)/[P(x)P(y)])。如果事件X和Y相互獨立,那么 P(x,y)=P(x)P(y),相應的電梯值即為1。而如果X和Y是互斥事件,則會產生小于1 的電梯值。在這個案例中,關聯規則的結論就是尿布購買者也會購買啤酒的電梯值是8。
以上是一個假設的案例,如此高的電梯值在實際生活中非常罕見,但也絕非不可能。2004年佛羅里達州經歷了一系列颶風。第一場颶風之后,沃爾瑪利用 了他們大量的銷售數據來研究顧客在颶風來臨之前會買什么。他們發現一個商品的銷售量是平時的7倍,這個電梯值在現實生活中非常高的。這個商品既不是瓶裝 水,也不是電池,啤酒,手電筒,發電機等等,而是草莓果醬吐司餅干!吐司餅干之所以在颶風來臨之前銷量大增也許是因為它不需要冰箱保存,不需要烹飪,而且 獨立包裝,保質期很長,同時本來大家也都很喜歡它。盡管這個發現有些出乎意料,但是沃爾瑪利用關聯規則的分析補貨了大量的草莓吐司餅干,創造了一個雙贏的 結果-沃爾瑪大大增加了銷量,顧客買到了滿意的商品。
還有一個大型電子商品零售店也成功地利用關聯規則法增加了商品銷量。商家根據零售數據,發現許多購買播放器和錄影機的顧客會在3-4個月后購買攝影機。于是利用這個關系,商家會給所有購買播放器或者錄影機的顧客幾個月后郵寄攝影機折扣券,由此來吸引更多顧客購買攝影機。
除了商業營銷,關聯規則法在科學研究上也有很多應用。喬治梅森大學的一位地質信息教授利用關聯規則研究了颶風的內部風速,風眼氣壓,風切變,降雨 量,方向和速度等等因素和颶風最終等級之間的關系,最后成功建立了新的模型可以更精確地預測颶風的等級。還有一位在美國國家航天中心實習的高中生利用關聯 規則法研究了太陽風暴之后太陽高能粒子到達地球的時間關系。他利用衛星收集到的太陽風暴之后太陽和地球磁場的一些特征因素數據,探究了兩者之間關系隨時間 的變化,即在太陽風暴一小時,兩小時,三小時,四小時后,地球磁場的活躍度變化。結果發現在太陽風暴后2-3小時左右地球磁場最活躍,即太陽高能粒子到達 地球的時間。
研究非數值型數據時,我們在挖掘因果關系之前,可關注事件之間的關聯性;
如果數據在隨時間變化,注意事件之間的關聯是否會在某個時間點達到最強?,F今越來越多的數據被大量收集,科技平臺也越來越發達,許多事物之間意想不到的關聯正等待我們發現。那么就讓我們從計數開始吧!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25