熱線電話:13121318867

登錄
首頁精彩閱讀非一般的數據挖掘機:關聯規則法
非一般的數據挖掘機:關聯規則法
2016-04-05
收藏

非一般的數據挖掘機:關聯規則

機器學習中的許多數據挖掘方法主要是針對數值型數據的,算法也很偏向數理方法(例如支持向量機)。而分類數據(非數值型數據),其本質不過是簡單的計數,針對這類數據的一個簡單實用的方法就是關聯規則挖掘法,谷歌的MapReduce也為這類算法提供了很好的軟件構架。下面我們就來討論一下應用關聯規則法的有趣實例。

關聯規則法的核心在于研究一些經常相伴發生的事件之間的關系,特別是當他們同時發生的頻率遠遠超出預期時。它最早被用于超市銷售,因此又被稱為市場 購物籃分析法。舉一個數據挖掘教科書中的關于啤酒和尿布關聯性的經典案例-去超市買啤酒的男人同時也經常買尿布。假如超市銷售量有如下數據:

總銷售量:600000

尿布銷售量:7500(1.25%)

啤酒銷售量:60000(10%)

尿布和啤酒共同銷售量:6000(1%)

如果啤酒和尿布之間沒有關聯的話(即他們之間是統計上獨立的),那么按照啤酒在總銷售量中的比例來計算,我們預計只有10%的尿布購買者也會買啤 酒。但實際情況卻是80%(=6000/7500)的尿布購買者都購買了啤酒,是我們預計的8倍。這個值在關聯規則法中被稱作電梯值(Lift),即事件 X和Y實際同時發生的頻率和預期同時發生的頻率之間的比例(Lift=P(x,y)/[P(x)P(y)])。如果事件X和Y相互獨立,那么 P(x,y)=P(x)P(y),相應的電梯值即為1。而如果X和Y是互斥事件,則會產生小于1 的電梯值。在這個案例中,關聯規則的結論就是尿布購買者也會購買啤酒的電梯值是8。

以上是一個假設的案例,如此高的電梯值在實際生活中非常罕見,但也絕非不可能。2004年佛羅里達州經歷了一系列颶風。第一場颶風之后,沃爾瑪利用 了他們大量的銷售數據來研究顧客在颶風來臨之前會買什么。他們發現一個商品的銷售量是平時的7倍,這個電梯值在現實生活中非常高的。這個商品既不是瓶裝 水,也不是電池,啤酒,手電筒,發電機等等,而是草莓果醬吐司餅干!吐司餅干之所以在颶風來臨之前銷量大增也許是因為它不需要冰箱保存,不需要烹飪,而且 獨立包裝,保質期很長,同時本來大家也都很喜歡它。盡管這個發現有些出乎意料,但是沃爾瑪利用關聯規則的分析補貨了大量的草莓吐司餅干,創造了一個雙贏的 結果-沃爾瑪大大增加了銷量,顧客買到了滿意的商品。

還有一個大型電子商品零售店也成功地利用關聯規則法增加了商品銷量。商家根據零售數據,發現許多購買播放器和錄影機的顧客會在3-4個月后購買攝影機。于是利用這個關系,商家會給所有購買播放器或者錄影機的顧客幾個月后郵寄攝影機折扣券,由此來吸引更多顧客購買攝影機。

除了商業營銷,關聯規則法在科學研究上也有很多應用。喬治梅森大學的一位地質信息教授利用關聯規則研究了颶風的內部風速,風眼氣壓,風切變,降雨 量,方向和速度等等因素和颶風最終等級之間的關系,最后成功建立了新的模型可以更精確地預測颶風的等級。還有一位在美國國家航天中心實習的高中生利用關聯 規則法研究了太陽風暴之后太陽高能粒子到達地球的時間關系。他利用衛星收集到的太陽風暴之后太陽和地球磁場的一些特征因素數據,探究了兩者之間關系隨時間 的變化,即在太陽風暴一小時,兩小時,三小時,四小時后,地球磁場的活躍度變化。結果發現在太陽風暴后2-3小時左右地球磁場最活躍,即太陽高能粒子到達 地球的時間。

以上這些例子向我們展示了在做大數據挖掘時兩個重要方法:

研究非數值型數據時,我們在挖掘因果關系之前,可關注事件之間的關聯性;

如果數據在隨時間變化,注意事件之間的關聯是否會在某個時間點達到最強?,F今越來越多的數據被大量收集,科技平臺也越來越發達,許多事物之間意想不到的關聯正等待我們發現。那么就讓我們從計數開始吧!


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢