熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘中異常檢測
數據挖掘中異常檢測
2018-08-18
收藏
數據挖掘中異常檢測
最近在做聚類,是利用出租車上車下車地點信息聚類商圈和生活區域,在實戰過程中,遇到了很多問題
其一:聚類中心點的確定,我們聚類結果要返回一個經緯度信息,或者說這是一個商圈的中心地點的一個顯示,最初是想用K-means做個簡單的展示版本,不得不感嘆K-means的強大,聚類結果還是是不錯的,不過聚類中心和附近商圈還是有一定的偏移
其二:異常點比較多。異常點的出現,原因總是很多的,主要是兩個原因:數據錯誤或者這些是小概率事件。對于他們的處理,確實比較麻煩,因為我們知道,根據信息論只是,小概率事件有著更多的信息量,所以有時候他們更有價值,比如在一些金融公司的風控系統,他們希望找到異常賬號做分析,往往這些異常賬號是非常少的,這就涉及一個小樣本數據的問題。
問題一:最近在做調研,思路也有了,可以采用DBSCAN基于區域密度的思路,也可以改進K-means,在距離度量上花點心思,這個實現之后在論述一下,這里就不展開。
問題二:異常監測我參考了一些文獻,書籍,做個總結,希望以后用得著
一:定義
Hawkins的離群點定義:離群點是一個觀測值,他與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制長生的。(數據挖掘導論)
沒有太多價值的定義。。。不過將就看著吧
二:離群點識別
1,統計學的思路,之前學概率一直不知道分布函數、置信區間、這些東西是做什么的,解除了數據挖掘之后才發現,原來他們是這么得強大。
這里我們只討論正態分布,假設你的一個特征符合正態分布(具體為什么現實中有很多是正態分布,請知乎)分布,我不扯公式,如圖所示,正態分布為N(μ,σ^2),不知道你們注意到沒有當x>u+3σ的概率就很小了,此時我們就可以認為他是離群點了,畢竟是小概率事件嘛。

2、基于緊鄰度的檢測
離群點給我們的直觀感覺是他離其他集中點距離比較遠。所以呢,k近鄰思路就這么出來了,找出所以點離她最近的k個點算距離,離群點的距離當然是最大的。我很喜歡k近鄰思路,最很多推薦系統中,knn模型就能實現很多有趣的東西,比如類似滴滴的一些app地點推薦系統,就是計算現在你的行為計算歷史行為計算相似度,匹配出最接近的幾種訂單,把歷史訂單信息做當前行為推薦,很簡單卻很高效。
3、基于密度的檢測
密度是衡量一個區域點集中的很好的一個判斷,密度比較大則點集中,離群點的可能性就比較小,反之則很有可能是離群點。
4、基于聚類
聚類與異常檢測息息相關,我們很好的一種思路就是不管三七二十一,我先sklearn找一個聚類,然后分析結果,會發現聚類會把一些異常數值聚出來的
5、數據可視化與經驗
為什么把這個放在最后說,其實有些時候數據分析不必要那么麻煩,excel表,看看圖標,找出異常點,結合自己的經驗,其實就能找出來了,不過這不夠嚴謹,也是一個很好的思路。
這些是最基礎,基于這些思路有很多很好的解決方案。當我們的場景更加復雜時,需要著重研究,簡單收集了一些。
Rosner:多個離群點討論
LOF技術
Chaudhary:使用k-d樹提高離群點檢測效率
Aggarwal與Yu:使用投影處理高維數據的離群點檢測
Shyu:基于主成分分析
不平衡數據集問題
Fox:時間序列異常檢測
Lee、Stolfo:入侵檢測
這些都是自己收集的資料加上自己的理解,有錯之處,請指出。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢