
異常值檢測一般要求新發現的數據是否與現有觀測數據具有相同的分布或者不同的分布,相同的分布可以稱之為內點(inlier),具有不同分布的點可以稱之為離群值。離群點和新奇點檢測是不同的,有一個重要的區分必須掌握:
離群點檢測:訓練數據包含離群點,這些離群點被定義為遠離其它內點的觀察值。因此,離群點檢測估計器會嘗試擬合出訓練數據中內圍點聚集的區域, 而忽略異常值觀察。
新奇點檢測:訓練數據沒有受到離群點污染,我們感興趣的是檢測一個新的觀測值是否為離群點。在這種情況下,離群點被認為是新奇點。
離群點檢測和新奇點檢測都用于異常檢測, 其中一項感興趣的是檢測異?;虍惓S^察。離群點檢測又被稱之為無監督異常檢測,新奇點檢測又被稱之為半監督異常檢測。 在離群點檢測的背景下, 離群點/異常點不能夠形成密集的簇,因為可用的估計器假設離群點/異常點位于低密度區域。相反的,在新奇點檢測的背景下, 新奇點/異常點只要位于訓練數據的低密度區域,是可以形成稠密聚類簇的,在此背景下被認為是正常的。
scikit-learn有一套機器學習工具estimator.fit(X_train),可用于新奇點或離群值檢測。然后可以使用estimator.predict(X_test)方法將新觀察值分類為離群點或內點 :內圍點會被標記為1,而離群點標記為-1。
離群點檢測方法總結
下面的例子展示了二維數據集上不同異常檢測算法的特點。數據集包含一種或兩種模式(高密度區域),以說明算法處理多模式數據的能力。
對于每個數據集,產生15%的樣本作為隨機均勻噪聲。這個比例是給予OneClassSVM的nu參數和其他離群點檢測算法的污染參數的值。由于局部離群因子(LOF)用于離群值檢測時沒有對新數據應用的預測方法,因此除了局部離群值因子(LOF)外,inliers和離群值之間的決策邊界以黑色顯示。
sklearn.svm。一個已知的eclasssvm對異常值很敏感,因此在異常值檢測方面表現不太好。該估計器最適合在訓練集沒有異常值的情況下進行新穎性檢測。也就是說,在高維的離群點檢測,或者在不對嵌入數據的分布做任何假設的情況下,一個類支持向量機可能在這些情況下給出有用的結果,這取決于它的超參數的值。
sklearn.covariance。橢圓包絡假設數據是高斯分布,并學習一個橢圓。因此,當數據不是單峰時,它就會退化。但是請注意,這個估計器對異常值是穩健的。
sklearn.ensemble。IsolationForest sklearn.neighbors。LocalOutlierFactor對于多模態數據集似乎表現得相當好。sklearn的優勢。第三個數據集的局部離群因子超過其他估計顯示,其中兩種模式有不同的密度。這種優勢是由LOF的局域性來解釋的,即它只比較一個樣本的異常分數與其相鄰樣本的異常分數。
最后,對于最后一個數據集,很難說一個樣本比另一個樣本更反常,因為它們是均勻分布在超立方體中。除了sklearn。svm。有一點過度擬合的支持向量機,所有的估計器都對這種情況給出了合適的解決方案。在這種情況下,明智的做法是更密切地觀察樣本的異常分數,因為一個好的估計器應該給所有樣本分配相似的分數。
雖然這些例子給出了一些關于算法的直覺,但這種直覺可能不適用于非常高維的數據。
最后,請注意,模型的參數在這里是精心挑選的,但在實踐中需要進行調整。在沒有標記數據的情況下,這個問題是完全無監督的,因此模型的選擇是一個挑戰。
# Author: Alexandre Gramfort <alexandre.gramfort@inria.fr> # Albert Thomas <albert.thomas@telecom-paristech.fr> # License: BSD 3 clause import time import numpy as np import matplotlib import matplotlib.pyplot as plt from sklearn import svm from sklearn.datasets import make_moons, make_blobs from sklearn.covariance import EllipticEnvelope from sklearn.ensemble import IsolationForest from sklearn.neighbors import LocalOutlierFactor print(__doc__) matplotlib.rcParams['contour.negative_linestyle'] = 'solid' # Example settings n_samples = 300 outliers_fraction = 0.15 n_outliers = int(outliers_fraction * n_samples) n_inliers = n_samples - n_outliers # define outlier/anomaly detection methods to be compared anomaly_algorithms = [ ("Robust covariance", EllipticEnvelope(contamination=outliers_fraction)), ("One-Class SVM", svm.OneClassSVM(nu=outliers_fraction, kernel="rbf", gamma=0.1)), ("Isolation Forest", IsolationForest(contamination=outliers_fraction, random_state=42)), ("Local Outlier Factor", LocalOutlierFactor( n_neighbors=35, contamination=outliers_fraction))] # Define datasets blobs_params = dict(random_state=0, n_samples=n_inliers, n_features=2) datasets = [ make_blobs(centers=[[0, 0], [0, 0]], cluster_std=0.5, **blobs_params)[0], make_blobs(centers=[[2, 2], [-2, -2]], cluster_std=[0.5, 0.5], **blobs_params)[0], make_blobs(centers=[[2, 2], [-2, -2]], cluster_std=[1.5, .3], **blobs_params)[0], 4. * (make_moons(n_samples=n_samples, noise=.05, random_state=0)[0] - np.array([0.5, 0.25])), 14. * (np.random.RandomState(42).rand(n_samples, 2) - 0.5)] # Compare given classifiers under given settings xx, yy = np.meshgrid(np.linspace(-7, 7, 150), np.linspace(-7, 7, 150)) plt.figure(figsize=(len(anomaly_algorithms) * 2 + 3, 12.5)) plt.subplots_adjust(left=.02, right=.98, bottom=.001, top=.96, wspace=.05, hspace=.01) plot_num = 1 rng = np.random.RandomState(42) for i_dataset, X in enumerate(datasets): # Add outliers X = np.concatenate([X, rng.uniform(low=-6, high=6, size=(n_outliers, 2))], axis=0) for name, algorithm in anomaly_algorithms: t0 = time.time() algorithm.fit(X) t1 = time.time() plt.subplot(len(datasets), len(anomaly_algorithms), plot_num) if i_dataset == 0: plt.title(name, size=18) # fit the data and tag outliers if name == "Local Outlier Factor": y_pred = algorithm.fit_predict(X) else: y_pred = algorithm.fit(X).predict(X) # plot the levels lines and the points if name != "Local Outlier Factor": # LOF does not implement predict Z = algorithm.predict(np.c_[xx.ravel(), yy.ravel()]) Z = Z.reshape(xx.shape) plt.contour(xx, yy, Z, levels=[0], linewidths=2, colors='black') colors = np.array(['#377eb8', '#ff7f00']) plt.scatter(X[:, 0], X[:, 1], s=10, color=colors[(y_pred + 1) // 2]) plt.xlim(-7, 7) plt.ylim(-7, 7) plt.xticks(()) plt.yticks(()) plt.text(.99, .01, ('%.2fs' % (t1 - t0)).lstrip('0'), transform=plt.gca().transAxes, size=15, horizontalalignment='right') plot_num += 1 plt.show()
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25