交叉驗證：評估模型的泛化能力表現-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀交叉驗證：評估模型的泛化能力表現

交叉驗證：評估模型的泛化能力表現

2020-06-16

收藏

注明：本文章所有代碼均來自scikit-learn官方網站

在實際情況中，如果一個模型要上線，數據分析員需要反復調試模型，以防止模型僅在已知數據集的表現較好，在未知數據集上的表現較差。即要確保模型的泛化能力，它指機器學習對新鮮樣本的適應能力。只有保證模型的泛化能力，模型的構建才有意義。因此，交叉驗證在整個建模流程中顯得尤為重要。

如果不對數據集進行處理，而僅是用含有標簽的已知數據訓練模型會得到很高分數，但卻失效于對未知數據的預測，這種情況稱為“過擬合”。過擬合的出現表明模型未學習到數據中的本質規律，造成模型的預測能力較差，因此，如何避免模型的過擬合，是一個值得關注且必須解決的問題。在scikit-learn中，可以使用訓練集/測試集拆分和交叉驗證的方法避免該種情況的出現，如下圖所示，將數據集進行訓練集/測試集拆分，在訓練集上進行交叉驗證后得到最佳模型參數，從而在測試集上得到該模型的評分。

在開始分享之前，要搞清楚兩個概念，即過擬合和欠擬合。其中，過擬合為模型在訓練集的分數較高，在測試集表現的得分較低。欠擬合是指模型擬合程度不高，數據距離擬合曲線較遠，或指模型沒有很好地捕捉到數據特征，不能夠很好地擬合數據。相對過擬合，欠擬合現象并不經常出現。很容易想到的思路是將模型的擬合能力限制在過擬合和欠擬合之間，就會得到較好的模型預測結果，但訓練集/測試集劃分和交叉驗證只能幫助避免模型的過擬合而不是欠擬合。

以sklearn中自帶的鶯尾花數據集（iris）為例進行說明：

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> from sklearn import datasets
>>> from sklearn import svm

>>> X, y = datasets.load_iris(return_X_y=True)
>>> X.shape, y.shape
((150, 4), (150,))

將數據集拆分為60%訓練集，40%測試集，代碼如下：

>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.4, random_state=0)

>>> X_train.shape, y_train.shape
((90, 4), (90,))
>>> X_test.shape, y_test.shape
((60, 4), (60,))

>>> clf = svm.SVC(kernel='linear', C=1).fit(X_train, y_train)
>>> clf.score(X_test, y_test)
0.96...

盡管此時模型在測試集上的得分較高，表現較好，但不能說明找到了最佳的適用模型，譬如支持向量機的超參數C，上例中設置參數C=1，它在訓練集上的表現可能很好，但仍不能避免過擬合現象的出現，因為不適宜的超參數設置可能導致模型對數據中主要規律的學習，因此，會在測試集上出現過擬合的現象。為了避免上述情況，scikit-learn提供交叉驗證法（cross-validation, CV）。需要注意的是：k值越大，即褶皺越多，從而越能減少由于偏差而導致的誤差，但訓練集越大，會增加方差從而增加模型的誤差。同時，越大的k值會導致時間成本的開銷較高。因此，k值的選取很重要，常見取值為k = 10。

下例中的cv值設置為5，進行5次交叉驗證迭代，得出5個模型評分：

>>> from sklearn.model_selection import cross_val_score
>>> clf = svm.SVC(kernel='linear', C=1)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores
array([0.96..., 1.  ..., 0.96..., 0.96..., 1.        ])

針對不同模型和實際場景，還可以調整交叉驗證的評分策略，需要注意的是：在scikit-learn官方文檔中，指明了五種交叉驗證方法（五種方法分別為：K-fold, Repeated K-fold, Leave One Out, Leave P Out, Random permutations cross-validation a.k.a. Shuffle & Split）的數據應是服從獨立同分布假設的，在此基礎上，交叉驗證的結果較好，但文檔中也說明，獨立同分布假設在現實中很難保證，因此，在應用交叉驗證方法時，可適當放寬假設條件，但可能會讓度一部分結果準確性。

其中，K折交叉驗證（K-fold cross-validation）是交叉驗證大家族中最簡單的數據拆分策略，即將數據集拆分為訓練集和測試集，如下圖所示，其原理為：先將整個數據集分為k個折疊，用其中k-1個折疊作為訓練集訓練模型，用剩余的1個折疊作為驗證集對模型進行評分，并重復k次上述過程。該種方法的優勢在于不需要額外拆分數據，以避免數據的浪費和運算成本的提高；可以促使模型從多方面學習樣本，避免模型陷入局部極值。

如下是對有4個樣本的2-折交叉驗證示例，隨機將數據分為兩個折疊，并且迭代上述步驟兩次。其代碼如下：

>>> import numpy as np
>>> from sklearn.model_selection import KFold

>>> X = ["a", "b", "c", "d"]
>>> kf = KFold(n_splits=2)
>>> for train, test in kf.split(X):
...     print("%s %s" % (train, test))
[2 3] [0 1]
[0 1] [2 3]

在scikit-learn中，還提供基于K折（KFold）法的進一步交叉驗證法，為重復的K折（Repeated K-Fold），即將K折重復n次，通過設置n_repeats參數進行傳遞。其底層原理與KFold相一致，不同點在于重復的K折將K折重復n_repeats次。

選用的數據集與K折示例中的相同，設置n_repeats參數值為2，其代碼如下：

>>> import numpy as np
>>> from sklearn.model_selection import RepeatedKFold
>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
>>> random_state = 12883823
>>> rkf = RepeatedKFold(n_splits=2, n_repeats=2, random_state=random_state)
>>> for train, test in rkf.split(X):
...     print("%s %s" % (train, test))
...
[2 3] [0 1]
[0 1] [2 3]
[0 2] [1 3]
[1 3] [0 2]

比較出名的是留一法（Leave One Out），它是一個簡單又有趣的交叉驗證方法。其原理是出去一個樣本外，保留數據集中的所有樣本，從而將用于交叉驗證的數據集（假設共有n個樣本）分為訓練集（n-1個樣本）和測試集（1個樣本）的組合，使得對于一個包含n個樣本的數據集而言，可以有n個測試集對模型進行評估。該方法的優勢在于最大可能的保證用于模型訓練的數據量，僅犧牲一個樣本作為測試集，對于大樣本而言是可以忽略不計的。

如下的示例中，仍延用上一個例子中的包含四個樣本的數據，在每次迭代中，從四個樣本中分出一個樣本作為測試集。其代碼如下：

>>> from sklearn.model_selection import LeaveOneOut

>>> X = [1, 2, 3, 4]
>>> loo = LeaveOneOut()
>>> for train, test in loo.split(X):
...     print("%s %s" % (train, test))
[1 2 3] [0]
[0 2 3] [1]
[0 1 3] [2]
[0 1 2] [3]

提到留一法（Leave One Out）就不得不說留P法（Leave P Out），兩種方法的底層邏輯相同，只是留P法在留一方的基礎上為使用者提供更大的自由空間，使用者可以根據業務場景需要自定義要移除的樣本個數，即作為測試集樣本的個數。需要注意的是：與留一法和KFold法不同的是，當參數p>1時，測試集可能會重疊。

在如下例子中，仍延用上文中包含四個樣本的例子，將參數p設置為2對數據集進行拆分，在四個樣本的例子中，可以有6種數據拆分的方法。代碼如下：

>>> from sklearn.model_selection import LeavePOut

>>> X = np.ones(4)
>>> lpo = LeavePOut(p=2)
>>> for train, test in lpo.split(X):
...     print("%s %s" % (train, test))
[2 3] [0 1]
[1 3] [0 2]
[1 2] [0 3]
[0 3] [1 2]
[0 2] [1 3]
[0 1] [2 3]

最后，想要分享的交叉驗證方法是隨機排列交叉驗證 a.k.a. Shuffle & Split（Random permutations cross-validation a.k.a. Shuffle & Split）。如下圖所示，其底層邏輯為：在用戶指定數量的基礎上，利用ShuffleSplit迭代器生成獨立的訓練集/測試集劃分。其步驟是先打亂樣本，再將樣本分為不同的訓練集和測試集的組合。由于該中方法的隨機性較強，因此可以設置隨機數種子保證每次數據拆分的結果相同，以得到相同的交叉驗證結果，該參數為random_state。

該例子是用np.arange(10)生成從0-9的10個數，n_splits參數限制數據集劃分的組數，test_size參數限制用于交叉驗證的測試集大小，其代碼示例如下：

>>> from sklearn.model_selection import ShuffleSplit
>>> X = np.arange(10)
>>> ss = ShuffleSplit(n_splits=5, test_size=0.25, random_state=0)
>>> for train_index, test_index in ss.split(X):
...     print("%s %s" % (train_index, test_index))
[9 1 6 7 3 0 5] [2 8 4]
[2 9 8 0 6 7 4] [3 5 1]
[4 5 1 0 6 9 7] [2 3 8]
[2 7 5 8 0 3 4] [6 1 9]
[4 1 0 6 8 9 3] [5 2 7]

本部分新的主要分享了最基本的交叉驗證的調用，和五個不同的交叉驗證方法，分別為K-折疊（K-Fold），重復的K-折疊（Repeated K-Fold），留一法（Leave One Out），留P法（Leave P Out），隨機排列交叉驗證a.k.a. Shuffle & Split（Random permutations cross-validation a.k.a. Shuffle & Split），從而，更加細化的了解交叉驗證方法。

不同的交叉驗證方法針對的場景不同，因次，需要根據不同的實際情況，選擇不同的方法對數據進行交叉驗證，以提高模型的泛化能力和避免過擬合情況的出現。在后面的內容中，將繼續分享交叉驗證部分的學習心得。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

過擬合欠擬合泛化能力 numpy SVC 偏差特征支持向量機

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇pandas數據結構：DataFrame

下一篇ML基礎：無監督學習之協方差矩陣

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊