熱線電話:13121318867

登錄
首頁精彩閱讀一個企業級數據挖掘實戰項目,教育數據挖掘
一個企業級數據挖掘實戰項目,教育數據挖掘
2021-07-06
收藏

來源:數據STUDIO

作者:云朵君

導讀:大家好,我是云朵君!自從分享了一篇能夠寫在簡歷里的企業級數據挖掘實戰項目,深受讀者朋友們青睞,許多讀者私信云朵君,希望多一些類似的數據挖掘實際案例。這就來了。

本項目旨在探討影響學生學業表現的人口統計學和家庭特征。本項目中,使用多種不平衡數據處理方法以及各種分類器,如決策樹,邏輯回歸,k近鄰,隨機森林和多層感知器的分類機器。

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

數據集描述

本案例數據集來自Balochistan的6000名學生。其基本情況:一共13個字段,其中RESULT為結果標簽;語言字段是經過獨熱編碼后的四個字段,分別為Lang1, Lang2, Lang3, Lang4;

另外性別、學校、是否殘疾、宗教信仰四個字段二分類離散字段;

其余如兄弟姐妹、在校兄弟姐妹數量為連續性變量。

本次數據為清洗過后"干凈"數據,可以直接輸入到機器學習模型中直接建模使用。

字段說明如下表所示

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

數據樣例

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

探索性數據分析

探索性數據分析有多種方法,這里直接通過繪制柱狀圖查看每個字段的分布狀況。

從數據集特點來看,13個字段可以分為四大類。

結果標簽

考試結果為PASS的共有4562名學生,而結果為FAIL的共有1047名學生,從下圖中也可以明顯看出,該樣本為不平衡數據集,因此本次案例重點在于不平衡數據分類方法。

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

離散型變量

性別有男女,學校有學校1和學校2,身體健康狀況有是否殘疾,宗教信仰分是否是穆斯林。

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

連續型變量

本次數據集中兄弟姐妹數量及在校兄弟姐妹數量分布情況可以由下面四張分布圖很好地展示出來。

  • 大部分學生家中的兄弟姐妹有2-4個
  • 大部分學生家中的姐妹都不是在校生
  • 大部分學生家中的兄弟中也只有1-2個是在校生
一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

啞變量

本次數據集共有四種語言,其數量分布由下圖所示。接近一半的學生都是說的一種語言(Lang1)。

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

不平衡數據集處理方法

從上一步的探索性數據分析結果,本次學生成績數據集為不平衡數據集,那么處理不平衡數據集處理方法都有哪些呢。

在本文云朵君從三個方面總結了多種處理方法,見下面思維導圖。

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

數據重采樣

這里主要介紹下數據預處理層面的數據重采樣方法。數據重采樣主要分為上采樣和下采樣。

下采樣,也稱為欠采樣(Under-Sampling),是一個為平衡數據類分布的移除大類數據的非啟發式的方法。此方法的底層邏輯是平衡數據集進而克服算法的特異性。

常用的方法有隨機欠采樣(Random Under-Sampling, RUS),即隨機排除大類的觀察值,和聚焦欠采樣(Focused Under-Sampling, FUS), 即移除兩類邊界處的大類數據。

上采樣,也稱為過采樣(Over-Samplig),是通過復制小類觀察值,從而增加小類比例的一個方法。類似的,過采樣也有隨機過采樣和聚焦過采樣兩種方法。

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

來源:kaggle

上采樣

過采樣代表SMOTE方法,其主要概念也就是在少數樣本位置近的地方,人工合成一些樣本,整個算法的流程如下:

  1. 設定一個采樣倍率N,也就是對每個樣本需要生成幾個合成樣本
  2. 設定一個近鄰值K ,針對該樣本找出K 個最近鄰樣本并從中隨機選一個
  3. 根據以下公式來創造 N 個樣本

下采樣

相對于過采樣,欠采樣是將多數樣本按比例減少,使得模型的加權權重改變,少考慮一些多數樣本,上圖很好地展示了兩種方法的差異 。

Tomek Link 算法

會針對所有樣本去遍歷一次,如有兩個樣本點x, y分屬不同的class,即一個為多數樣本而另一個為少數樣本,則可以去計算它們之間的距離d(x , y) 。

此時如果找不到第三個樣本點z,使得任一樣本點到z 的距離比樣本點之間的距離還小,則稱為Tomek Link,一張圖幫助理解 :

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

來源:Kaggle

Tomek Link 的關鍵思路在于,找出邊界那些鑒別度不高的樣本,認為這些樣本點屬于雜訊,應該剔除,因此可以見上圖最右邊,剔除以后兩種類別的樣本點可以更好地區分開來。

ENN算法(Edited Nearest Neighbor)

與上面Tomek Links的觀念相同,ENN算法也是透過某種方式來剔除鑒別度低的樣本,只是這邊的方式改成了對多數類的樣本尋找K個近鄰點,如果有一半以上(當然,門檻可以自己設定)都不屬于多數樣本,就將該樣本剔除,通常這些樣本也會出現在少數樣本之中。

混合采樣

SMOTE + ENN、SMOTE + Tomek Links算法都是結合過采樣與欠采樣算法SMOTEENN使用 SMOTE 進行過采樣,然后使用 Edited Nearest Neighbours 進行欠采樣。

SMOTETomek使用 SMOTE 進行過采樣,然后使用 Tomek Links 進行欠采樣。

不平衡數據集處理方法選擇

控制變量法選擇合適的處理方法。選用決策樹為基分類器,并分別選擇不使用數據重采樣,使用SMOTE、SMOTEENN和SMOTETomek共三種數據重采樣方法,比較這四種情況下的模型評價指標AUC得分情況。

最后分別選用五種不同分類器,且分別采用不同的數據重采樣方法,繪制ROC曲線及得到的AUC得分情況。

ROC和AUC

ROC曲線繪制采用不同分類閾值的TPR和FPR,降低分類閾值會將更多的樣本判為正類別,從而增加FP和TP的個數。為了繪制ROC曲線,需要使用不同的分類閾值多次評估回歸模型,很麻煩。有一種基于排序的高效算法可以為我們提供此類信息,這種算法稱為曲線下的面積(AUV,area under roc curve)。

ROC曲線的橫軸為FPR,越低越好,縱軸為TPR,越高越好,故如果有兩個不同的模型,曲線位于左上方的模型優于曲線位于右下方的模型,這一點可以拿曲線的面積(AUV)來量化。

完美的分類為TPR=1,FPR=0;ROC曲線過(0,0)和(1,1)點

  • AUC = 1,是完美分類器,采用這個預測模型時,不管設定什么閾值都能得出完美預測。絕大多數預測的場合,不存在完美分類器。
  • 0.5 < AUC < 1,優于隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。
  • AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。
  • AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優于隨機猜測。

AUC計算的物理意義為:任取一對(正、負)樣本,正樣本的score大于負樣本的score的概率,也即是隨機正類別樣本位于隨機負類別樣本右側的概率。

核心代碼

將所有主要方法定義為函數,包括數據重采樣、劃分測試集和訓練集、模型訓練、模型評價和結果可視化。

此外,由于是比較不平衡數據集處理方法選擇的優劣,這里所有的機器學習模型都采用默認參數。

def reSampler(X, y, samp):"""不同的數據重采樣策略"""if(samp == 'None'):return splitter(X, y, 0.1)if(samp == 'SMOTE'):sm = SMOTE('auto', 42)X_resampled , y_resampled = sm.fit_resample(X, Y)return splitter(X_resampled , y_resampled, 0.1)if(samp == 'SMOTEENN'):sm = SMOTEENN()X_resampled , y_resampled = sm.fit_resample(X, Y)return splitter(X_resampled , y_resampled, 0.1)if(samp == 'SMOTETomek'):sm = SMOTEENN()X_resampled , y_resampled = sm.fit_resample(X, Y)return splitter(X_resampled , y_resampled, 0.1)def splitter(X, y, test_Size):"""劃分測試集和訓練集"""xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size = test_Size, random_state=12)return xtrain, xtest, ytrain, ytestdef rocPlotter(actu, pred, clf, samp):"""AUC曲線繪圖函數"""false_positive_rate, true_positive_rate, thresholds = roc_curve(actu, pred)roc_auc = auc(false_positive_rate, true_positive_rate)Title = str('ROC: ' + str(clf) + ' using ' + str(samp))plt.title(Title)plt.plot(false_positive_rate, true_positive_rate, 'b',label='AUC = %0.2f'% roc_auc)plt.legend(loc='lower right')plt.plot([0,1],[0,1],'r--')plt.xlim([-0.1,1.2])plt.ylim([-0.1,1.2])plt.ylabel('True Positive Rate')plt.xlabel('False Positive Rate')plt.show()return roc_aucdef applyModel(clfr, X_, y_, xt, yt):"""使用模型"""a = globals()[clfr]()a.fit(X_, y_)scor = a.score(xt, yt)*100pred = a.predict(xt)actu = ytreturn pred, actu, scordef tryAll(clfList, sampList, Inputs, Outputs):"""主函數"""rep = np.zeros( (len(clfList), len(sampList)), dtype=float)for clf, clfIndex in zip(clfList, range(len(clfList))):# 不同的分類器for samp, sampIndex in zip(sampList, range(len(sampList))):# 不同的重采樣策略X_train, X_test, Y_train, Y_test = reSampler(Inputs, Outputs, samp)prediction , actual, score =applyModel(clf, X_train, Y_train, X_test, Y_test)currentAUC = rocPlotter(prediction, actual, clf, samp)print(clf, ' with ', samp, ' scored = ', score,' on test set with AUC = ', currentAUC)rep[clfIndex, sampIndex] = currentAUCreturn rep

函數執行

Classifiers = ['DecisionTreeClassifier', 'KNeighborsClassifier','LogisticRegression', 'MLPClassifier','RandomForestClassifier']Samplers = ['None', 'SMOTE', 'SMOTETomek', 'SMOTEENN']report = tryAll(Classifiers, Samplers, X, Y)

結果可視化

下面以單個模型四種不同重采樣策略,和五種模型單個重采樣策略為例展示可視化結果。大家可以運行上述代碼以得到完整的結果展示。

決策樹模型在四種不同重采樣策略下,得到的四種不同的結果。很明顯地看到沒有使用數據重采樣的模型得分最差只有0.54,而使用混合采樣算法的兩個結果的得分都比較理想,分別是0.973275和0.979196分。

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

接下來以上述結果中得分最高的混合采樣算法SMOTETomek為例,將不平衡數據集經過SMOTETomek算法處理后,分別用

DecisionTreeClassifier決策樹分類器,KNeighborsClassifierK近鄰分類器,LogisticRegression邏輯回歸,MLPClassifier多層感知機,RandomForestClassifier隨機森林分類器五種機器學習模型訓練和測試數據,并得到如下結果。

從結果可知道,并不是所有模型在使用混合采樣算法SMOTETomek后都能達到令人滿意的效果。

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

結果匯總

為方便查看所有結果,將所模型、所有重采樣方法匯總到如下圖所示的DataFrame中。從AUC結果看,使用混合采樣算法SMOTEENN對數據集處理,并使用決策樹模型對結果進行預測,將會得到最佳預測效果。其AUC=0.979。

pd.DataFrame(report, columns = Samplers, index = Classifiers)

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

交叉驗證

上節中選用五種不同分類器,三種不同的數據重采樣方法,結合ROC曲線及AUC得分情況來確定重采樣方法對選擇。

本節可以理解為是上節的拓展。

核心代碼

# 實例化五種分類器模型dTree = DecisionTreeClassifier()logReg = LogisticRegression()knn = KNeighborsClassifier(n_neighbors=5)rF = RandomForestClassifier()MLP = MLPClassifier()# 實例化十種數據重采樣模型rmun = RandomUnderSampler()cnn = CondensedNearestNeighbour()nm = NearMiss()enn = EditedNearestNeighbours()renn =
RepeatedEditedNearestNeighbours()tkLink = TomekLinks()rmov = RandomOverSampler()sm = SMOTE()sm_en = SMOTEENN()sm_tk = SMOTETomek()# 以SMOTEENN采樣方法為例sm_en = SMOTEENN()X_resampled, Y_resampled = sm_en.fit_resample(X, Y)# 分別使用10折交叉驗證的方法得到平均得分scores_dTree = cross_val_score(dTree, X_resampled, Y_resampled, cv = 10, scoring='roc_auc')scores_dTree = scores_dTree.mean()# 打印出每次的結果print('After appling SMOTENN: ')print(' dTree, logReg , KNN , rF , MLP')print(scores_dTree, scores_logReg, scores_knn, scores_rF, scores_MLP)

將所有結果存儲在一個DataFrame

Classifiers = ['DecisionTreeClassifier', 'LogisticRegression','KNeighborsClassifier', 'RandomForestClassifier','MLPClassifier']Samplers = ['None','Random Undersampling', 'CNN', 'NearMiss','ENN', 'RENN','Tomek Links','SMOTE','Random Oversampling', 'SMOTEENN','SMOTETomek']pd.DataFrame(report, columns = Samplers, index = Classifiers)

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

并用熱圖可視化更加直觀地展示出結果來

import seaborn as snsplt.figure()ax = sns.heatmap(report,xticklabels=Samplers,yticklabels=Classifiers,annot = True, vmin=0,vmax=1, linewidth=0.1,cmap="YlGnBu",)

一個企業級<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>實戰項目,教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>

從熱圖的特性可以看出,藍色越深,模型效果越好。本案例中可以得到如下幾個結論

  1. 隨機森林分類器在使用RENN及SMOTEENN重采樣處理后的數據時,模型效果均比較理想,AUC得分分別為0.94和0.98
  2. 采用SMOTEENN重采樣處理后的數據,在所有模型中均表現良好,其次是RENN重采樣策略
  3. 隨機下采樣,CNN及NearMiss等采樣策略效果并不明顯
  4. 邏輯回歸模型對于所有的采樣策略均不敏感

本例采用的來自Balochistan的6000名學生不平衡數據集。本項目旨在探討影響學生學業表現的人口統計學和家庭特征。

本例使用清洗后的數據集,以探索數據變量的分布特征開篇,重點介紹了數據不平衡處理的各種方法,以及演示如何通過交叉驗證方法選擇合適的數據不平衡處理以及選擇合適的機器學習分類模型。

本文后續工作可以是通過正文中得到的結果,選擇幾個合適的模型,通過適當的模型調參方法選擇恰當的參數,以確定本次數據挖掘的最終模型。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢