熱線電話:13121318867

登錄
首頁精彩閱讀如何評估你的數據科學模型
如何評估你的數據科學模型
2016-11-28
收藏

如何評估你的數據科學模型

在大數據時代背景下,從數據科學當中得到的洞察結果是提高用戶體驗的最佳途徑。

數據科學家現在經常使用的各種技術有回歸算法、支持向量機SVM)、神經網絡、近鄰取樣、Naive Bayes、決策樹以及集成模型。

這些算法可以有助于決策者確定之前未被識別的模式以及暗含在大量結構化和非結構化數據信息當中的趨勢。這些模式可以被用來建立預測模型,這些模型可以預測日后可能發生的各種行為。

這些模型現在已經應用到了很多商業場景當中,比如說預測患者病癥發作的風險,幫助銀行決定為哪個客戶批準貸款,還可以幫助市場營銷人員決定對哪些客戶群體采取有針對性的營銷活動。

但是如何判斷你所建立的預測模型的準確性呢?如何讓你的預測模型為你的企業或者機構帶來價值呢?

現在數據科學家們所使用的評估模型準確性的方法有很多,今天小編就帶大家進行一次梳理。

提升圖和增益圖

這種方法被廣泛的應用于解決有針對性的營銷活動,還可以根據分位值找到目標客戶群制定具體的營銷活動。當然,這種方法還可以告訴你從目標客戶群當中你可以得到多少響應。

ROC曲線

ROC曲線(受試者工作曲線)是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線。

基尼系數

這是ROC曲線和對角線的面積和上面的三角形的面積的比率。

交叉驗證

這種方式將數據分成兩部分,其中一部分用來進行模型的“培訓”,另外一部分可以用來對數據進行預測。通過這種方式你可以測試模型對數據以前沒有預見到的結果的能力,并核實這種模型如何與外部數據之間相互作用。

混淆矩陣

混淆矩陣是通過將每個實測像元的位置和分類與分類圖像中的相應位置和分類像比較計算的。混淆矩陣的每一列代表了預測類別,每一列的總數表示預測為該類別的數據的數目;每一行代表了數據的真實歸屬類別 ,每一行的數據總數表示該類別的數據實例的數目。

均方根誤差

他是輸出變量的單位的測試集的平均誤差量。這項措施可以幫助你得到一個關于一個給定的預測的數量的想法可能是錯誤的平均。

總體來說,你所采用的評估方式應該與你的商業目標相契合。使用正確的指標比使用爭取算法本身可以為你的模型性能帶來更多的積極影響。物聯網、移動通信、社交媒體還有全渠道零售所生成的數據點很多,僅僅是停留在數據收集的環節還不足以全面實現大數據的利用,除非你通過各種技術從數據當中找到對于未來的發展洞察。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢