熱線電話:13121318867

登錄
首頁精彩閱讀你能正確評估數據嗎?
你能正確評估數據嗎?
2016-03-15
收藏

你能正確評估數據嗎?

在數據界,數據分析、機器學習或是數據科學的主要目的,就是建立一個能預測未來數據的系統。在普通情況中,你很難發現監督學習(例如分類)和無監督學習(例如聚類)之前的區別,你通常會使用你構建和設計的方法去搜集一些數據,但最終你希望你設計的模型可以應用到未來的數據,并且確保該模型行之有效,可以同你對原始數據的測驗結果相同。

初學者經常會犯的一個錯誤就是,只看到了已有數據的表現,就認為這對未來數據是適用的。很不幸的是事實通常不是這樣。例如在一個監督學習的案例中,任務是根據你的輸入輸出的行為來預測,例如把電子郵件分為垃圾郵件和非垃圾郵件。

如果你只考慮訓練數據,那么對機器來說很容易返回完美的預測結果,只是通過死記硬背就可以。機器因為其容量大,可以存儲和檢索大量的數據,但這導致過度擬合,缺乏概括。

所以適當的評估方式是通過分割數據,分析一個部分,然后預測其他部分來模擬未來的結果。通常,訓練部分是龐大的,過程也要重復數次,以獲得幾個數字來看看什么才是合適的方法,這個過程稱為交叉驗證。

盡管方法看起來如此可靠,還是經常會發生錯誤,特別是當數據是不穩定時,例如數據的基礎分布會隨時間變化,在現實中這是經常發生的,6月的銷售數字和12月的就會有很大不同?;蛘邤祿c之間具有大量相關性,也就是說,如果你知道一個數據點意味著你已經知道了很多關于另一個數據點的信息。例如,股票價格通常在一天之內會從一個價格跳到另一個價格,如果你搜集這些數據,并做了測試,很可能會推導出和它有相關性的數據。

每當出現這種情況,你就會得到過于樂觀的數字,你的方法將無法在未來真正的數據中很好地工作。在最壞的情況下,當你終于說服別人來使用你的方法時這個方法并不能達到預期效果。所以學習如何正確評估是關鍵!

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢