熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘有哪些工作流程?
數據挖掘有哪些工作流程?
2016-05-27
收藏

數據挖掘有哪些工作流程?

數據挖掘工作流程:

一、收集數據

收集數據一般是補充外部數據,包括采用爬蟲和接口,獲取,補充目前數據不足部分。Python scrapy,requests是很好的工具。

二、準備數據

主要包括數據清洗,預處理,錯值糾正,缺失值填補。連續值離散化,去掉異常值,以及數據歸一化的過程。同時需要根據準備采用的挖掘工具準備恰當的數據格式。


三、分析數據

通過初步統計、分析以及可視化,或者是探索性數據分析工具,得到初步的數據概況。分析數據的分布,質量,可靠程度,實際作用域,以確定下一步的算法選擇。

四、訓練算法

整個工作流最核心的一步,根據現有數據選擇算法,生成訓練模型。主要是算法選擇和參數調整:

1.算法的選擇,需要對算法性能和精度以及編碼實現難度進行衡量和取舍。 (甚至算法工具箱對數據集的限制情況都是算法選擇考慮的內容)。實際工程上,不考慮算法復雜度超過O(N^2)的算法。Java的Weka和Python的Scipy是很好的數據挖掘分析工具,一般都會在小數據集做算法選擇的預研。

2.參數調整。這是一門神奇的技能,只能在實際過程中體會。

五、測試算法

這一步主要是針對監督算法(分類,回歸),為了防止模型的Overfit,需要測試算法模型的覆蓋能力和性能。方法包括Holdout,還有random subsampling.

非監督算法(聚類),采用更加具體的指標,包括熵,純度,精度,召回等。

六、使用,解釋,修正算法

數據挖掘不是一個靜態的過程,需要不斷對模型重新評估,衡量,修正。算法模型的生命周期也是一個值得探討的話題。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢