熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘的六大步驟
數據挖掘的六大步驟
2016-03-12
收藏

數據挖掘的六大步驟

數據挖掘(Data Mining),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識。
此過程包括以下六個基本步驟:

1.      定義問題

2.      準備數據

3.      瀏覽數據

4.      生成模型

5.      瀏覽和驗證模型

6.      部署和更新模型

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>的六大步驟-09大數據
1、定義問題

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>的六大步驟-09大數據


該步驟包括分析業務需求,定義問題的范圍,定義計算模型所使用的度量,以及定義數據挖掘項目的特定目標。 這些任務轉換為下列問題:

·您在查找什么? 您要嘗試找到什么類型的關系?

·您要嘗試解決的問題是否反映了業務策略或流程?

·您要通過數據挖掘模型進行預測,還是僅僅查找受關注的模式和關聯?

·您要嘗試預測哪個結果或屬性?

·您具有什么類型的數據以及每列中包含什么類型的信息? 或者如果有多個表,則表如何關聯? 您是否需要執行任何清除、聚合或處理以使數據可用?

·數據如何分布? 數據是否具有季節性性質? 數據是否可以準確反映業務流程?

若要回答這些問題,可能必須進行數據可用性研究,必須調查業務用戶對可用數據的需求。 如果數據不支持用戶的需求,則還必須重新定義項目。

此外,還需要考慮如何將模型結果納入用于度量業務進度的關鍵績效指標 (KPI)。

2、準備數據

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>的六大步驟-09大數據

數據可以分散在公司的各個部門并以不同的格式存儲,或者可能包含錯誤項或缺少項之類的不一致性。 例如,數據可能顯示客戶在產品推向市場之前購買該產品,或者客戶在距離她家 2,000 英里的商店定期購物。

數據清除不僅僅是刪除錯誤數據或插入缺失值,還包括查找數據中的隱含相關性、標識最準確的數據源并確定哪些列最適合用于分析。 例如,應當使用發貨日期還是訂購日期? 最佳銷售影響因素是數量、總價格,還是打折價格? 不完整數據、錯誤數據和輸入看似獨立,但實際上都有很強的關聯性,它們可以以意想不到的方式影響模型的結果。

3、瀏覽數據

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>的六大步驟-09大數據

瀏覽技術包括計算最小值和最大值,計算平均偏差和標準偏差,以及查看數據的分布。 例如,通過查看最大值、最小值和平均值,您可以確定數據并不能代表客戶或業務流程,因此您必須獲取更多均衡數據或查看您的預期結果所依據的假定。 標準偏差和其他分發值可以提供有關結果的穩定性和準確性的有用信息。 大型標準偏差可以指示添加更多數據可以幫助改進模型。 與標準分發偏差很大的數據可能已被扭曲,抑或準確反映了現實問題,但很難使模型適合數據。

4、生成模型

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>的六大步驟-09大數據

通過創建挖掘結構定義要使用的數據列。 將挖掘結構鏈接到數據源,但只有對挖掘結構進行處理后,該結構才會實際包含數據。

5、瀏覽和驗證模型

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>的六大步驟-09大數據

在將模型部署到生產環境之前,您需要測試模型的性能。 此外,在生成模型時,您通常需要使用不同配置創建多個模型,并對所有這些模型進行測試,以便查看哪個模型為您的問題和數據生成最佳結果。

6、部署和更新模型

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數據挖掘</a>的六大步驟-09大數據

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢