熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘的數據處理
數據挖掘的數據處理
2018-03-06
收藏

數據挖掘數據處理

從數據本身來考慮,數據挖掘通常需要有信息收集、數據集成、數據規約、數據清理、數據變換、數據挖掘實施過程、模式評估和知識表示8個步驟。

步驟(1)信息收集:根據確定的數據分析對象,抽象出在數據分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數據庫。對于海量數據,選擇一個合適的數據存儲和管理的數據倉庫是至關重要的。

步驟(2)數據集成:把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。

步驟(3)數據規約:如果執行多數的數據挖掘算法,即使是在少量數據上也需要很長的時間,而做商業運營數據挖掘時數據量往往非常大。數據規約技術可以用來得到數據集的規約表示,它小得多,但仍然接近于保持原數據的完整性,并且規約后執行數據挖掘結果與規約前執行結果相同或幾乎相同。

步驟(4)數據清理:在數據庫中的數據有一些是不完整的(有些感興趣的屬性缺少屬性值)、含噪聲的(包含錯誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進行數據清理,將完整、正確、一致的數據信息存入數據倉庫中。不然,挖掘的結果會差強人意。

步驟(5)數據變換:通過平滑聚集、數據概化、規范化等方式將數據轉換成適用于數據挖掘的形式。對于有些實數型數據,通過概念分層和數據的離散化來轉換數據也是重要的一步。

步驟(6)數據挖掘過程:根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規則推理、模糊集,甚至神經網絡、遺傳算法的方法處理信息,得出有用的分析信息。

步驟(7)模式評估:從商業角度,由行業專家來驗證數據挖掘結果的正確性。

步驟(8)知識表示:將數據挖掘所得到的分析信息以可視化的方式呈現給用戶,或作為新的知識存放在知識庫中,供其他應用程序使用。

數據挖掘過程是一個反復循環的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整并執行。不是每件數據挖掘的工作都需要這里列出的每一步,例如在某個工作中不存在多個數據源的時候,步驟(2)便可以省略。

步驟(3)數據規約、步驟(4)數據清理、步驟(5)數據變換又合稱數據預處理。在數據挖掘中,至少60%的費用可能要花在步驟(1)信息收集階段,而其中至少60%以上的精力和時間花在了數據預處理過程中。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢