熱線電話:13121318867

登錄
首頁精彩閱讀基于屬性分類的數據挖掘方法
基于屬性分類的數據挖掘方法
2016-01-12
收藏


基于屬性分類的數據挖掘方法

隨著數據庫技術和數據庫管理系統的廣泛應用, 數據庫中存儲的數據量急劇增大, 數據庫系統提供了對這些數據的管理和簡單的處理功能, 數據分析師可以在這些數據上進行分析處理, 但如此龐大的數據對人工分析來說是非常困難的, 人們需要能夠對數據進行更高層次的處理, 從中找出規律和模式, 以幫助人們更好的利用數據進行決策和研究, 這也就是如何進行數據挖掘, 即從大型數據庫中發現并提取出隱藏在其中的信息的一種新技術, 目的是幫助決策者發現數據間重要的但被忽略的因素, 這種技術稱為數據挖掘(data m ining 簡稱DM ) 1〕. 為了便于進行數據挖掘, 數據的存放不再局限于數據庫的規范化形式存儲, 而是采用了數據倉庫的技術, 對數據進行一部分預處理, 進行分類或分片, 以加快數據挖掘的速度.

數據挖掘涉及的方面很多, 有人工智能, 神經網絡, 數據庫, 預測理論, 機器學習, 統計學, 但數據挖掘的主要方法和任務是數據總結, 分類發現, 聚類和關聯規則的發現.數據總結的目的是對數據進行濃縮, 傳統的方法也是目前最簡單的方法, 就是計算出數據庫的各個字段的和值, 平均值, 方差, 最大最小值并以方圖, 餅圖的形式顯示. 分類是數據 中非常重要的任務和方法.
現在從統計學和機器學習的角度提出了較多的分類技術, 其中以ID3 ( Iterat ive D icho tom izer 3〔2〕算法為代表, 就是將分類結果以決策樹的形式給出, 樹的內部節點是一個決策,而葉節點代表一個類. 以ID3 為代表的一類算法的效率對于較少的數據而言是適當的, 但是隨著數據量的增加和決策屬性的增加, 則效率會大幅下降, 而且不能直接形成規則. 基于屬性分類的數據挖掘方法是以數據庫中關系表為基礎的而且在原始數據增加的情況下, 可以通過化簡來壓縮數據規模, 使之只與屬性值有關系, 而與原始的數據量無關, 而現在的數據存放中, 幾乎所有的數據都是用關系表的形式存放的, 這為基于屬性分類的數據挖掘方法提供了極大的方便, 并可方便得到發現屬性間的聯系形成決策規則或產生式規則.
本文介紹的數據挖掘方法分為兩個大步驟, 第一步進行數據的收集和整理, 形成基礎表進行準備工作; 第二步是對基礎表進行屬性分類, 并發現其中的關系, 形成決策規則.數據分析師培訓


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢