熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘聚類方法的淺談_數據分析師
數據挖掘聚類方法的淺談_數據分析師
2014-11-05
收藏
數據挖掘聚類方法的淺談

數據挖掘方法有:分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、Web頁挖掘等;
1.分類。分類是找出數據庫中一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。

2.回歸分析?;貧w分析方法反映的是事務數據庫中屬性值在時間上的特征,產生一個將數據項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關系,其主要研究問題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等。

3.聚類。聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。
 
4.關聯規則。關聯規則是描述數據庫中數據項之間所存在的關系的規則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關系。

5.特征。特征分析是從數據庫中的一組數據中提取出關于這些數據的特征式,這些特征式表達了該數據集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預防客戶的流失。

 6.變化和偏差分析。偏差包括很大一類潛在有趣的知識,如分類中的反常實例,模式的例外,觀察結果對期望的偏差等,其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發現、分析、識別、評價和預警等方面。

 7.Web頁挖掘。隨著Internet的迅速發展及Web 的全球普及, 使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web 的海量數據進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息,并根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。
 
聚類是其中的一種方法,而聚類中又包含很多方法,聚類方法有:分割方法,分層次方法,基于密度的方法,基于網格的方法;
每一種不同的聚類方法都有其適用情況,并不存在能適用所有聚類的方法,遇到問題要具體分析,有些聚類方法適合一維數據類型的,可是不適合多維的。做數據分析就要了解各個聚類方法的特點,并明白自己的目的從而選擇適合的聚類方法;
常見的劃分聚類方法有,分割方法:K-means;分層次方法:Rock,Chemeleon,BIRCH;基于密度:DBSCAN;基于網格:STING,WaveCluster;等各個方法都有自己的特點,這些聚類方法都涉及到數據之間的距離計算,常見的有DTW和歐氏距離算法,兩個算法都各有特特點,DTW計算復雜度較高,歐式距離計算方法較為高效,但是歐式在一些場合對數據的描述會及不上DTW算法。所以分析自己的數據類型,再決定計算方法很重要!
對于數據挖掘的聚類算法,總的來說:
1.我們要分析自己數據的類型是一維的還是多維的,從而選擇是分割方法,分層次,基于密度還是基于網格;
2.選定一種方法后,再具體分析該方法下的具體聚類方法,視自己需要進行選擇,各個方法精確度都有出入,效率也不等,所以要合適選擇;
3.具體方法定下后,要考慮聚類算法的實現,可以用DTW也可以用歐式,不過那要看你的數據類型是什么樣的,改方法的選擇在一定程度上決定了準確度;
4.在選定主要的方法后可以對其進行優化,類似于預處理,又或者視情況需要犧牲計算時間來換取計算精度等方法對主方法進行結合,在一定程度上都能提高效率;
總的來說吧,不要輕信網上那種“全能”算法,即可以快速完成又可以精度超高,適用于各種情況,效率堪稱完美,這是不可能的,如果這種算法出現了,大數據時代將會產生一場革命,那么這個算法會名揚天下,還會躲在Google,百度的小角落了等你搜索?每一個算法都有他自己的利弊,我們要權衡利弊選擇合適的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢