熱線電話:13121318867

登錄
首頁精彩閱讀幾個數據挖掘中常用的概念
幾個數據挖掘中常用的概念
2016-09-12
收藏

幾個數據挖掘中常用的概念

還有一些概念是我們在數據挖掘中常用的,比如聚類算法、時間序列算法、估計和預測以及關聯算法等。我們將在本節中介紹幾個常用概念以加深讀者對數據挖掘的理解。

聚類

所謂聚類,就是類或簇(Cluster)的聚合,而類是一個數據對象的集合。

和分類一樣,聚類的目的也是把所有的對象分成不同的群組,但和分類算法的最大不同在于采用聚類算法劃分之前并不知道要把數據分成幾組,也不知道依賴哪些變量來劃分。

聚類有時也稱分段,是指將具有相同特征的人歸結為一組,將特征平均,以形成一個"特征矢量"或"矢心"。聚類系統通常能夠把相似的對象通過靜態分類的方法分成不同的組別或者更多的子集(Subset),這樣在同一個子集中的成員對象都有相似的一些屬性。聚類被一些提供商用來直接提供不同訪客群組或者客戶群組特征的報告。聚類算法是數據挖掘的核心技術之一,而除了本身的算法應用之外,聚類分析也可以作為數據挖掘算法中其他分析算法的一個預處理步驟。

圖2-7是聚類算法的一種展示。圖中的Cluster1和Cluster2分別代表聚類算法計算出的兩類樣本。打"+"號的是Cluster1,而打"○"標記的是Cluster2。

在商業中,聚類可以幫助市場分析人員從消費者數據庫中區分出不同的消費群體,并且概括出每一類消費者的消費模式或者消費習慣。它作為數據挖掘中的一個模塊,可以作為一個單獨的工具以發現數據庫中分布的一些深層次的信息,或者把注意力放在某一個特定的類上以作進一步的分析并概括出每一類數據的特點。


 

聚類分析的算法可以分為劃分法(Partitioning Methods)、層次法(Hierarchical Methods)、基于密度的方法(Density-Based Methods)、基于網格的方法(Grid-Based Methods)和基于模型的方法(Model-Based Methods)等。

比如,下面幾個場景比較適合應用聚類算法,同時又有相應的商業應用:

哪些特定癥狀的聚集可能預示什么特定的疾???

租同一類型車的是哪一類客戶?

網絡游戲上增加什么功能可以吸引哪些人來?

哪些客戶是我們想要長期保留的客戶?

聚類算法除了本身的應用之外還可以作為其他數據挖掘方法的補充,比如聚類算法可以用在數據挖掘的第一步,因為不同聚類中的個體相似度可能差別比較大。例如,哪一種類的促銷對客戶響應最好?對于這一類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,再通過其他數據挖掘算法來分析,效果會更好。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢