熱線電話:13121318867

登錄
首頁精彩閱讀NO.6DataMining包含哪些主要功能?
NO.6DataMining包含哪些主要功能?
2014-12-10
收藏

Data Mining實際應用功能可分為三大類六分項來說明:Classification和Clustering屬于分類區隔類;Regression和Time-series屬于推算預測類;Association和Sequence則屬于序列規則類。

Classification是根據一些變量的數值做計算,再依照結果作分類。(計算的結果最后會被分類為幾個少數的離散數值,例如將一組數據分為 "可能會響應" 或是 "可能不會響應" 兩類)。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據歷史經驗已經分類好的數據來研究它們的特征,然后再根據這些特征對其他未經分類或是新的數據做預測。這些我們用來尋找特征的已分類數據可能是來自我們的現有的客戶數據,或是將一個完整數據庫做部份取樣,再經由實際的運作來測試;譬如利用一個大型郵寄對象數據庫的部份取樣來建立一個Classification Model,再利用這個Model來對數據庫的其它數據或是新的數據作分類預測。

Clustering用在將數據分群,其目的在于將群間的差異找出來,同時也將群內成員的相似性找出來。Clustering與Classification不同的是,在分析前并不知道會以何種方式或根據來分類。所以必須要配合專業領域知識來解讀這些分群的意義。

Regression是使用一系列的現有數值來預測一個連續數值的可能值。若將范圍擴大亦可利用Logistic Regression來預測類別變量,特別在廣泛運用現代分析技術如類神經網絡決策樹理論等分析工具,推估預測的模式已不在止于傳統線性的局限,在預測的功能上大大增加了選擇工具的彈性與應用范圍的廣度。

Time-Series Forecasting與Regression功能類似,只是它是用現有的數值來預測未來的數值。兩者最大差異在于Time-Series所分析的數值都與時間有關。Time-Series Forecasting的工具可以處理有關時間的一些特性,譬如時間的周期性、階層性、季節性以及其它的一些特別因素(如過去與未來的關連性)。

Association是要找出在某一事件或是數據中會同時出現的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現在該事件中的機率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個顧客同時也會買牛奶的機率是85%。)

Sequence Discovery與Association關系很密切,所不同的是Sequence Discovery中事件的相關是以時間因素來作區隔(例如:如果A股票在某一天上漲12%,而且當天股市加權指數下降,則B股票在兩天之內上漲的機率是 68%)。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢