熱線電話:13121318867

登錄
首頁精彩閱讀聊一聊統計學和數據挖掘的區別(三)
聊一聊統計學和數據挖掘的區別(三)
2019-02-13
收藏


在前面的文章中我們給大家講述了數據挖掘的一個特定屬性就是要處理的是一個大數據集,這跟統計學不同,使得兩者在建立模型中都可能存在差別,所以我們還是要了解這些內容的,但是數據挖掘和統計學的區別還有哪些呢?下面就有我們為大家解答一下這個問題。


數據挖掘中的一個特定的屬性就是處理一個大數據集,這就意味著,建立的統計模型可能會利用一系列概率表述,但當總體數據可以獲得的話,在數據挖掘中則變得毫無意義。在這里,我們可以很方便的應用評估函數:針對數據的足夠的表述。事實是,常常所關注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發現很容易。在我們尋找規則時常常會利用吻合度的單純特性。但當我們應用概率陳述時則不會得到這些特性。


統計學和數據挖掘部分交迭的第三個特性是在現代統計學中起核心作用的模型?;蛟S模型這個術語更多的含義是變化。一方面,統計學模型是基于分析變量間的聯系,但另一方面這些模型關于數據的總體描述確實沒有道理的。關于信用卡業務的回歸模型可能會把收入作為一個獨立的變量,因為一般認為高收入會導致大的業務。這可能是一個理論模型。與此相反,只需在一些可能具有解釋意義的變量基礎上進行逐步的搜索,從而獲得一個有很大預測價值的模型,盡管不能作出合理的解釋。


還有其它方法可以區分統計模型,但是我們關注的是現代統計學是以模型為主的。而計算,模型選擇條件是次要的,只是如何建立一個好的模型。但在數據挖掘中,卻不完全是如此。在數據挖掘中,準則起了核心的作用。然而,在很多情形下,模型的選擇并不都是顯而易見的,選擇一個合適的模型是不可能的,最合適的計算方法也是不可行的。所以說,我們不能夠把數據挖掘和統計學混淆。


由此可見,數據挖掘工作以及統計學需要注意的地方還是真的不少,我們在進行數據挖掘工作的時候一定要注意統計模型的選擇和使用,這樣才能夠為數據挖掘工作乃至數據分析工作奠定了基礎。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢