熱線電話:13121318867

登錄
首頁精彩閱讀你真的知道數據挖掘的定義嗎
你真的知道數據挖掘的定義嗎
2016-07-29
收藏

你真的知道數據挖掘的定義嗎

我對做事的流程非常感興趣。我想要知道一些可以把事情做好的好方法,甚至在可能的情況下可以知道做這些事情的最好方式。就算你的技能不強,理解相關方面的知識不深,這個過程也可以幫你在后面長時間的過程中解決這些問題。它可以指引你如何變得更有技能,同時對相關知識有深層次的了解。至少,我曾經就是用這樣的方式完成了很多的工作。

我認為學習數據挖掘是很有用的,正如它以從數據中進行發現的過程的形式展現出來的那樣。在這篇文章中,你會從相關的教材和論文中探索一些關于“數據挖掘”的官方定義。就像數據挖掘是一個過程那樣,數據挖掘的定義會包括好幾個關于這個過程的解釋。

比較權威的教材

在這部分當中,我們會從兩本涉及數據挖掘領域的權威教材中尋找關于“數據挖掘”的定義。

數據挖掘:使用的機器學習工具和方法

這是一本由Lan Witten和Eibe Frank編寫的教材。

在這本書的序言中,作者是這樣作序的:

數據挖掘是對一些含蓄的、我們事先不知道的而又是非常有用的信息數據的提取過程。它的思想則是編一套程序,這套程序幫助我們動態的篩選數據集,尋找其中相關的規律和模型。如果能找到一個很好的模型,它更有可能會推廣到對未來的數據進行準確的預測……機器學習則會基于數據挖掘提供相應的方法。這用于從一個包含未經處理的數據集中提取相關的信息….”

在這本書的第一章中,作者是這樣寫的:

數據挖掘是一個被定義為從數據中發現相關的模型的過程。這個過程必須是自動的(通常是這種情況)或者是半自動的。而這些被發現的模型必須在它可以給我們帶來一些好處,尤其是經濟利益的時候才有意義,因為數據總是大量的存在?!?/span>

在我早期入行就讀了這本書,而且這本書講到關于數據挖掘的定義和它與機器學習的聯系與我當時工作聯系十分緊密。每當我使用機器學習方法的時候,我總會使用一個與數據挖掘類似的過程,除非我沒有從本質上嘗試去發現一個模型,這時我更偏向于針對一個定義的問題尋找一個“足夠好”的解決方案。

數據挖掘:概念和方法

這是由韓家煒(美國伊利諾伊大學香檳分校計算機系正教授)和Mucheline Kamber編寫的教材。

這本教材的序言是這樣的:

數據挖掘,很多人又把它稱作是對數據的知識發現(KDD),是一個動態和簡便的抓取方式,而其中相關模型所展現出的復雜的知識是從大的數據集、數據倉庫、網頁,以及其它一些大型的信息庫或數據流中被存儲或抓取起來?!?/span>

這里和知識發現的定義有一點點不錯,在我看來主要是涉及這一領域的一些準則。我相信一個更能被人接受的KDD定義是被稱作數據集中的知識發現。

在教材的第一章中,作者概括了知識發現的過程(在書本的7到8頁):

l 數據清洗:移除一些不完整的和對結果有影響的數據。

l 數據整合:把多個數據源的數據進行組合。

l 數據選擇:哪里的數據和我們的分析任務相關,我們從那個數據集里找出這些數據。

l 數據選擇:當數據已經經過轉換處理并形成一個合適的數據挖掘形式以后,我們需要在此進行歸納和整合操作。

l 數據挖掘:這是應用智能方法來提取數據并建立模型的核心過程。

l 模型預測:確認一個真正有趣的模型,這個模型是基于興趣展現出相關的知識。

l 知識展示:通過可視化操作和知識展現的方法給用戶展示通過挖掘得出的信息。

在這本書中,作者注釋到:數據挖掘通常來說可能更加傾向于整個知識挖掘的過程,因為它是一個短期的過程。

具有共識性的文章

在這部分,我們會在這一領域一些具有共識性的文章來探索數據庫方面的知識挖掘這一過程。這些文章都是repreitable方法的雜志而不是過往的期刊。因此,一些不太正式的口味被用到了一個高級話題的有用的討論中。

數據庫中從數據挖掘到知識發現

這是一篇由Usama Fayyad,Gregory Piatetsky-Shapiro和Padhraic Smyth寫的,并在1996年刊登在AL雜志的文章。

他們把KDD看作是數據庫的知識挖掘,而下面的這個定義我們則更加熟悉: “KDD領域是隨著數據的了解的方法和技能的發展,而這個過程的核心則是特殊的數據挖掘的方法在模型的發現和提取方面的應用?!?/span>

還有:

“KDD被用于從數據中發現有用的知識的整個過程,而且數據挖掘在這個過程中是很多人都會使用的一個特殊的步驟。數據挖掘是采用特殊的算法從數據中提取出相關模型的應用?!?/span>

作者在一張含有一個函數實體的箱子,以及這個過程里箱子被轉化為箱子的圖片提供了一個很好的歸納。下面是這樣歸納的:我一般對于使用圖片來解釋說明都抱有謹慎的態度,不好意思,如果這個時候正式出版就比較困難了。

第一步:選擇(從數據中找到目標數據)。

第二步:預處理過程(對目標數據進行處理)。

第三步:轉換(把預處理過的數據進行轉化處理)。

第四步:數據挖掘(對經過轉換處理的數據進行建模)。

第五步:從知識的角度分析和評估這個模型。

這個過程很簡單,而且我喜歡把這個模型用到我遇到的問題中。

從大量數據中提取有用的知識的過程

這是一篇由 Usama Fayyad、Gregory Piatetsky-Shapiro和Padhraic Smyth在1996年在ACM通信上面的文章。

在這篇文章中,作者對KDD過程作了一個更詳細的歸納。這篇涉及更多細節的版本的文章是“從數據挖掘……”,但我覺得這篇文章表達的內容不夠清晰。這篇涉及更多關于KDD過程的細節的文章經過一點修改如下:

明白其中的應用領域和這個過程的目標。

對所以可行的數據建立一個數據集子集。

數據清洗和數據預處理可以去除其中的雜質、處理錯誤的數據和極端值。

數據的簡化和預測是為了能把焦點集中到與問題相關的功能上。

這是一個數據挖掘方法匹配其相應目的的過程。決定這個模型使用的目的,比如歸納和分類。

選擇一個可以與相應模型使用的目的匹配的數據挖掘的算法(第五步的延續)。

數據挖掘,即,在數據上運行算法。

挖掘模型的解釋是為了能讓用戶更好的明白其中的結果,諸如采用歸納和可視化操作的方法。

在已發現的知識上進行操作,諸如報告和決策。

我喜歡在這個過程中看到信息。這應了我的需要去明白使用這個過程的目的,以及可以持續的運行一個算法從而選出可以與這個目的匹配的模型。

總結歸納

通過閱讀這篇文章,你已經知道了數據挖掘是一個對現有的數據進行知識發現和挖掘出一個模型的過程。你也從中知道了這個過程通常包括幾個步驟包含了數據的展現、算法的運行和結果的展現。

你從中學到了機器學習是用于數據挖掘的工具,而數據挖掘又是在數據庫進行知識發現或KDD的一個很重要的步驟,而這兩者又是在這個術語中是相提并論的,因為這樣比較容易表達。

你也知道了當你在你的項目運用機器學習的時候,你可能會運行一些KDD過程的模式,而這個過程是有目的的解決一個問題而不是只是做知識發現。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢