熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘與數據建模的9大定律?(1)
數據挖掘與數據建模的9大定律?(1)
2015-10-09
收藏

數據挖掘數據建模的9大定律(1)


數據挖掘是利用業務知識從數據中發現和解釋知識(或稱為模式)的過程,這種知識是以自然或者人工形式創造的新知識。

當前的數據挖掘形式,是在20世紀90年代實踐領域誕生的,是在集成數據挖掘算法平臺發展的支撐下適合商業分析的一種形式。也許是因為數據挖掘源于實踐而非 理論,在其過程的理解上不太引人注意。20世紀90年代晚期發展的CRISP-DM,逐漸成為數據挖掘過程的一種標準化過程,被越來越多的數據挖掘實踐者 成功運用和遵循。

雖然CRISP-DM能夠指導如何實施數據挖掘,但是它不能解釋數據挖掘是什么或者為什么適合這樣做。在本文中我將闡述我提出數據挖掘的九種準則或“定律”(其中大多數為實踐者所熟知)以及另外其它一些熟知的解釋。開始從理論上(不僅僅是描述上)來解釋數據挖掘過程。

我的目的不是評論CRISP-DM,但CRISP-DM的許多概念對于理解數據挖掘是至關重要的,本文也將依賴于CRISP-DM的常見術語。CRISP-DM僅僅是論述這個過程的開始。

第一,目標律:業務目標是所有數據解決方案的源頭。

它定義了數據挖掘的主題:數據挖掘關注解決業務業問題和實現業務目標。數據挖掘主要不是一種技術,而是一個過程,業務目標是它的的核心。 沒有業務目標,沒有數據挖掘(不管這種表述是否清楚)。因此這個準則也可以說成:數據挖掘是業務過程。

 第二,知識律:業務知識是數據挖掘過程每一步的核心。

這里定義了數據挖掘過程的一個關鍵特征。CRISP-DM的一種樸素的解讀是業務知識僅僅作用于數據挖掘過程開始的目標的定義與最后的結果的實施,這將錯過數據挖掘過程的一個關鍵屬性,即業務知識是每一步的核心。

為了方便理解,我使用CRISP-DM階段來說明:

·             商業理解必須基于業務知識,所以數據挖掘目標必須是業務目標的映射(這種映射也基于數據知識和數據挖掘知識);

·             數據理解使用業務知識理解與業務問題相關的數據,以及它們是如何相關的;

·             數據預處理就是利用業務知識來塑造數據,使得業務問題可以被提出和解答(更詳盡的第三條—準備律);

·             建模是使用數據挖掘算法創建預測模型,同時解釋模型和業務目標的特點,也就是說理解它們之間的業務相關性;

·             評估是模型對理解業務的影響;

·             實施是將數據挖掘結果作用于業務過程;

總之,沒有業務知識,數據挖掘過程的每一步都是無效的,也沒有“純粹的技術”步驟。 業務知識指導過程產生有益的結果,并使得那些有益的結果得到認可。數據挖掘是一個反復的過程,業務知識是它的核心,驅動著結果的持續改善。

這背后的原因可以用“鴻溝的表現”(chasm of representation)來解釋(Alan Montgomery在20世紀90年代對數據挖掘提出的一個觀點)。Montgomery指出數據挖掘目標涉及到現實的業務,然而數據僅能表示現實的一 部分;數據和現實世界是有差距(或“鴻溝”)的。在數據挖掘過程中,業務知識來彌補這一差距,在數據中無論發現什么,只有使用業務知識解釋才能顯示其重要 性,數據中的任何遺漏必須通過業務知識彌補。只有業務知識才能彌補這種缺失,這是業務知識為什么是數據挖掘過程每一步驟的核心的原因。

 第三,準備律:數據預處理比數據挖掘其他任何一個過程都重要。

這是數據挖掘著名的格言,數據挖掘項目中最費力的事是數據獲取和預處理。非正式估計,其占用項目的時間為50%-80%。最簡單的解釋可以概括為“數據是困 難的”,經常采用自動化減輕這個“問題”的數據獲取、數據清理、數據轉換等數據預處理各部分的工作量。雖然自動化技術是有益的,支持者相信這項技術可以減 少數據預處理過程中的大量的工作量,但這也是誤解數據預處理在數據挖掘過程中是必須的原因。

數據預處理的目的是把數據挖掘問題轉化為格式化的數據,使得分析技術(如數據挖掘算法)更容易利用它。數據任何形式的變化(包括清理、最大最小值轉換、增長 等)意味著問題空間的變化,因此這種分析必須是探索性的。 這是數據預處理重要的原因,并且在數據挖掘過程中占有如此大的工作量,這樣數據挖掘者可以從容 地操縱問題空間,使得容易找到適合分析他們的方法。

有兩種方法“塑造”這個問題 空間。第一種方法是將數據轉化為可以分析的完全格式化的數據,比如,大多數數據挖掘算法需要單一表格形式的數據,一個記錄就是一個樣例。數據挖掘者都知道 什么樣的算法需要什么樣的數據形式,因此可以將數據轉化為一個合適的格式。第二種方法是使得數據能夠含有業務問題的更多的信息,例如,某些領域的一些數據 挖掘問題,數據挖掘者可以通過業務知識和數據知識知道這些。 通過這些領域的知識,數據挖掘者通過操縱問題空間可能更容易找到一個合適的技術解決方案。

因此,通過業務知識、數據知識、數據挖掘知識從根本上使得數據預處理更加得心應手。 數據預處理的這些方面并不能通過簡單的自動化實現。

這個定律也解釋了一個有疑義的現象,也就是雖然經過數據獲取、清理、融合等方式創建一個數據倉庫,但是數據預處理仍然是必不可少的,仍然占有數據挖掘過程一 半以上的工作量。此外,就像CRISP-DM展示的那樣,即使經過了主要的數據預處理階段,在創建一個有用的模型的反復過程中,進一步的數據預處理的必要 的。

第四,試驗律(NFL律:No Free Lunch):對于數據挖掘者來說,天下沒有免費的午餐,一個正確的模型只有通過試驗(experiment)才能被發現。

機器學習有一個原則:如果我們充分了解一個問題空間(problem space),我們可以選擇或設計一個找到最優方案的最有效的算法。一個卓越算法的參數依賴于數據挖掘問題空間一組特定的屬性集,這些屬性可以通過分析發 現或者算法創建。但是,這種觀點來自于一個錯誤的思想,在數據挖掘過程中數據挖掘者將問題公式化,然后利用算法找到解決方法。事實上,數據挖掘者將問題公 式化和尋找解決方法是同時進行的—–算法僅僅是幫助數據挖掘者的一個工具。

有五種因素說明試驗對于尋找數據挖掘解決方案是必要的: 

·             數據挖掘項目的業務目標定義了興趣范圍(定義域),數據挖掘目標反映了這一點;

·             與業務目標相關的數據及其相應的數據挖掘目標是在這個定義域上的數據挖掘過程產生的;

·             這些過程受規則限制,而這些過程產生的數據反映了這些規則;

·             在這些過程中,數據挖掘的目的是通過模式發現技術(數據挖掘算法)和可以解釋這個算法結果的業務知識相結合的方法來揭示這個定義域上的規則;

·             數據挖掘需要在這個域上生成相關數據,這些數據含有的模式不可避免地受到這些規則的限制。

在這里強調一下最后一點,在數據挖掘中改變業務目標,CRISP-DM有所暗示,但經常不易被覺察到。廣為所知的CRISP-DM過程不是下一個步驟僅接著上一個步驟的“瀑布”式的過程。事實上,在項目中的任何地方都可以進行任何CRISP-DM步驟,同樣商業理解也可以存在于任何一個步驟。業務目標不是簡 單地在開始就給定,它貫穿于整個過程。這也許可以解釋一些數據挖掘者在沒有清晰的業務目標的情況下開始項目,他們知道業務目標也是數據挖掘的一個結果,不是靜態地給定。

Wolpert的“沒有免費的午餐”理論已經應用于機器學習領域,無偏的狀態好于(如一個具體的算法)任何其他可能的問題(數據集)出現的平均狀態。這是因為,如果我們考慮所有可能的問題,他們的解決方法是均勻分布的,以至于一個算法(或偏倚)對一個子集是有利的,而對另一個子集是不利的。這與數據挖掘者所知的具有驚人的相似性,沒有一個算法適合每一個問題。但是經 過數據挖掘處理的問題或數據集絕不是隨機的,也不是所有可能問題的均勻分布,他們代表的是一個有偏差的樣本,那么為什么要應用NFL的結論?答案涉及到上 面提到的因素:問題空間初始是未知的,多重問題空間可能和每一個數據挖掘目標相關,問題空間可能被數據預處理所操縱,模型不能通過技術手段評估,業務問題本身可能會變化。由于這些原因,數據挖掘問題空間在數據挖掘過程中展開,并且在這個過程中是不斷變化的,以至于在有條件的約束下,用算法模擬一個隨機選擇的數據集是有效的。對于數據挖掘者來說:沒有免費的午餐。

這大體上描述了數據 挖掘過程。但是,在有條件限制某些情況下,比如業務目標是穩定的,數據和其預處理是穩定的,一個可接受的算法或算法組合可以解決這個問題。在這些情況下, 一般的數據挖掘過程中的步驟將會減少。 但是,如果這種情況穩定是持續的,數據挖掘者的午餐是免費的,或者至少相對便宜的。像這樣的穩定性是臨時的,因為 對數據的業務理解(第二律)和對問題的理解(第九律)都會變化的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢