熱線電話:13121318867

登錄
首頁精彩閱讀 什么是數據挖掘-數據挖掘應用
什么是數據挖掘-數據挖掘應用
2016-02-15
收藏

什么是數據挖掘-數據挖掘應用

什么是數據挖掘

當今數據庫的容量已經達到上萬億的水平(T)--- 1,000,000,000,000個字節。在這些大量數據的背后隱藏了很多具有決策意義的信息,那么怎么得到這些“知識”呢?也就是怎樣通過一顆顆的樹木了解到整個森林的情況?

計算機科學對這個問題給出的最新回答就是:數據挖掘,在“數據礦山”中找到蘊藏的“知識金塊”,幫助企業減少不必要投資的同時提高資金回報。數據挖掘給企業 帶來的潛在的投資回報幾乎是無止境的。世界范圍內具有創新性的公司都開始采用數據挖掘技術來判斷哪些是他們的最有價值客戶、重新制定他們的產品推廣策略 (把產品推廣給最需要他們的人),以用最小的花費得到最好的銷售。

數據挖掘是一個利用各種分析工具在海量數據中發現模型和數據間關系的過程,這些模型和關系可以用來做出預測。

數據挖掘的第一步是描述數據 --- 計算統計變量(比如平均值、均方差等),再用圖表或圖片直觀的表示出來,進而可以看出一些變量之間的相關性(比如有一些值經常同時出現)。選擇正確的數據 源對整個數據挖掘項目的成敗至關重要,在后面數據挖掘的步驟中我們會著重強調這一點。

單 單是數據描述并不能為人們制訂行動計劃提供足夠的依據,你必須用你的這些歷史數據建立一個預言模型,然后再用另外一些數據對這個模型進行測試。一個好的模 型沒必要與數據庫中的數據100%的相符(城市交通圖也不是完全的實際交通線路的等比縮?。?,但他在你做決策時是一個很好的指南和依據。

最后一步是驗證你的模型。比如你用所有對你的產品推廣計劃做出回應的人的數據庫做了一個模型,來預測什么樣的人會對你的產品感興趣。你能在得到這個模型后就直接利用這個模型做出決策或采取行動嗎?還是更穩妥一點先對一小部分客戶做一個實際的測試,然后再決定?

數據挖掘:不能干什么

數據挖掘它無法告訴你某個模型對你的企業的實際價值。而且數據挖掘中得到的模型必須要在現實生活中進行驗證。

注 意數據挖掘中得到的預言模型并不會告訴你一個人為什么會做一件事、采取某個行動,他只會告訴你他會這樣做,為什么要人去考慮。比如,數據挖掘可能會告訴 你,如果這個人是男的、年收入在5萬到6萬之間,那么他可能會買你的商品/服務。你可能會利用這條規則,集中向這類人推銷你的商品而從中獲益,但是數據挖 掘工具不會告訴你他們為什么會買你的東西,也不能保證所有符合這條規則的人都會買。

為 了保證數據挖掘結果的價值,你自己必須了解你的數據,這一點至關重要。輸入數據庫中的異常數據、不相關的字段或互相沖突的字段(比如年齡和生日不一致)、 數據的編碼方式等都會對數據挖掘輸出結果的質量產生影響。雖然一些算法自身會對上面提到的這些問題做一些考慮,但讓算法自己做所有這些決定是不明智的。

數據挖掘不會在缺乏指導的情況下自動的發現模型。你不能這樣對數據挖掘工具說,“幫我提高直接郵件推銷的響應率”,你應該讓數據挖掘工具找(1)對你的推銷回應的人,或(2)即回應又做了大量訂單的人的特征。在數據挖掘中尋找這兩種模型是很不相同的。

雖然數據挖掘工具使你不必再掌握艱深的統計分析技術,但你仍然需要知道你所選用的數據挖掘工具是如何工作的,他所采用的算法的原理是什么。你所選用的技術和優化方法會對你的模型的準確度和生成速度產生很大影響。

數 據挖掘永遠不會替代有經驗的商業分析師或管理人員所起的作用,他只是提供一個強大的工具。每個成熟的、了解市場的公司都已經具有一些重要的、能產生高回報 的模型,這些模型可能是管理人員花了很長時間,作了很多調查,甚至是經過很多失誤之后得來的。數據挖掘工具要做的就是使這些模型得到的更容易,更方便,而 且有根據。

數據挖掘數據倉庫

大 部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中。從數據倉庫中直接得到進行數據挖掘的數據有許多好處。就如我們后面會講到的, 數據倉庫的數據清理和數據挖掘的數據清理差不多,如果數據在導入數據倉庫時已經清理過,那很可能在做數據挖掘時就沒必要在清理一次了,而且所有的數據不一 致的問題都已經被你解決了。

數據挖掘庫可能是你的數據倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數據庫。但如果你的數據倉庫的計算資源已經很緊張,那你最好還是建立一個單獨的數據挖掘庫。

當 然為了數據挖掘你也不必非得建立一個數據倉庫,數據倉庫不是必需的。建立一個巨大的數據倉庫,把各個不同源的數據統一在一起,解決所有的數據沖突問題,然 后把所有的數據導到一個數據倉庫內,是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數據挖掘,你可以把一個或幾個事務數據庫導到一 個只讀的數據庫中,就把它當作數據集市,然后在他上面進行數據挖掘。

 數據挖掘和在線分析處理(OLAP)

一個經常問的問題是,數據挖掘和OLAP到底有何不同。下面將會解釋,他們是完全不同的工具,基于的技術也大相徑庭。

OLAP 是決策支持領域的一部分。傳統的查詢和報表工具是告訴你數據庫中都有什么(what happened),OLAP則更進一步告訴你下一步會怎么樣(What next)、和如果我采取這樣的措施又會怎么樣(What if)。用戶首先建立一個假設,然后用OLAP檢索數據庫來驗證這個假設是否正確。比如,一個分析師想找到什么原因導致了貸款拖欠,他可能先做一個初始的 假定,認為低收入的人信用度也低,然后用OLAP來驗證他這個假設。如果這個假設沒有被證實,他可能去察看那些高負債的賬戶,如果還不行,他也許要把收入 和負債一起考慮,一直進行下去,直到找到他想要的結果或放棄。

也就是說,OLAP分析師是建立一系列的假設,然后通過OLAP來證實或推翻這些假設來最終得到自己的結論。OLAP分析過程在本質上是一個演繹推理的過程。但是如果分析的變量達到幾十或上百個,那么再用OLAP手動分析驗證這些假設將是一件非常困難和痛苦的事情。

數 據挖掘與OLAP不同的地方是,數據挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數據庫中自己尋找模型。他在本質上是一個歸納的過程。比如, 一個用數據挖掘工具的分析師想找到引起貸款拖欠的風險因素。數據挖掘工具可能幫他找到高負債和低收入是引起這個問題的因素,甚至還可能發現一些分析師從來 沒有想過或試過的其他因素,比如年齡。

數據挖掘和OLAP具有一定的互補性。在利用數據挖掘出來的結論采取行動之前,你也許要驗證一下如果采取這樣的行動會給公司帶來什么樣的影響,那么OLAP工具能回答你的這些問題。

而且在知識發現的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾祿?,找到哪些是對一個問題比較重要的變量,發現異常數據和互相影響的變量。這都能幫你更好的理解你的數據,加快知識發現的過程。

數據挖掘,機器學習和統計

數據挖掘利用了人工智能(AI)和統計分析的進步所帶來的好處。這兩門學科都致力于模式發現和預測。

數 據挖掘不是為了替代傳統的統計分析技術。相反,他是統計分析方法學的延伸和擴展。大多數的統計分析技術都基于完善的數學理論和高超的技巧,預測的準確度還 是令人滿意的,但對使用者的要求很高。而隨著計算機計算能力的不斷增強,我們有可能利用計算機強大的計算能力只通過相對簡單和固定的方法完成同樣的功能。

一些新興的技術同樣在知識發現領域取得了很好的效果,如神經元網絡和決策樹,在足夠多的數據和計算能力下,他們幾乎不用人的關照自動就能完成許多有價值的功能。

數據挖掘就是利用了統計和人工智能技術的應用程序,他把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解決的問題。

軟硬件發展對數據挖掘的影響

使 數據挖掘這件事情成為可能的關鍵一點是計算機性能價格比的巨大進步。在過去的幾年里磁盤存儲器的價格幾乎降低了99%,這在很大程度上改變了企業界對數據 收集和存儲的態度。如果每兆的價格是¥10,那存放1TB的價格是¥10,000,000,但當每兆的價格降為1毛錢時,存儲同樣的數據只有 ¥100,000!

計算機計算能力價格的降低同樣非常顯著。每一代芯片的誕生都會把CPU的計算能力提高一大步。內存RAM也同樣降價迅速,幾年之內每兆內存的價格由幾百塊錢降到現在只要幾塊錢。通常PC都有64M內存,工作站達到了256M,擁有上G內存的服務器已經不是什么新鮮事了。

在單個CPU計算能力大幅提升的同時,基于多個CPU的并行系統也取得了很大的進步。目前幾乎所有的服務器都支持多個CPU,這些SMP服務器簇甚至能讓成百上千個CPU同時工作。

基于并行系統的數據庫管理系統也給數據挖掘技術的應用帶來了便利。如果你有一個龐大而復雜的數據挖掘問題要求通過訪問數據庫取得數據,那么效率最高的辦法就是利用一個本地的并行數據庫。

所有這些都為數據挖掘的實施掃清了道路,隨著時間的延續,我們相信這條道路會越來越平坦。

數據挖掘應用

由于數據挖掘帶來的顯著的經濟效益,使數據挖掘越來越普及。他不僅能用于控制成本,也能給企業帶來效益。

很多企業都在利用數據挖掘技術幫助管理客戶生命周期的各個階段,包括爭取新的客戶、在已有客戶的身上賺更多的錢、和保持住好的客戶。如果能夠確定好的客戶的 特點,那么就能提供為客戶提供針對性的服務。比如,已經發現了購買某一商品的客戶的特征,那么就可以向那些具有這些特征但還沒有購買此商品的客戶推銷這個 商品;找到流失的客戶的特征就可以,在那些具有相似特征的客戶還未流失之前進行針對性的彌補,因為保留一個客戶要比爭取一個客戶便宜的多。

數據挖掘可以應用在各個不同的領域。電訊公司和信用卡公司是用數據挖掘檢測欺詐行為的先行者。保險公司和證券公司也開始采用數據挖掘來減少欺詐。醫療應用是 另一個前景廣闊的產業:數據挖掘可以用來預測外科手術、醫療試驗和藥物治療的效果。零銷商更多的使用數據挖掘來決定每種商品在不同地點的庫存,通過數據挖 掘更靈活的使用促銷和優惠卷手段。制藥公司通過挖掘巨大的化學物質和基因對疾病的影響的數據庫來判斷哪些物質可能對治療某種疾病產生效果。

成功的數據挖掘

有保證數據挖掘成功的兩個關鍵要素。一是準確的定義你所要解決的問題,定位準確的問題通常會帶來最好的回報。二是使用正確的數據,選定了你所能得到的數據,也許還要從外部購買數據,你需要對這些數據做有效的數據整合和轉換。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢