熱線電話:13121318867

登錄
首頁精彩閱讀SAS數據挖掘實戰篇【一】
SAS數據挖掘實戰篇【一】
2016-04-08
收藏

SAS數據挖掘實戰篇【一】

1數據挖掘簡介 1.1數據挖掘的產生

需求是一切技術之母,管理和計算機技術的發展,促使數據挖掘技術的誕生。隨著世界信息技術的迅猛發展,信息量也呈幾何指數增長,如何從巨量、復雜的數據中獲取有用的信息,成為了信息技術研究領域的一道新課題。在這樣的背景下,數據挖掘技術誕生并成為了近年來的研究熱點。機器學習、數據庫技術和數理統計是數據挖掘的三個技術支柱。
今天,這些技術已經相當成熟,加上高性能關系數據庫引擎和廣泛的數據集成,讓數據挖掘技術得到了廣泛的實際應用。目前數據挖掘相關研究文獻越來越多、可用技術也層出不窮,數據挖掘的理論體系正在形成,相信很快就會成為一種主流信息技術。當然,數據挖掘面向應用領域要做的事還很多,比如需要開發更多數據挖掘系統和產品,需要建立行業內的數據標準和通用挖掘平臺,需要建立可交換信息和共享知識的通用數據倉庫等。應該說,數據挖掘包含的內容很多,值得研究的方向也很多。但是,我們也注意到,就目前而言,注重多種策略和技術的集成,以及各個學科之間的相互滲透是目前的研究熱點。傳統機器學習技術一般使用研究者按照條件和結論事先組織好的數據,但是數據挖掘卻需要面對現實的數據,通常具有不完整、帶有噪音、數量大、甚至還不斷增加等特點,因此傳統機器學習方法需要改進后才能用于數據挖掘。所以,目前數據挖掘的研究重點應該是針對應用實踐,綜合借鑒交叉學科中的技術和方法,互相滲透,發現新的方法或進行多種策略和技術的集成。
1.2數據挖掘概念
數據挖掘,顧名思義就是指從大量的數據中提取人們所感興趣的、事先不知道的、隱含在數據中的有用的信息和知識的過程,并且把這些知識用概念、規則、規律和模式等方式展示給用戶,從而解決信息時代的“數據過量,知識不足” 的矛盾。 數據挖掘技術是從數據庫中的知識發現KDD(Knowledge Discovery in Database)的研究起步的,KDD是隨著數據庫開始存儲了大量業務數據,并采用機器學習技術分析這些數據,挖掘這些數據背后的知識而發展起來的。隨著KDD研究的深入,越來越多的研究人員進入這一領域。目前,大多數研究還是主要集中在數據挖掘的算法和應用上。事實上,人們往往不嚴格區分數據挖掘和數據庫中的知識發現這兩個概念,常常將兩者混淆使用。一般在科學研究領域中稱為KDD,而在工程應用領域則稱為數據挖掘。數據挖掘是一門交叉學科,涉及到機器學習、統計學、人工智能、模式識別、數據庫、信息檢索、信息可視化和專家系統等多個領域。
 
2數據挖掘原理
2.1數據挖掘技術

數據挖掘任務主要有很多種,常見的有監督學習(或稱為分類學習)、無監督學習(或稱為聚類分析)、關聯規則挖掘、預測、時序挖掘和偏差分析等等。
1.分類學習:分類就是找出一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練數據集通過一定的算法模型而求得分類規則。分類可被用于規則描述和預測。目前比較常見的分類算法有K最近鄰居算法(K Nearest Neighbor Algorithm)、決策樹算法、貝葉斯分類和支持向量機算法(Support Vector Machine)等等。
2.聚類分析:聚類就是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。聚類分析可以建立宏觀的概念,發現數據的分布模式,以及可能的數據屬性之間的相互關系。目前常見的聚類算法有基于劃分的算法、基于層次的算法、基于密度算法和基于網格的算法等等。
3.關聯規則關聯規則挖掘是描述兩個或兩個以上變量的取值之間存在某種規律性,就稱為關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分為簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。一般用支持度和可信度兩個閾值來度量關聯規則的相關性,還不斷引入興趣度、相關性等參數,使得所挖掘的規則更符合需求。
4.預測:預測是利用歷史數據找出變化規律,建立模型,并由此模型對未來數據的種類及特征進行預測。預測關心的是精度和不確定性,通常采用預測方差來度量。預測的主要方法有統計學中的回歸分析等等。
5.時序模式:時序模式是指通過時間序列搜索出的重復發生概率較高的模式。與回歸一樣,它也是用已知的數據預測未來的值,但這些數據的區別是變量所處時間的不同。
6.偏差分析:在偏差中包括很多有用的知識,數據庫中的數據存在很多異常情況,發現數據庫中數據存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。
2.2數據挖掘過程

數據挖掘方法在數據挖掘過程起著很重要的作用。但是,作為一個數據挖掘應用來說,數據挖掘僅僅是整個過程中的一個環節。數據挖掘項目的成功需要花費相當的心血,依照規范的流程進行操作。一般來說,數據挖掘需要經歷以下過程:確定挖掘對象、收集數據、數據預處理、數據挖掘和信息解釋。在整個數據挖掘過程中,信息可視化技術扮演著很重要的角色。下面詳細介紹各個數據挖掘的步驟。數據挖掘步驟圖:


1.確定挖掘對象:定義清晰的挖掘對象,認清數據挖掘的目標是數據挖掘的第一步。數據挖掘的最后結果往往是不可預測的,但是要解決的問題應該是有預見性的、有目標的。在數據挖掘的第一步中,有時還需要用戶提供一些先驗知識。這些先驗知識可能是用戶的業務領域知識或是以前數據挖掘所得到的初步成果。這就意味著數據挖掘是一個過程,在挖掘過程中可能會提出新的問題;可能會嘗試用其他的方法來檢驗數據,在數據的子集上展開研究。
2.數據收集:數據是挖掘知識最原始的資料?!袄M,垃圾出”,只有從正確的數據中才能挖掘到有用的知識。為特定問題選擇數據需要領域專家參加。因此,領域問題的數據收集好之后,和目標信息相關的屬性也可以確定。
3.數據預處理:數據選擇好以后,就需要對數據進行預處理。數據預處理包括:去除錯誤數據和數據轉換。錯誤數據,在統計學中稱為異常值,應該在此階段發現并且刪除。否則,它們將導致產生錯誤的挖掘結果。同時,需要將數據轉換成合適的形式。例如,在某些情況下,將數據轉換成向量形式。另外,為了尋找更多重要的特征和減少數據挖掘步驟的負擔,我們可以將數據從一個高維空間轉換到一個低維空間。
4.數據挖掘數據挖掘步驟主要是根據數據建立模型。我們可以在這個步驟使用各種數據挖掘算法和技術。然而,對于特定的任務,需要選擇正確合適的算法,來解決相應的問題。
5.信息解釋:首先,通過數據挖掘技術發現的知識需要專家對其進行解釋,幫助解決實際問題。然后,根據可用性、正確性、可理解性等評價指標對解釋的結果進行評估。只有經過這一步驟的過濾,數據挖掘的結果才能夠被應用于實踐。
6.可視化:可視化技術主要用來通過圖形化的方式顯示數據和數據挖掘的結果,從而幫助用戶更好的發現隱藏在數據之后的知識。它可以被應用在數據挖掘的整個過程,包括數據預處理、數據挖掘和信息解釋。數據和信息的可視化顯示對用戶來說非常重要,因為它能夠增強可理解性和可用性。
3數據挖掘應用
3.1數據挖掘工具
目前國際上廣泛應用的數據挖掘工具有很多,如SAS公司的Enterprise Miner,SPSS公司的Clementine,Waikato大學開發的Weka平臺,SQL Sever的數據挖掘模塊,IBM公司的DB Miner等。本文應用了SAS Enterprise Miner模塊進行了數據挖掘的相應研究。
SAS(STATISTICAL ANALYSIS SYSTEM)是由美國NORTH CAROLINA州立大學1966年開發的統計分析軟件。SAS(Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統。它由數十個專用模塊構成,功能包括數據訪問、數據儲存及管理、應用開發、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等等。SAS系統基本上可以分為四大部分:SAS數據庫部分;SAS分析核心;SAS開發呈現工具;SAS對分布處理模式的支持極其數據倉庫設計。SAS系統主要完成以數據為中心的四大任務:數據訪問、數據管理、數據呈現、
數據分析。SAS持續良好的統計分析功能,得到了業界廣泛好評,這為它在國際專業統計分析軟件領域獲得頭把交椅奠定了基礎。
3.2數據挖掘應用場景
目前,數據挖掘在很多領域得到了廣泛的應用。以客戶為導向的應用有市場購物籃分析、獲取客戶、客戶細分、客戶保持、交叉銷售、向上銷售、客戶終身價值分析等等;以運營為導向的應用有盈利分析、定價、欺詐發現、風險評估、客戶流失分析、生產效率分析等等。除此之外,數據挖掘還在生物信息學、互聯網、金融、電力等等企業有著各種各樣的應用。 在未來的發展中,數據挖掘將被用于更多的領域。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢