熱線電話:13121318867

登錄
首頁精彩閱讀SAS數據挖掘實戰篇【二】
SAS數據挖掘實戰篇【二】
2016-04-08
收藏

SAS數據挖掘實戰篇【二】

SAS數據挖掘實戰篇【一】介紹完目前的數據挖掘基本概念之外,對整個數據挖掘的概念和應用有初步的認識和宏觀的把握之后,我們來了解一下SAS數據挖掘實戰篇【二】SAS工具的應用。首先來看一下SAS大概的一個軟件界面。(這里面實際操作性較強,建議都打開軟件,step by step自己操作一遍,印象深刻)操作流程如下:
 
1 認識 SAS Enterprise Miner
1啟動SAS EM
方式1:首先打開SAS,然后在SAS命令欄輸入miner,回車即可;
 
方式2:啟動SAS,點擊Solutions菜單下面的Analysis菜單下面的Enterprise Miner,即可啟動SAS EM。


2建立工程和流程圖
EM通過工程和流程圖組織數據分析。每個工程可能有多個處理流程圖,每個流程圖可能包含多個數據分析。一般而言,每個流程圖包括一個數據集的分析。
創建工程步驟:
1) 從SAS菜單創建工程


2) 為該工程輸入工程名


3) 如果需要訪問服務器,選擇Client/Server選項,否則就不需要選擇該項


4) 設置工程路徑


5) 點擊創建按鈕,默認情況下生成一個流程圖。


6) 選擇流程圖標題,輸入流程圖標題


3識別窗口組件


 
 
2 SAS EM挖掘過程
SEMMA概述
SAS公司將數據挖掘的核心過程分為抽樣Sample、探索Explore、修整Modify、建模Model以及評估Assess幾個階段。
①抽樣
從數據集中抽取有代表性的樣本,樣本應該大到不丟失重要的信息,小到能夠便于操作。創建三個數據子集:(1)訓練數據,用于擬合各種模型;(2)驗證數據,用于評估各模型并進行模型選擇避免過度擬合;(3)測試數據,用于對模型的普適性形成真實的評價。
 
②探索
使用可視化的方法或主成分分析、因子分析、聚類等統計方法對數據集進行探索分析,發現未曾預料的趨勢和異常情況,對數據形成初步理解,尋求進一步分析的思路。
 
③修整
包括生成和轉換變量,發現異常值,變量選擇等。
 
④模型
針對數據集選擇適當的模型進行建模。
 
⑤評估
評估模型的實用性、可靠性和效果。
 
3 SAS EM結點介紹
主要針對下面的幾個圖標進行介紹:


 
----------------------------------------------------------------------------
①抽樣

輸入數據源節點主要用于讀取數據和定義數據的屬性。
抽樣節點主要通過隨機抽樣、層次抽樣和聚類抽樣三種技術對數據集進行抽樣。對于非常大的數據庫,抽樣非常重要,這樣處理可以減少模型的訓練時間。
數據劃分節點主要用于將數據集劃分為訓練集、測試集以及驗證集。訓練集主要用于模型的訓練。驗證集主要用來調整估計階段的模型和模型評估階段。測試數據集是一種另外的數據集,主要用于模型評估。該節點使用簡單隨機抽樣、層次抽樣或者用戶自定義的劃分來創建劃分數據集。
-------------------------------------------------------------------------------------------------------------------
②探索


分布探索節點用于探索大量數據,并且通過可視化的方式對數據進行展示,譬如多維直方圖等等。
多圖節點也是一種可視化的方式顯示大量數據。與觀察節點和分布探索節點不一樣的是,該節點能夠自動創建柱狀圖散點圖。
觀察節點可以打開SAS/INSIGHT會話。它是一種數據探索和分析的交互式工具。
關聯規則節點主要用來識別數據之間的關聯關系。
變量選擇節點主要用于評估預測或者分類目標變量中輸入變量的重要性。為了選擇重要的輸入,該節點使用R平方標準或者卡方標準選擇變量。
鏈接分析節點用于發現復雜系統中鏈接之間的效果,從而發現活動的模式得到有用的結論。
 
-------------------------------------------------------------------------------------------------------------------
③調整

數據集屬性節點可以用來修改數據集屬性,譬如數據集名稱,描述和角色。同時,還可以修改樣本數據集的元數據以及定義目標變量的資料。
轉換變量節點用于轉換變量,譬如計算自然對數,最大化和目標的相關性或者規范化變量。
過濾異常節點使用過濾器排除訓練數據集中的某些觀測值,譬如異常點或者其他觀測值,即不包含在數據挖掘分析中的數據集。但是,該節點不能過濾驗證數據集、測試數據集以及打分數據集中的異常點。
替換節點用于對有缺失值的觀測值進行插值。對于區間變量,可以采用平均值、中值、中間區間、基于分布的替換等等來替換缺失值。另外,還可以使用基于決策樹的方法插值。對于類別變量來說,可以使用最頻繁發生的事件的值替換缺失值,基于分布的替換,基于決策樹的插值或者常量也可以用來處理類別變量的缺失值。
聚類節點主要用于對數據的劃分,識別具有相似性的觀測值。相似的觀測值在相同的聚類中,不同的觀測值在不同的聚類中。
SOM節點產生自組織映射,Kohonen網絡以及向量數量化網絡。尤其是,該節點執行非監督學習,理解數據的結構。與聚類節點類似,在網絡映射創建好以后,數據的特性可以通過圖形化的方式來瀏覽。
時間序列節點主要用于預測趨勢和季節性因素的影響。時間序列數據時給予時間間隔的。

-------------------------------------------------------------------------------------------------------------------
模型

回歸模型節點用于擬合線性和邏輯回歸模型,可以使用連續變量、順序變量和二值目標變量,同時可以使用連續變量和離散變量作為輸入。該節點支持前向、后向和雙向的選擇方法。
樹節點在名義變量、順序變量和連續變量的基礎上對數據庫執行多路劃分。該節點同時支持自動化和交互性訓練。當在自動模式下運行樹節點時,它能夠在變量對樹模型貢獻的基礎之上自動對輸入變量進行排序。這種排序可能被用來作為接下步驟選擇變量的方法。另外,它所產生的啞變量也可用在接下來的建模過程中。交互式訓練可以用來探索和評價比較大和復雜的樹。
神經網絡節點用于構建、訓練和驗證多層前向神經網路。一般來說,每個輸入是完全和第一個隱藏層連接,每個隱藏層和接下來的隱藏層完全相連,最后的隱藏層和輸出是完全連接的。該節點還支持一般形式的多種變種形式。
主成分分析節點用于擬合非線性模型。并且,該節點也可以執行主成分分析,將打分的主成分傳遞給后面的節點。在訓練神經網絡時,目標變量必須是二值或者區間變量,但在進行主成分分析時不需要目標變量。
用戶自定義模型用于產生使用模型中SAS代碼節點生成的預測值或者變量選擇節點的評估統計信息。預測值可以保存在sas數據集中,然后將其導入到流程的數據輸入節點中。
集成節點用來組合模型,它比單個模型更加穩定。當獨立的模型相關性越低時,組合模型更加有效。該節點創建三種組合方式:
組合模型:例如組合決策樹模型和神經網絡模型。組合函數是預測值的平均值。
層次模型:在一個或者多個變量上面執行分組處理。在這種情況下,由于數據集中每行是通過獨立的模型進行打分,并且依賴于一個或者多個變量,因此該模型沒有組合函數。
袋和步進模型:袋和步進模型是通過重抽樣訓練數據集,為每個樣本擬合獨立的模型。對預測值(區間目標變量)或者先驗值(分類變量)進行平均產生集成模型。袋模型使用隨機抽樣代替創建n個樣本。每個觀測值的權重是相等的。步進模型對每個訓練觀測值進行自適應重置權重。對于先前經常誤分類的模型,重抽樣的權重是逐漸增加的。因此,觀測值權重的分布是建立在模型先前抽樣的性能的基礎之上。步進模型需要一個類型目標變量。
基于內存的推理節點是根據案例集尋找出和新的觀測值相似的案例集。在SAS EM中,基于內存的推理模型節點使用K最近鄰居算法分類或者預測觀測值。
雙階段模型節點用于計算預測分類目標和區間目標的雙階段模型。區間目標變量經常和類別目標的某個級別相關聯。

-------------------------------------------------------------------------------------------------------------------
⑤評估

評估節點為模型比較提供共同的框架。模型比較是建立在期望和實際利潤或者損失的基礎之上。它提供幾種圖表幫助描述模型的有效性,譬如提升圖和利潤/損失圖表。
報表節點將整個流程分析的結果導入到HTML報表中,可以通過網頁瀏覽器來查看。每個報表包括表頭信息,處理流程圖片以及每個節點的單獨報告。

-------------------------------------------------------------------------------------------------------------------
其他類型節點:打分節點

打分節點是從訓練模型中產生和管理預測值。打分公式主要用來評估和預測。SAS EM以sas數據步代碼的形式產生和管理打分公式。
C打分節點將SAS數據步的代碼轉換成c語言的形式。
 
其他類型節點:實用節點


分組處理節點針對分類變量執行分組處理。并且,也可以用來分析多目標,對同樣的數據源進行重復處理。
數據挖掘數據庫節點為批處理創建數據挖掘數據庫。
SAS 代碼節點用來添加新的或者已經存在的sas代碼到處理流程圖中。SAS code節點能夠將其他的sas過程加入到數據挖掘分析過程中。并且,也可以用SAS數據步創建自定義的評分代碼,從而有條件地進行數據連接和合并操作。該節點還提供宏功能,動態的關聯到訓練數據集、驗證數據集和測試數據集中的變量。運行完SAS code節點之后,結果集合數據集可以被導出用于后面的節點。
控制點節點用于減少節點連接的步驟。例如,假設三個輸入數據源節點和三個建模節點連接。如果沒有使用控制點節點,需要9個鏈接完成。然而,如果使用控制點節點,只需要6次連接操作。
子圖節點將整個流程圖劃分為不同的分組。對于復雜的處理流程圖,需要創建子圖來更好的設計和控制流程。
結點使用的一般規則
在過程流程圖中放置結點的一般規則:
a)不能將任何結點放在輸入數據源結點之前。
b)在抽樣結點前面必須有用于導出數據集的結點。
c)評估結點之前必須有一個或者多個模型結點。
d)評分結點和評分轉換結點之前必須有用于產生打分的結點。任何修改數據結點和創建模型結點都會產生打分結點。
e)SAS源代碼結點可以定義在流程圖的任何步驟。它不需要由輸入數據源結點定義的數據集。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢