SAS 常用過程之 PROC UNIVARIATE-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀SAS 常用過程之 PROC UNIVARIATE

SAS 常用過程之 PROC UNIVARIATE

2016-02-03

SAS 常用過程之 PROC UNIVARIATE

PROC UNIVARIATE 含七道指令它們的格式如下（每道指令結束后才用逗號分開）：

PROC UNIVARIATE 選項串;

VAR 變量名稱串;

BY 變量名稱串;

FREQ 變量名稱;

WEIGHT 變量名稱;

ID 變量名稱串;

OUTPUT OUT=統計值輸出文件名稱統計值關鍵字符串=統計值變量；

備注：在一個 UNIVARIATE 程序中，可以多次使用 OUTPUT 指令但其他六道指令只能出現一次，此外PROC UNIVARIATE 指令后的六道指令可以按任何順序出現。

指令 #1： PROC UNIVARIATE 語句的選項串有下列七個選項可供選擇：

常用選項：

(1) DATA=輸入資料文件名稱

指明到底對那一個資料文件進行分析，若省略此選項則 SAS 會自動找出在本程序之前最后形成的資料文件并對它進行分析。

(2) NOPRINT

使用此選項分析結果將不在result里輸出。

(3) PLOT

使用此選項UNIVARIATE 過程將產生三種圖形：莖葉圖 (Stem-And-Leaf Plot) 、平行條狀圖 (Horizontal Bar Chart)、盒狀圖 (Box Plot)、正態分布擬合圖 (Normal Probability Plot)(參閱 Tukey 1977)。

(4) FREQ

使用此選項 UNIVARIATE 過程將對變量各個取值的頻數及百分比進行分析

(5) NORMAL

此選項可用來要求 UNIVARIATE 過程檢定分析的變量是否呈現正態分布并且輸出其檢驗結果。

不常用選項：

(6) PCDLDEF={1/2/3/4/5}此選項是用來決定計算百分位數 (Percentiles)的方法

PCDLDEF=1 表示用第一種計算方法以此類推 ,若省略此選項則UNIVARIATE程序會自動采用用第四種計算方法。

(7) VARDEF={N/DF/WEIGHT (或 WGT) / WDF} 此選項決定計算變異數所用的分母

N 觀察體總數

DF 觀察體總數減去 1 這是本選項的內設值

WEIGHT (或 WGT) 加權后的觀察體總數

WDF 上述 WEIGHT 值減去 1

指令 #2 VAR 變量名稱串

此指令列舉需要進行描述性統計分析的數值變量名稱,若省略將對輸入資料文件中所有數值變量進行分析,若選用 OUTPUT 指令

則不可省略 VAR 指令

指令 #3 BY 變量名稱串

程序依據此指令所列舉的變量將觀測進行分組，然后對每組觀測分別執行分析，選用此指令時資料文件內的數據必須先按照 BY 變量的值做由小到大的重新排列，這個步驟可由 PROC SORT 過程完成。

指令 #4 FREQ 變量名稱

這個變量必須是一個數值變量，其值代表觀察測重復出現的次數，若此變量的值含小數則取其整數部分若其值小于 1 則此觀測將被剔除在計算過程之外。

指令 #5 WEIGHT 變量名稱

這個變量稱為加權變量，用以說明所要分析的變量的權重是多大，其主要功用在于計算加權平均數、加權標準差、及加權變異數。

注意：若選用了 WEIGHT 指令則 UNIVARIATE 程序將不計算偏度與峰度這兩個統計值，這兩個統計值將以缺失（.）表示，此外WEIGHT 指令對四分位數極端分數及觀察體總數的計算并不發生任何作用（freq選項會對其有影響）。

指令 #6 ID 變量名稱串

用來標示輸出的變量。

指令 #7 OUTPUT OUT=統計值輸出文件名稱統計值關鍵字符串=關鍵值變量

保存計算的N mean std等關鍵統計量

(1) OUT=統計值輸出文件名稱

存儲要輸出的關鍵統計的表名，省略此選項則 SAS 將以內設的命名方式自動給予 DATAn 的文件名 (如 DATA1 DATA2…) n 按輸出文件產生的先后順序由 1 逐次累加而成

(2) 統計值關鍵字符串

這些關鍵字代表要輸出的統計值，首先說明要保存哪些統計值，然后對要存儲的統計值給予變量名。

UNIVARIATE 程序內有二十六個統計值：

統計值及對應含義
N 非缺失值個數
NMISS 缺失值個數
NOBS 觀察體總數
MEAN 平均數
SUM 變量值的總和
STD 標準差
VAR 變異系數（標準誤）
SKEWNESS 偏度
KURTOSIS 峰度
SUMWT 所有觀察體在 WEIGHT 變量上的總和
MAX 變量的最大值
MIN 變量的最小值
RANGE 最大值減去最小值所得的差
Q3 第三個四分位數
MEDIAN 中位數 (第 50 的百分位數)
Q1 第一個四分位數
QRANGE Q3 減去 Q1 之差
P1 第 1 的百分位數
P5 第 5 的百分位數
P10 第 10 的百分位數
P90 第 90 的百分位數
P95 第 95 的百分位數
P99 第 99 的百分位數
MODE 眾數如果有不只一個眾數取最小值的那一個
SIGNRANK 等級符號檢定法 (The Signed Rank Statistic Lehmann 1975)
NORMAL 常態分配的檢定 (Test Statistic for Normality)若觀察體個數少于 51 則采用Shapiro-Wilk 的 W Statistic 的方法檢定否則采用用 Kolomogorov

備注：這些關鍵字的表達方式是統計值關鍵字 = 變量名

些代表統計值的變量名稱必須根據 VAR 指令內所列舉的變量順序對應地一一列舉未列舉者不予輸出請看下面這個例子

PROC UNIVARIATE;

VAR X Y;

BY SEX;

OUTPUT OUT=MSD MEAN=MX MY STD=SDX;

假如分組變量 SEX 的值是 1 或 2 則 UNIVARIATE 程序所產生的報表輸出文件將是兩個 SEX 組在變量 X 與 Y 上的描述性統計值，OUTPUT 指令的界定這個輸出數據集WORK.MSD (暫時的文件)， MSD數據集包括四個變量即SEXMX MY 及 SDX，其中 SEX 是分組變量、MX 與 MY 分別是變量 X 與 Y 的平均數、DX 是變量 X 的標準差，由于關鍵字 STD 后只界定一個變量名稱 (SDX) 故此變

量自動指 VAR 指令內所列舉的第一個變量，變量 Y 的標準差因未界定其相對應的變量名稱因此不輸出。

注意事項：

1.缺失數據的處理，處理的方法依遺漏數據的性質而異

(1) VAR 指令中的變量

若觀察體在 VAR 指令之某個變量上含遺漏數據則該觀察體將被排除在這個變量的計算過程之外，然而若在其他變量上無遺漏數據仍會被納入其他 VAR 變量的計算過程內，這些含遺漏數據的觀察體個數及它們占總觀察體數的百分比將被納入報表輸出文件

(2) WEIGHT 指令中的變量

若在 WEIGHT 的加權變量上含遺漏數據則觀察體的加權變量值就是 0 這些觀察體仍然而會被納入百分位數的計算以及極端分數的挑選

(3) FREQ 指令中的變量

若在 FREQ 指令的次數變量上含遺漏數據則觀察體將被剔除在所有計算過程之外

(4) BY 指令中的變量

若在BY 的分組變量上含遺漏數據則這些觀察體在分析的過程中自成一個分組

(5) ID 指令中的變量cda數據分析師培訓