
SAS編程PROC步——描述性統計量分析_數據分析師培訓
描述性統計指標的計算可以用四個不同的過程來實現,它們分別是means過程、summary過程、univariate過程以及tabulate過程。它們在功能范圍和具體的操作方法上存在一定的差別,下面我們大概了解一下它們的異同點。
相同點:他們均可計算出均數、標準差、方差、標準誤、總和、加權值的總和、最大值、最小值、全距、校正的和未校正的離差平方和、變異系數、樣本分布位置的t檢驗統計量、遺漏數據和有效數據個數等,均可應用by語句將樣本分割為若干個更小的樣本,以便分別進行分析。
不同點:
(1)means過程、summary過程、univariate過程可以計算樣本的偏度(skewness)和峰度(kurtosis),而tabulate過程不計算這些統計量;
(2)univariate過程可以計算出樣本的眾數(mode),其它三個過程不計算眾數;
(3)summary過程執行后不會自動給出分析的結果,須引用output語句和print過程來顯示分析結果,而其它三個過程則會自動顯示分析的結果;
(4)univariate過程具有統計制圖的功能,其它三個過程則沒有;
(5)tabulate過程不產生輸出資料文件(存儲各種輸出數據的文件),其它三個均產生輸出資料文件。
統計制圖的過程均可以實現對樣本分布特征的圖形表示,一般情況下可以使用的有chart過程、plot過程、gchart過程和gplot過程。大家有沒有發現前兩個和后兩個只有一個字母‘g’(代表graph)的差別,其實它們之間(只差一個字母g的過程之間)的統計描述功能是相同的,區別僅在于繪制出的圖形的復雜和美觀程度。
chart過程和plot過程繪制的圖形類似于我們用文本字符堆積起來的圖形,只能概括地反映出資料分布的大體形狀,實際上這兩個過程繪制的圖形并不能稱之為圖形,因為他根本就沒有涉及一般意義上圖形的任何一種元素(如顏色、分辨率等)。而gchart過程和gplot過程給出的是真正意義上的圖形,可以用很多的語句和選項來控制圖形的各方面的性質和特征。
chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪制出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,后兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪制圖形,如散點圖和線圖等。
描述性統計過程的一般格式
1. means過程的一般格式
proc means 選項列表; |
by 變量名稱(分組變量); |
class 變量名稱(分組變量); |
freq變量名稱(數值變量,用以表示相應記錄出現的頻數) |
weight變量名稱(數值變量,用以表示相應記錄的權重系數) |
var 變量名稱(待分析的數值變量); |
run; |
Proc means 語句后的選項主要用來指定所要計算的統計量,默認情況下,Means過程會給出頻數、均數、標準差、最大值和最小值等,其余統計量的計算均需要在選項中指定。class語句所指定的分組變量用來進行分組,而by語句所指定的分組變量是用來將數據分為若干個更小的樣本,以便SAS分別在各小樣本內進行各自獨立的處理。freq語句和weight語句分別引導代表記錄出現頻數和權重系數的數值變量。var語句引導所要進行分析的所有變量的列表,SAS將對var語句所引導的所有變量分別進行描述性統計分析。
2. summary過程的一般格式
proc summary 選項列表; |
by 變量名稱(分組變量); |
class 變量名稱(分組變量); |
freq變量名稱(數值變量,用以表示相應記錄出現的頻數) |
weight變量名稱(數值變量,用以表示相應記錄的權重系數) |
output |
var 變量名稱(待分析的數值變量); |
run; |
summary過程的格式和means過程可以說是完全相同的,各條語句和選項的含義也是相同的,包括在means過程中未列出的output語句也可以應用于means過程,只是此語句在summary過程應用較多(這樣才能將分析結果顯示出來),所以才將其列入一般格式中。output語句用來對分析結果輸出為數據文件進行控制,其后的選項可有可無,若無則SAS按照默認方式進行?!皁ut=數據集名”用來定義輸出數據文件的文件名稱,文件名的格式和數據步中數據文件名相同?!敖y計量關鍵字=自定義變量名”用來自定義輸出數據文件中各種統計量的變量名稱,前者是系統定義的(和proc語句后選項中的統計量關鍵字完全相同),必須正確無誤,后者可自行定義。默認狀態下輸出統計量只有頻數、均數、標準差、最大值和最小值,在默認狀態不能滿足需要時這一選項則是必需的。
3. univariate過程的一般格式
proc univariate 選項列表; |
by 變量名稱(分組變量); |
class 變量名稱(分組變量); |
freq變量名稱(數值變量,用以表示相應記錄出現的頻數) |
weight變量名稱(數值變量,用以表示相應記錄的權重系數) |
histogram 變量名稱/選項列表 |
output pctlpts=<百分位數…> <指定需要的百分位數> pctlpre=<新變量名列> <指定所需百分位數對應的輸出變量名> |
var 變量名稱(待分析的數值變量); |
run; |
univariate過程和以上兩個過程的格式非常相似,相同的語句和選項其含義也相同,所不同的是某些統計量只能在univariate過程中計算(如眾數),以及univariate過程中所具有的繪圖功能。histogram語句即用來指示SAS對其后所指定的變量繪制直方圖,其后的選項用來指示SAS添加不同類型的擬合圖形(如正態分布的分布密度曲線)。
4. tabulate過程的一般格式
proc tabulate 選項列表; |
by 變量名稱(分組變量); |
class 變量名稱(分組變量); |
freq變量名稱(數值變量,用以表示相應記錄出現的頻數) |
weight變量名稱(數值變量,用以表示相應記錄的權重系數) |
table <<頁變量表達式>,<行變量表達式>,<列變量表達式>> |
var 變量名稱(待分析的數值變量,統計量列入相應的表單元格); |
run; |
tabulate過程和上述幾個過程的格式也基本相似,相同的語句和選項也代表相同的含義。最大的不同也是tabulate過程中最為重要的是table語句,他用來定義表格的具體格式以及表格中所要包括的統計量。
5. gchart過程的一般格式
proc gchart 選項列表; |
||||||||||||||||||||
圖形關鍵詞變量名稱/選項列表 |
||||||||||||||||||||
run;
|
此過程格式簡單,復雜的地方在于圖形關鍵字(每個圖形關鍵字對應一種圖形類型)所引導的語句,這里是控制圖形類型及圖形要素的地方,涉及到眾多的關鍵字和選項。gchart過程可以使用的圖形關鍵字及其所繪制的圖形類型見下表(表2.1)。
表2.1gchart過程可以使用的圖形關鍵字及其所繪制的圖形類型
圖形關鍵字后的變量名用以指定進行圖形描述時的分組變量,可以是數值型的(此時以各組的組中值為分組的標志),也可以是字符型的。其后的選項比較重要的有:(1)type=統計量關鍵字,表示以圖形對變量(sumvar所指定的變量)的哪一種統計量進行描述,比如頻數(freq)、均數(mean)、總計(sum)、頻數百分比(pctn)等;(2)subgroup=變量名(分組變量),指定要進行分組(各組段內再分組)的變量;(3)sumvar=變量名(數值變量),指定要進行統計計算的變量,也就是“type=統計量關鍵字”選項中統計量的計算所依據的變量。其它的選項較少用到或系統默認值即可基本滿足要求,這里還是少羅嗦,以后用到再說。
6. gplot過程的一般格式
proc gplot 選項列表; |
bubble 散點圖表達式 |
bubble2 散點圖表達式 |
plot散點圖表達式 |
plot2散點圖表達式 |
run; |
從gplot過程的一般格式中我們就可看出,此過程只能繪制兩種類型的圖形,bubble語句指示SAS繪制泡狀散點圖,plot語句指示SAS繪制點狀散點圖。bubble2語句和plot2語句指示SAS在同一區域內(bubble2和bubble在同一區域,plot2和plot在同一區域)繪制第二個圖形,兩者的橫坐標相同(同一變量),縱坐標分別位于左右兩側(可以是同一變量,也可以是兩個不同的變量)。
7. 散點圖表達式的一般形式為:
?。?)bubble和bubble2語句:縱坐標變量名*橫坐標變量名=泡尺寸變量名(變量值以泡的大小表示),三者均應為數值變量;
?。?)plot和plot2語句:縱坐標變量名*橫坐標變量名<=n/分類變量名>,此處等號及其后的部分可以省略,此時SAS以默認的散點類型繪制散點圖;若等號后為n(n為正整數,是散點類型的編號),SAS則以指定的編號對應的散點類型繪制散點圖;若等號后為分類變量名(可為字符型或數值型,為數值型時作為離散型變量處理,每一個值將被當作一個類別),此變量的具體值(或與每個具體值對應的圖形)將被作為散點用來繪制散點圖。
chart過程和plot過程的一般格式及各選項使用方法分別與gchart過程和gplot過程是基本相同的,不同之處僅在于后兩者中涉及到有關三維和圖形元素(顏色等)的語句和選項在前兩者中是無效的。例如vbar3d語句在chart過程中無效,bubble語句在plot過程中無效。其余的語句和選項使用方法完全相同,所以在掌握了gchart過程和gplot過程后,chart過程和plot過程你會不學自通。
描述性統計關鍵字及其含義
SAS中可計算的描述性統計量多達二十余種,大部分可在以上介紹的前四個過程中計算,個別統計量在某些過程中不能計算,大家需要注意,要不然系統顯示錯誤信息時還不知道是怎么回事。
我經常遇到這種情況,系統提示錯誤(此類提示信息顯示在log窗口中)時總是摸不著頭腦,費半天勁才能搞明白。沒辦法,摸著石頭過河嘛!不過這樣也并非一無是處,最起碼可以積累很多使用經驗。
下表(表2.2)列出SAS中可以計算的所有描述性統計量關鍵字及其含義,供大家使用時參考。
表2.2SAS中可以計算的描述性統計量關鍵字及其含義
關鍵字 |
所代表的含義 |
n |
有效數據記錄數 |
nmiss |
缺失數據記錄數 |
mean |
均數 |
std |
|
stderr |
標準誤 |
var |
|
median |
中位數 |
mode |
眾數 |
cv |
變異系數 |
max |
最大值 |
min |
最小值 |
range |
全距 |
sum |
總計 |
sumwgt |
加權值總計 |
css |
校正的離均差平方和 |
uss |
未校正的離均差平方和 |
clm |
可信限(上下界值) |
lclm |
可信限下側界值 |
uclm |
可信限上側界值 |
skew(skewness) |
偏度 |
kurt(kurtosis) |
峰度 |
t |
分布位置假設檢驗之t統計量 |
probt |
上述t統計量對應的概率值 |
q1 |
第一四分位數 |
q3 |
第三四分位數 |
qrange |
四分位數間距 |
p1 |
第一百分位數 |
p5 |
第五百分位數 |
p10 |
第十百分位數 |
p90 |
第九十百分位數 |
p95 |
第九十五百分位數 |
p99 |
第九十九百分位數 |
推薦學習書籍
《CDA一級教材》適合CDA一級考生備考,也適合業務及數據分析崗位的從業者提升自我。完整電子版已上線CDA網校,累計已有10萬+在讀~
免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25