熱線電話:13121318867

登錄
首頁精彩閱讀SAS fastclus語句?_數據分析師
SAS fastclus語句?_數據分析師
2014-12-05
收藏

SAS fastclus語句_數據分析師


一、快速聚類適用于大數據樣本
1. 常用語法格式:
PROC FASTCLUS MAXCLUSTERS=n | RADIUS=t ;
VAR variables ;
ID variables ;
必須至少定義maxclusters=或radius=中的一個。
2. 常用選項及語句說明:
data= 指定聚類過程的輸入數據集,該數據集必須是觀測樣本(坐標數據)。
maxclusters=k 指定所允許的最大分類個數(最大凝聚點個數),缺省時假定為100。
radius=r 指定選取新凝聚點的最小距離準則,缺省是假定為0。
初始凝聚點系統順序選取時,總是將第一個完整的觀測選取為第一個凝聚點,再順序選取需滿足下面2個條件的完整觀測為接下來的凝聚點:
1.凝聚點的個數未達到“maxclusters=”指定值;
2.與所有已有凝聚點間的距離均大于“radius=”指定值
直到不滿足條件是為止。
       replace=full|part|none|random 控制初始凝聚點選取的替換檢驗。
上述初始凝聚點系統順序選取中:
若滿足條件1而不滿足條件2時,停止凝聚點的選取。
若滿足條件2而不滿足條件1時,對已選凝聚點進行替換檢驗。2種方式:
替換檢驗1:若當前觀測(記obs)與自身最近的已選凝聚點之間的距離d大于已選凝聚點間相互的最小距離d_min(d_i,d_j)時,用當前觀測替換已選凝聚點間距離最近的兩個凝聚點中的一個,使得替換后當前觀測與另一個凝聚點距離最遠。
替換檢驗2:在不滿足替換檢驗1的情況下,若obs到除最近凝聚點外的所有其他凝聚點的最小距離大于最近凝聚點到所有其他凝聚點的最小距離,則用obs替換與之距離最近的凝聚點。
 
“full”為缺省值,指定兩種檢驗都進行;“part”指定進行第一種檢驗;“none”指定不進行檢驗
replace= random 指定初始凝聚點為系統隨機選取。
常與選項random=n一起使用,n為正整數,為生成偽隨機數提供種子值,缺省時由計算機時間提供。
seed= 指定一個數據集,在其中選取初始凝聚點,即為指定初始凝聚點法。
沒有此選項時,將從“data=”指定的數據集中選取k個觀測作為k類得初始凝聚點。
drift 指定逐個初始分類,并要求執行逐個修改法,缺省時執行按批修改法。
按批修改法準則是使所有的樣品點與其凝聚點距離最近,等全部藥品調整完畢后才改變類得凝聚點。逐個修改法是每個樣品一旦調整后立即改變凝聚點,其又稱為“K-means”,即K均值聚類。
maxiter= 指定修改法的最大迭代次數,缺省時為1,即樣本初始分類。
converge=c 指定聚類迭代收斂的判別準則,當凝聚點改變的最大距離小于或等于初始凝聚點間的最小距離乘以c時,認為該聚類過程收斂,迭代結束,缺省時c為0.02。
out= 指定過程輸出的數據集。
本文來源:CDA數據分析師培訓官網

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢