熱線電話:13121318867

登錄
首頁大數據時代SPSS廣義線性模型GLM案例
SPSS廣義線性模型GLM案例
2020-09-28
收藏

為了找出color、rarity、flower number、type of species對price的影響,由此,price為因變量,color、rarity、flower number、type 為自變量。

研究自變量對因變量的影響,可以選用的方法有兩種,一種是傳統的線性回歸模型OLS,另一種是廣義線性模型GLM(Generalized Linear Model)。傳統模型(OLS)要求因變量服從正態分布,廣義線性模型(GLM)則適用的范圍更廣,不要求因變量一定服從正態分布,并且方差也可以不穩定。

 第一步:考察因變量price的分布類型。

基于以上的分析,為了判斷應該適用OLS還是使用GLM。需要先對因變量price的分布狀況進行分析。首先,檢驗因變量price是否服從正態分布,檢驗的結果如下:

 Table 1 Tests of Normality

 Kolmogorov-Smirnova

 Shapiro-Wilk

 Statistic

 df

 Sig.

 Statistic

 df

 Sig.

 Price

 .149

 156

 .000

 .818

 156

 .000

 a. Lilliefors Significance Correction

上表是正態性檢驗的結果,K-S檢驗和S-W檢驗的SIG.全部小于0.05.由此可以知道,因變量price不服從正態分布。因此,研究color、rarity、flower number、type of species對price的影響不能選用傳統線性模型(OLS)分析,必須選用GLM模型。

通過price不服從正態分布這一結論,得出必須選用GLM模型之后,還需要進一步找出因變量price到底服從哪種分布。經過嘗試,得出因變量price服從Gamma分布。

 第二步:GLM分析

 確定選用GLM模型和因變量price是服從Gamma分布的,進行GLM分析,結果如下:

 Table 2

 Case Processing Summary

 N

 Percent

 Included

 156

 100.0%

 Excluded

 0

 0.0%

 Total

 156

 100.0%

 上表的結果陳述了,參與分析的案例個數為156。

 Table 3

 Categorical Variable Information

 N

 Percent

 Factor

 Color

 Green

 30

 19.2%

 Red

 30

 19.2%

 White

 29

 18.6%

 Black

 30

 19.2%

 Yellow

 22

 14.1%

 Blue

 15

 9.6%

 Total

 156

 100.0%

 Rarity

 Rare

 83

 53.2%

 Commom

 73

 46.8%

 Total

 156

 100.0%

 FlowerNumber

 Single flower

 72

 46.2%

 Multiple flowers

 84

 53.8%

 Total

 156

 100.0%

 TypeofSpecies

 Native species

 61

 39.1%

 First generation hybrids

 42

 26.9%

 Complex hybrids

 53

 34.0%

 Total

 156

 100.0%

上表的結果展現了4個自變量中每個類別的選擇的人數及其占比。

 Table 4

 Goodness of Fita

 Value

 df

 Value/df

 Deviance

 68.838

 146

 .471

 Scaled Deviance

 166.574

 146

 Pearson Chi-Square

 68.353

 146

 .468

 Scaled Pearson Chi-Square

 165.400

 146

 Log Likelihoodb

 -767.832

 Akaike's Information Criterion (AIC)

 1557.665

 Finite Sample Corrected AIC (AICC)

 1559.498

 Bayesian Information Criterion (BIC)

 1591.213

 Consistent AIC (CAIC)

 1602.213

 Dependent Variable: Price

 Model: (Intercept), Color, Rarity, FlowerNumber, TypeofSpecies

 a. Information criteria are in small-is-better form.

b. The full log likelihood function is displayed and used in computing information criteria.

 上表是GLM模型的擬合優度分析結果,擬合優度分析是用于反映模型總體上對數據信息的表達是否充分。Deviance擬合優度檢驗法和Pearson Chi-Square擬合優度檢驗法計算出的顯著性水平分別為0.471和0.468,均大于0.05,由此可以知道,模型的擬合情況良好,即模型能夠比較真實可靠地反映出數據。


來CDA學業務數據分析師,SPSS理論結合實戰進行項目數據分析,助你成為從事數據采集、清洗、處理、分析并能制作業務報告、提供決策的新型數據分析人才,點擊了解課程詳情!

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢