熱線電話:13121318867

登錄
首頁精彩閱讀嶺回歸分析及其SPSS實現方法
嶺回歸分析及其SPSS實現方法
2017-04-05
收藏

嶺回歸分析及其SPSS實現方法

近日有醫院的小伙伴問起嶺回歸分析的SPSS操作,在此與大家一起復習一下。

嶺回歸分析(RidgeRegression)是一種改良的最小二乘估計方法,它是用于解決在線性回歸分析中自變量存在共線性的問題。什么?共線性是什么?共線性就是指自變量之間存在一種完全或良好的線性關系,進而導致自變量相關矩陣之行列式近似為0,導致最小二乘估計失效。此時統計學家就引入了k個單位陣(I),使得回歸系數可估計。設么?沒看懂,那就算了。

知道嶺回歸分析就是用來解決多重共線性的問題,就夠了。在醫學科研的實際工作中,往往不需要創造算法,會用算法就行。當然如果你有心研究其原理,那更是極好的。

下面我們還是通過實例來學習嶺回歸分析的應用條件和SPSS實習方法吧。用SPSS自帶的例子(來自SPSS 20.0版的示例數據庫,其他版本的就別找了),某研究者想了解B超下胎兒的身長、頭圍、體重與胎兒受精周數之間的關系,即B超測得上述參數之后,用它們來推測胎兒的受精時長(周數)。我們很容易想到用多重線性回歸來解決,以胎兒周數為因變量,以身長、頭圍和體重為因變量,做回歸之后我們發現,結果如下:

不會吧?!頭圍盡然與周齡成負相關,開玩笑啊。這個方程肯定是有問題,細心的讀者也已經發現方差膨脹因子(VIF)大到200多了(VIF是用來判斷自變量共線性的一種方法,如果大于10即認為存在較為嚴重的共線性)?,F在該怎么辦?嶺回歸該發揮作用了。

嶺回歸分析在SPSS中沒有可供點擊的對話框,我們需要寫一段超級簡單的語法來調用SPSS的宏。SPSS公司可能也覺得羞愧,沒有提供人機交互的對話框,于是他們提供了一段宏程序,存儲路徑為“你的SPSS安裝目錄\SPSS\Statistics\22\Samples\Simplified Chinese\Ridge regression.sps”。

我們在做嶺回歸分析時,只需要調用它就行,調用語法如下(*后面是注釋):

什么?你調用不了?哦,那是因為你沒有SPSS目錄下的修改權限。什么是修改權限?這是電腦問題,Windows為了保護其程序文件,一般默認不給用戶修改權限,需要用戶自己去改,至于怎么改自己問百度吧。

進行上述運算后,你會得到如下幾個結果:1、不同K值下自變量的標準化回歸系數;2、嶺軌圖,3、R方的變化圖。

如何選擇結果呢?我們需要選擇一定K值下的標準化回歸系數,選擇的原則是各個自變量的標準化回歸系數趨于穩定時的最小K值。因為K值越小我們引入的單位矩陣就少,偏差就小。有同學說上圖看不起,那么我們把嶺跡圖放大如下,就可以看出k大約在0.05時,各個自變量的標準化回歸系數就趨于穩定了。

有了上述的結果,我們就獲得了嶺回歸的各個自變量的標準化回歸系數,也算是做完了。但是有人又問了,我們能不能獲得非標準的偏回歸系數、t值和p值呢?當然是可以的,但是SPSS原始的宏不提供p值的計算,所以我們需要在SPSS的宏中加入這一句話“. computeppp=2*(1-tcdf(abs(ratio),n-nv-1)).”,這句話就是計算p值的。同時我們對print結果略作修改。這句話加在下圖的位置上:

修改完宏之后,再修改上述調用語句,將其中的k改為等于0.05,SPSS就會做k=0.05時的嶺回歸分析,并給出各個自變量的檢驗結果,結果如下:

至此完整的嶺回歸分析就算做完了,各個自變量的標準化回歸系數合理多了吧。什么?你還是沒學會。哎,復習一下SPSS的語法運算吧,我只能幫你到這兒了。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢