熱線電話:13121318867

登錄
首頁大數據時代如何理解廣義線性回歸分析Logistic輸出的OR值?
如何理解廣義線性回歸分析Logistic輸出的OR值?
2020-09-25
收藏

作者:丁點helper 

來源:丁點幫你

前文,我們對Logistic回歸分析的來龍去脈有了一個基本的了解,但是Logistic回歸之所以應用十分廣泛還有一個重要的原因——能直接輸出OR值?

什么是OR值?如何理解?我們今天就來好好看一看。

怎么理解OR值

多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數量,在只有一個X時,就稱簡單線性回歸。

OR值是《流行病學》中的重要概念,稱作“優勢比”(odds ratio),也稱“比值比”,反映的是某種暴露與結局的關聯強度。

這句話初學者看起來可能會特別費勁:什么叫優勢?優勢比又是什么意思?暴露和結局又該怎么理解?我們結合例子把這些問題一一理清。

案例:我們想探討吸煙是否會導致糖尿病的發生。一種很實用的思路是找兩組人群,一組患有糖尿病,另一種不患糖尿病,然后,分別調查這兩組人群哪些人吸煙、哪些人不吸。

通過調查我們獲得如下數據:

結合上表,可以看到,患病組一共有40人,其中24人吸煙,16人不吸煙。我們就稱“吸煙”是一種“暴露”。

所以,“暴露”具有十分廣泛的定義,一般某些研究對象具有我們感興趣的因素,就稱這些研究對象為“暴露組”。

暴露包括各種特征(如性別、年齡、教育程度等),以及某種特定的行為(如飲酒、不愛運動等),或接觸某種有毒、有害物質(如PM2.5等),而不具備這些因素的對象稱為“非暴露組”。

所謂研究“暴露對結局”的影響,這里的“結局”在本例中就指“是否患有糖尿病”,一般可以等同于我們前面說的“因變量Y”。

所謂的“優勢”可以理解為“暴露比值”!那怎么理解暴露比值呢?

在本例中,對于患有糖尿病的對象,暴露比值為:吸煙的比例除以不吸煙的比例,即為:24/16 = 1.50;同樣,在不患有糖尿病的人群中,也可以計算一個吸煙的比例除以不吸煙的比例,即為:18/22 = 0.82。

把這兩個比例相除,就得到了吸煙與糖尿病相關關系的OR值,即OR = 1.50/0.82 = 1.83>1。由此,我們可以初步推斷,吸煙會加重患糖尿病的風險。

一般而言,OR值的意義可以總結如下(假設結局發生記為1,不發生記為0):

OR = 1,暴露與結局的無相關性;

OR > 1,暴露可以促進結局的發生;

OR < 1,暴露可以抑制結局事件的發生

Logistic很重要的意義就在于會直接輸出OR值,這一點甚至比看直接的回歸系數(β)還有意義。

OR值與回歸系數β的數量關系為:OR = eβ。在實際的應用中應該如何解讀OR值,我們結合一下文獻案例進行講解。

R值的應用分析

多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數量,在只有一個X時,就稱簡單線性回歸。

以下文章于2015年發表于《中國護理管理》,研究團隊主要采用Logistic回歸分析醫護人員“工作感受”的影響因素,研究的摘要截圖如下:

  文章采用第五次國家衛生服務調查問卷中有關工作感受的調查表,測量醫護人員工作感受情況:包括工作認知、工作滿意度、職業緊張和離職意愿4個維度。

該研究并沒有直接采用“工作感受”量表總得分進行研究,而是將上述4個維度分別作為“因變量(Y)”與其他因素,如性別、年齡、婚姻狀況、最高學歷、專業技術職稱(X)等進行Logistic回歸分析。

前文我們強調了進行Logistic回歸的基本條件是:Y是分類變量,本研究符合這個條件嗎?

符合。作者將“工作認知、工作滿意度、職業緊張和離職意愿”的量表得分換算成兩個類別:1=高,0=低,由此,這些因變量就是典型的二分類變量,從而可以進行Logistic回歸分析。

需要明確的是,該研究一共進行了四次分析,因為有四個因變量。自變量賦值表和Logistic分析表如下:

我們在分析Logistic回歸分析結果時,必須結合自變量的賦值情況來看,這是因為將“男性”賦值為“1”得到的結果與將“男性”賦值為“0”的結果會正好相反,解讀時需特別注意。如上表4,我們重點看“B值”和“OR值”。

比如,表格的第一行,研究的是“護士工作滿意度”的影響因素。雖然模型開始時納入了所有的自變量,但經過篩選,最終有意義僅剩下“婚姻狀況”和“工作時間”(P<0.05)兩個有統計學意義的變量。這里我們以“婚姻狀況”為例來解讀OR值的含義。

 根據自變量賦值表,婚姻狀況變量中“0”為“無配偶”,“1”為“有配偶”,其表格中對應的OR值為“4.045”(>1),根據我們上文總結的OR值的意義,大于1的OR值表明:暴露會促進結局的發生。

在本研究中,“暴露”可以理解為“有配偶”,“結局”可理解為“獲得高的工作滿意度”,因此,OR大于1,表明:隨著婚姻狀況的提升(從無配偶,“晉級”為有配偶),工作高滿意度的情況更容易發生。

從而說明,“婚姻狀況”是護士工作滿意度的一個影響因素,并且相對于“無配偶”的護士,“有配偶”的護士工作滿意度得分更高。

再次提醒,能夠這樣解讀,是因為我們把“工作滿意度高”賦值為“1”,“工作滿意度低”賦值為“0”,這個順序和“有無配偶”的順序是一致的。

與此形成對比,對于“醫生離職意愿”這個因變量而言,年齡的回歸系數(B值)為-0.711,其對應的OR值變為“0.491”(<1),意味著,隨著年齡的提升,醫生的離職意愿是變低的。

這一點也是很符合常識的。一般而言,年齡越大,其在職年限也越大,各方面的待遇會更好些,所以更不會選擇離職。

最后,值得指出的是,本案例我們講解的Logistic回歸具體而言稱作“二分類”Logistic回歸分析,這也是應用最廣泛的一類。

而當因變量不再是二分類變量,而是多分類變量時,我們仍可以進行Logistic回歸,此時稱作“多分類Logistic回歸分析”。

關于多分類的Logistic回歸分析操作起來較為復雜,后期我們有機會再進行更詳細的講解。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢