
作者:丁點helper
來源:丁點幫你
前文,我們對Logistic回歸分析的來龍去脈有了一個基本的了解,但是Logistic回歸之所以應用十分廣泛還有一個重要的原因——能直接輸出OR值?
什么是OR值?如何理解?我們今天就來好好看一看。
怎么理解OR值
多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數量,在只有一個X時,就稱簡單線性回歸。
OR值是《流行病學》中的重要概念,稱作“優勢比”(odds ratio),也稱“比值比”,反映的是某種暴露與結局的關聯強度。
這句話初學者看起來可能會特別費勁:什么叫優勢?優勢比又是什么意思?暴露和結局又該怎么理解?我們結合例子把這些問題一一理清。
案例:我們想探討吸煙是否會導致糖尿病的發生。一種很實用的思路是找兩組人群,一組患有糖尿病,另一種不患糖尿病,然后,分別調查這兩組人群哪些人吸煙、哪些人不吸。
通過調查我們獲得如下數據:
結合上表,可以看到,患病組一共有40人,其中24人吸煙,16人不吸煙。我們就稱“吸煙”是一種“暴露”。
所以,“暴露”具有十分廣泛的定義,一般某些研究對象具有我們感興趣的因素,就稱這些研究對象為“暴露組”。
暴露包括各種特征(如性別、年齡、教育程度等),以及某種特定的行為(如飲酒、不愛運動等),或接觸某種有毒、有害物質(如PM2.5等),而不具備這些因素的對象稱為“非暴露組”。
所謂研究“暴露對結局”的影響,這里的“結局”在本例中就指“是否患有糖尿病”,一般可以等同于我們前面說的“因變量Y”。
所謂的“優勢”可以理解為“暴露比值”!那怎么理解暴露比值呢?
在本例中,對于患有糖尿病的對象,暴露比值為:吸煙的比例除以不吸煙的比例,即為:24/16 = 1.50;同樣,在不患有糖尿病的人群中,也可以計算一個吸煙的比例除以不吸煙的比例,即為:18/22 = 0.82。
把這兩個比例相除,就得到了吸煙與糖尿病相關關系的OR值,即OR = 1.50/0.82 = 1.83>1。由此,我們可以初步推斷,吸煙會加重患糖尿病的風險。
一般而言,OR值的意義可以總結如下(假設結局發生記為1,不發生記為0):
OR = 1,暴露與結局的無相關性;
OR > 1,暴露可以促進結局的發生;
OR < 1,暴露可以抑制結局事件的發生
Logistic很重要的意義就在于會直接輸出OR值,這一點甚至比看直接的回歸系數(β)還有意義。
OR值與回歸系數β的數量關系為:OR = eβ。在實際的應用中應該如何解讀OR值,我們結合一下文獻案例進行講解。
R值的應用分析
多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數量,在只有一個X時,就稱簡單線性回歸。
以下文章于2015年發表于《中國護理管理》,研究團隊主要采用Logistic回歸分析醫護人員“工作感受”的影響因素,研究的摘要截圖如下:
文章采用第五次國家衛生服務調查問卷中有關工作感受的調查表,測量醫護人員工作感受情況:包括工作認知、工作滿意度、職業緊張和離職意愿4個維度。
該研究并沒有直接采用“工作感受”量表總得分進行研究,而是將上述4個維度分別作為“因變量(Y)”與其他因素,如性別、年齡、婚姻狀況、最高學歷、專業技術職稱(X)等進行Logistic回歸分析。
前文我們強調了進行Logistic回歸的基本條件是:Y是分類變量,本研究符合這個條件嗎?
符合。作者將“工作認知、工作滿意度、職業緊張和離職意愿”的量表得分換算成兩個類別:1=高,0=低,由此,這些因變量就是典型的二分類變量,從而可以進行Logistic回歸分析。
需要明確的是,該研究一共進行了四次分析,因為有四個因變量。自變量賦值表和Logistic分析表如下:
我們在分析Logistic回歸分析結果時,必須結合自變量的賦值情況來看,這是因為將“男性”賦值為“1”得到的結果與將“男性”賦值為“0”的結果會正好相反,解讀時需特別注意。如上表4,我們重點看“B值”和“OR值”。
比如,表格的第一行,研究的是“護士工作滿意度”的影響因素。雖然模型開始時納入了所有的自變量,但經過篩選,最終有意義僅剩下“婚姻狀況”和“工作時間”(P<0.05)兩個有統計學意義的變量。這里我們以“婚姻狀況”為例來解讀OR值的含義。
根據自變量賦值表,婚姻狀況變量中“0”為“無配偶”,“1”為“有配偶”,其表格中對應的OR值為“4.045”(>1),根據我們上文總結的OR值的意義,大于1的OR值表明:暴露會促進結局的發生。
在本研究中,“暴露”可以理解為“有配偶”,“結局”可理解為“獲得高的工作滿意度”,因此,OR大于1,表明:隨著婚姻狀況的提升(從無配偶,“晉級”為有配偶),工作高滿意度的情況更容易發生。
從而說明,“婚姻狀況”是護士工作滿意度的一個影響因素,并且相對于“無配偶”的護士,“有配偶”的護士工作滿意度得分更高。
再次提醒,能夠這樣解讀,是因為我們把“工作滿意度高”賦值為“1”,“工作滿意度低”賦值為“0”,這個順序和“有無配偶”的順序是一致的。
與此形成對比,對于“醫生離職意愿”這個因變量而言,年齡的回歸系數(B值)為-0.711,其對應的OR值變為“0.491”(<1),意味著,隨著年齡的提升,醫生的離職意愿是變低的。
這一點也是很符合常識的。一般而言,年齡越大,其在職年限也越大,各方面的待遇會更好些,所以更不會選擇離職。
最后,值得指出的是,本案例我們講解的Logistic回歸具體而言稱作“二分類”Logistic回歸分析,這也是應用最廣泛的一類。
而當因變量不再是二分類變量,而是多分類變量時,我們仍可以進行Logistic回歸,此時稱作“多分類Logistic回歸分析”。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25