
作者:丁點helper
來源:丁點幫你
前文我們詳解過線性回歸,也初步介紹了生存分析所涉及的生存數據,明白了:做生存分析最特殊的一點是分析時要納入研究對象的“生存時間”,更一般的是指:出現某種特定結局的時間。今天的文章,我們更進一步地來學習如何看懂生存函數和生存曲線。
生存概率和死亡概率
在進入正題之前,我們需要首先明確兩個概念:生存概率與死亡概率。
1. 生存概率(survival probability),用p表示,是指某時段開始時存活的個體,到該時段結束時仍存活的可能性。
說起來好像有點兒嚇人,但是計算起來很簡單:
2. 死亡概率(probability of death),與生存概率相對, 用 q 表示,指某時段開始時存活的個體,在該時段內死亡的可能性。如年死亡概率表示年初尚存人口在今后1年內死亡的可能性。
p + q = 1。
介紹完這兩個基礎概念后,我們來看看什么叫生存函數(survival function)。
生存率
教科書的定義是:生存函數表示觀察對象的生存時間T大于某個時間的概率,常用 S(t)表示。
生存函數又稱為累積生存率,簡稱生存率(survival rate)。例如,前文談到的肺癌患者,其生存函數可以寫作:
代表患者治療后存活時間大于18個月的概率,該值越大表明治療的療效越好。這里有一個點很容易混淆,S(t)表示生存率,而前面我們用p代表的是生存概率。一個是生存率,另一個是生存概率,難道不是一回事兒嗎?
還真不是!生存率與生存概率雖然一字之差但定義卻不大相同(當然兩者也存在聯系)。
還是上面的T=18的例子,對于生存率和生存概率,我們可以分別這樣來寫:
生存率:S(t=18)=P(T>18)
生存概率: P(t=18)=P(T=18)
看上面的式子,生存率的計算是用“>”,而生存概率的計算是“=”。由此,生存概率是指單位時間上生存的可能性,生存率是某個時間段(由一個或多個單位時間組成的時間段)生存的可能性,是多個單位時間生存概率的累計結果。
比如評價肺癌治療后3年的生存率,是指第一年存活,第二年存活,直至第三年仍然存活的累積概率,而這3年間每一年都會有不同的生存概率,兩者之間的關系如下圖:
數學上,生存率和生存概率也有如下的計算關系:
生存曲線
除了計算某個時刻(從開始到該時刻的整個時間段)的生存率之外,我們還可以利用圖示法更加直觀地描述生存率隨生存時間的變化而變化。
下圖即為根據某項研究制定的生存曲線:橫軸是生存時間,縱軸是生存率。
如上圖,我們可以發現,當T=11.124時,對應的生存率是0.5。
隨著時間的延長,部分患者死亡,從而導致生存函數的值會逐漸降低。從圖形上看,當時間趨于無窮大時,生存函數的值趨于0,意味著,長遠來看,每位患者的生存時間都是有限的,不可能無限活下去。
在實際應用中如何來估算生存率呢?也很簡單,若數據中無刪失值(不懂什么是刪失,戳此閱讀),某時刻的生存率可用下式估計(有刪失的情況要更復雜一些):
一般而言,生存分析的主要應用如下:
1.描述生存時間的分布特點。通過生存時間和生存結局的數據估計平均存活時間及生存率,繪制生存曲線,根據生存曲線分析其生存特點等。
2.比較生存曲線。通過相應的假設檢驗方法對不同樣本的生存曲線進行比較,以推斷各總體的生存狀況是否存在差別,比較不同治療方法預后效果的差異。
3.分析影響生存狀況的因素。通過生存分析模型來探討影響生存狀況的因素,通常以生存時間和結局作為因變量,而將可能的影響因素作為自變量,通過擬合生存分析模型,篩選具有統計學意義的生存狀況的影響因素。
具體在實際應用中如何進行生存函數的估計而實現上述應用,這就是我們下篇文章將要給大家帶來的內容了。
想從事業務型數據分析師,您可以點擊>>>“數據分析師”了解課程詳情;
想從事大數據分析師,您可以點擊>>>“大數據就業”了解課程詳情;
想成為人工智能工程師,您可以點擊>>>“人工智能就業”了解課程詳情;
想了解Python數據分析,您可以點擊>>>“Python數據分析師”了解課程詳情;
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25