熱線電話:13121318867

登錄
首頁大數據時代與線性回歸相比,你怎么看生存函數和生存曲線?
與線性回歸相比,你怎么看生存函數和生存曲線?
2020-09-30
收藏

作者:丁點helper

來源:丁點幫你

前文我們詳解過線性回歸,也初步介紹了生存分析所涉及的生存數據,明白了:做生存分析最特殊的一點是分析時要納入研究對象的“生存時間”,更一般的是指:出現某種特定結局的時間。今天的文章,我們更進一步地來學習如何看懂生存函數和生存曲線。

生存概率和死亡概率

在進入正題之前,我們需要首先明確兩個概念:生存概率與死亡概率。

1. 生存概率(survival probability),用p表示,是指某時段開始時存活的個體,到該時段結束時仍存活的可能性。

說起來好像有點兒嚇人,但是計算起來很簡單:

2. 死亡概率(probability of death),與生存概率相對, 用 表示,指某時段開始時存活的個體,在該時段內死亡的可能性。如年死亡概率表示年初尚存人口在今后1年內死亡的可能性。

p + q = 1。

介紹完這兩個基礎概念后,我們來看看什么叫生存函數(survival function)。

生存率

教科書的定義是:生存函數表示觀察對象的生存時間T大于某個時間的概率,常用 S(t)表示。

生存函數又稱為累積生存率,簡稱生存率(survival rate)。例如,前文談到的肺癌患者,其生存函數可以寫作:

代表患者治療后存活時間大于18個月的概率,該值越大表明治療的療效越好。這里有一個點很容易混淆,S(t)表示生存率,而前面我們用p代表的是生存概率。一個是生存率,另一個是生存概率,難道不是一回事兒嗎?

還真不是!生存率與生存概率雖然一字之差但定義卻不大相同(當然兩者也存在聯系)。

還是上面的T=18的例子,對于生存率和生存概率,我們可以分別這樣來寫:

生存率:S(t=18)=P(T>18)

生存概率: P(t=18)=P(T=18)

看上面的式子,生存率的計算是用“>”,而生存概率的計算是“=”。由此,生存概率是指單位時間上生存的可能性,生存率是某個時間段(由一個或多個單位時間組成的時間段)生存的可能性,是多個單位時間生存概率的累計結果。

比如評價肺癌治療后3年的生存率,是指第一年存活,第二年存活,直至第三年仍然存活的累積概率,而這3年間每一年都會有不同的生存概率,兩者之間的關系如下圖:

數學上,生存率和生存概率也有如下的計算關系:

生存曲線

除了計算某個時刻(從開始到該時刻的整個時間段)的生存率之外,我們還可以利用圖示法更加直觀地描述生存率隨生存時間的變化而變化。

下圖即為根據某項研究制定的生存曲線:橫軸是生存時間,縱軸是生存率。

如上圖,我們可以發現,當T=11.124時,對應的生存率是0.5。

隨著時間的延長,部分患者死亡,從而導致生存函數的值會逐漸降低。從圖形上看,當時間趨于無窮大時,生存函數的值趨于0,意味著,長遠來看,每位患者的生存時間都是有限的,不可能無限活下去。

在實際應用中如何來估算生存率呢?也很簡單,若數據中無刪失值(不懂什么是刪失,戳此閱讀),某時刻的生存率可用下式估計(有刪失的情況要更復雜一些):

一般而言,生存分析的主要應用如下:

1.描述生存時間的分布特點。通過生存時間和生存結局的數據估計平均存活時間及生存率,繪制生存曲線,根據生存曲線分析其生存特點等。

2.比較生存曲線。通過相應的假設檢驗方法對不同樣本的生存曲線進行比較,以推斷各總體的生存狀況是否存在差別,比較不同治療方法預后效果的差異。

3.分析影響生存狀況的因素。通過生存分析模型來探討影響生存狀況的因素,通常以生存時間和結局作為因變量,而將可能的影響因素作為自變量,通過擬合生存分析模型,篩選具有統計學意義的生存狀況的影響因素。

具體在實際應用中如何進行生存函數的估計而實現上述應用,這就是我們下篇文章將要給大家帶來的內容了。


想從事務型數據分析師,您可以點擊>>>“數據分析師”了解課程詳情;

想從事數據分析師,您可以點擊>>>“大數據就業”了解課程詳情;

想成為人工智能工程師,您可以點擊>>>“人工智能就業”了解課程詳情;

想了解Python數據分析,您可以點擊>>>“Python數據分析師”了解課程詳情;

想了解更多優質課程,請點擊>>>

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢