熱線電話:13121318867

登錄
首頁精彩閱讀【從零開始學統計】7.這個P不簡單
【從零開始學統計】7.這個P不簡單
2014-07-04
收藏

哈哈,樓主此次的標題起得有點粗俗,這個P當然不是屁,而是指軟件中那個常常出現的P值。不管有沒有學過統計,相信很多同學(包括樓主)在剛開始接觸P值時,對它的理解多少有點云里霧里的,以至于在做模型檢驗的時候往往只關注P值是否小于α,到底拒不拒絕原假設這個問題。但細細想來,卻真沒對它有過深入了解(當然現在也不怎么深入……)所以,借著做這個系列的空,又把書翻出來看看,去網上找了一些資料,大致理了下思路,算是普及一下概念,希望大牛能夠及時點評,加以指導,樓主萬分感謝!

Q:簡單點說什么是P值?
A:P值就是當原假設為真時,比所得到的樣本觀察結果更極端的結果出現的概率。如果P值很小,說明原假設情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分??傊?,P值越小,表明結果越顯著。但是檢驗的結果究竟是“顯著的”、“中度顯著的”還是“高度顯著的”需要我們自己根據P值的大小和實際問題來解決。

舉個例子:比如,在100次硬幣投擲實驗中,觀察到出現90次正面,10次反面(Q)。怎么樣的事件才是“極端的”?簡單地說,一個事件很極端,那么少比它本身“更極端”的事件就非常少(比如,只有“91次正面,9次反面”、“91次反面,9次正面”等情況才比它更極端)。

但這個Q只是從一次實驗中得出的。我們可以重復做這個實驗,比如100次,每次都投擲100次,記錄下的正面數X,它構成一個二項分布,X~B(n,p),其中,n=100,p=0.5。根據某個中心極限定理,正態分布是二項分布的極限分布,上面的二項分布可以由均值為np=50,方差為np(1-p)=25的正態分布來近似。我們在這個近似的正態分布的兩端來考察所謂“更極端”的事件,那就是正面數大于90或者小于10。

重復一遍,“P值就是當原假設為真時,比所得到的樣本觀察結果更極端的結果出現的概率”。如果P值很小,就表明,在原假設為真的情況下出現的那個分布里面,只有很小的部分,比出現的這個事件(比如,Q)更為極端。沒多少事件比Q更極端,那就很有把握說原假設不對了。

在上述近似的正態分布中,P值就等于X>90 或 X<10的概率值(記做,P{X>90 or X<10})。根據對稱性,這個概率值等于2*P{X<10}=1.2442E-15。

上面我們的確求出了一個非常小的P值,但如何不含糊地確定它就是很“極端”呢? 事先確定的顯著性水平α,本身就是一個判定法則。只要P值小于顯著性水平α,我們就認為,在認為原假設為真的情況下出現的事件Q,是如此地極端,以至于我們不再相信原假設本身。一句話,我們的判定法則是:P值小于顯著性水平α,拒絕原假設。
具體說來:
      P值                碰巧出現的概率                  對原假設               統計意義
   P>0.05    碰巧出現的可能性大于5%   不能否定原假設   兩組差別無顯著意義
   P<0.05    碰巧出現的可能性小于5%   可以否定原假設   兩組差別有顯著意義
   P <0.01   碰巧出現的可能性小于1%   可以否定原假設   兩者差別有非常顯著意義

理解P值,下述幾點必須注意:
    ⑴P的意義不表示兩組差別的大小,P反映兩組差別有無統計學意義,并不表示差別大小。比如拿藥效做例子,與對照組相比,C藥取得P<0.05,D藥取得P <0.01并不表示D的藥效比C強。
    ⑵若取α=0.05,當P>0.05時,差異無顯著意義,根據統計學原理可知,不能拒絕原假設,但并不認為原假設肯定成立(一般也可以說是不拒絕原假設,切記,不拒絕≠接受);當P<0.05時,有顯著差異,拒絕原假設。
    ⑶顯著性檢驗只是統計結論。判斷差別還要根據專業知識。樣所得的樣本,其統計量會與總體參數有所不同,這可能是由于兩種原因。

Q:如何計算P值?
A:若非考試,一般統計軟件都會自帶P值;若要手工算,那么——
用Z表示檢驗的統計量,ZC表示根據樣本數據計算得到的檢驗統計量值。
左側檢驗 H0:μ≥μ0 vs H1:μ<μ0
P值是當μ=μ0時,檢驗統計量小于或等于根據實際觀測樣本數據計算得到的檢驗統計量值的概率,即p值 = P(Z≤ZC|μ=μ0)
右側檢驗 H0:μ≤μ0 vs H1:μ>μ0
P值是當μ=μ0時,檢驗統計量大于或等于根據實際觀測樣本數據計算得到的檢驗統計量值的概率,即p值 = P(Z≥ZC|μ=μ0)
雙側檢驗 H0:μ=μ0 vs H1:μ≠μ0
P值是當μ=μ0時,檢驗統計量大于或等于根據實際觀測樣本數據計算得到的檢驗統計量值的概率,即p值 = 2P(Z≥|ZC||μ=μ0)

20080803_1c3d7fd09b8fceea6f14zuQwnJKUxzuf.jpg

Q:所有的檢驗統計都是正態分布的嗎?
A:并不完全如此,但大多數檢驗都直接或間接與之有關,可以從正態分布中推導出來,如t檢驗、F檢驗或卡方檢驗。這些檢驗一般都要求:所分析變量在總體中呈正態分布,即滿足所謂的正態假設。許多觀察變量的確是呈正態分布的,這也是正態分布是現實世界的基本特征的原因。當人們用在正態分布基礎上建立的檢驗分析非正態分布變量的數據時問題就產生了,(參閱非參數和方差分析的正態性檢驗)。這種條件下有兩種方法:一是用替代的非參數檢驗(即無分布性檢驗),但這種方法不方便,因為從它所提供的結論形式看,這種方法統計效率低下、不靈活。另一種方法是:當確定樣本量足夠大的情況下,通常還是可以使用基于正態分布前提下的檢驗。后一種方法是基于一個相當重要的原則產生的,該原則對正態方程基礎上的總體檢驗有極其重要的作用。即,隨著樣本量的增加,樣本分布形狀趨于正態,即使所研究的變量分布并不呈正態。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢