熱線電話:13121318867

登錄
首頁精彩閱讀數據不會說謊__5大常見統計偏倚
數據不會說謊__5大常見統計偏倚
2014-09-03
收藏

        數據不會說謊__5大常見統計偏倚 

每項重要的研究背后都離不開好的數據,是它們使分析成為可能。而每項不好的研究背后嘛……這個 后面會說。人們常說“用數據說謊”,我要說往往數據分析是沒問題的,但這些分析卻是建立在夸大或不實的數據之上。下面便是幾個常見的“錯進錯出”案例。

        選擇偏倚
          《紐約客》資深影評人寶琳?凱爾(Pauline Kael)據稱曾經在理查德?尼克松(Richard Nixon)當選美國總統后評論:“尼克松不可能贏了競選,我認識的人里面沒一個投了他?!边@句話很有可能是杜撰的,但卻很好地說明了糟糕的樣本(一群自 由派朋友)會如何給更大的群體帶來錯誤的偏見(全美國的投票結果)。而這也引出了我們應該問自己的問題:如何選擇評估樣本?如果要接受評估的群體的每一個 成員沒有均等的機會入選樣本,那么最終得出的結論就將會有偏頗。以愛荷華州的民意測驗為例,這是美國總統競選中的一項慣例,在總統大選年的8月,也就是正 式投票的前一個月,共和黨的候選人會來到愛荷華州的埃姆斯市(Ames)籠絡選民,選民每個人支付30美元投上一票以參與表決。愛荷華州的民意測驗結果并 不能告訴我們共和黨候選人的未來。(該調查的預測在過去5次大選中只說對了3次共和黨提名候選人的結果。)為什么?因為支付30美元投票參與這項民意測驗 的愛荷華州共和黨選民跟愛荷華州的其他共和黨選民不同,而愛荷華州的共和黨選民又跟美國其他地區的共和黨選民不同。
“尼克松不可能贏了競選,我認識的人里面沒一個投了他?!?/i>
           選擇偏倚還有其他很多種形式。在機場做消費者問卷調查很可能造成偏倚,因為坐飛機的人大體上會比一般人更富裕;而在 90號洲際公路上做同樣的調查問卷結果又會偏向另一端。而兩項調查都有可能出現的偏倚則是那些愿意在公共場合接受問卷調查的人不同于那些不愿意被打擾的 人。如果你在公共場合問100個人做一份簡短的調查,其中只有60人愿意,那么這60個人跟剩下40個看都不看你一眼就走開的人在某些地方有著顯著的不 同。
         發表偏倚
           正面的結果比負面的更有可能得到發表,而這可能會混淆我們最終所見到的結論。假設你剛剛做完了一次嚴謹的追蹤調查, 得出結論認為玩視頻游戲不能預防結腸癌。在這項調查中,你花了20年的時間跟蹤訪問了作為代表性樣本的10萬個美國人;這些人當中,長時間玩視頻游戲的跟 不玩兒視頻游戲的罹患結腸癌的幾率基本一致。我們假設你的研究方法完美無缺。但哪家醫學期刊會發表你的研究結論呢?
“大多數活動都不能預防結腸癌?!?/i>
           答案是沒有。原因有二:第一,沒有有力的科學理由認為玩兒視頻游戲對結腸癌有什么影響,因此你研究這個的意義不明;其次,也是更重要的一點,某件事情不能預防結腸癌不是什么有趣的發現。畢竟,大多數東西都不能預防結腸癌。否定的結論尤其不性感,不論是在醫療領域還是其他。
           而兩相抵消,就對我們看到的研究(或者說看不到的)產生了偏倚。假設你的研究生同學經過另一項追蹤調查得出了不同的 結論,她發現玩視頻游戲的人確實罹患結腸癌的幾率較小?,F在就有意思多了!醫學期刊要的就是這樣的論文,大眾媒體、博客寫手,還有視頻游戲的制作商(他們 巴不得在自己產品的包裝上標注玩游戲有益身體健康),都在尋找這樣的內容。要不了多久,全美國的虎媽們就會紛紛奪過自己孩子手里的書本,轉而逼迫他們玩游 戲來“保護”下一代免于癌癥困擾了。
           當然,統計學里反復強調的一個論點是,異乎尋常的事情時而發生,這只是概率問題。如果你進行100次調查,其中有一 次很可能會出現純屬無稽的結果——就像玩視頻游戲和結腸癌患病率低之間的數據關聯。而問題在于:99次發現玩游戲跟患結腸癌無關的研究都得不到發表,因為 它們沒有意思,而那一次發現兩者有關聯的研究卻被印刷出來,迎來了眾多關注。偏倚的源頭并不在于研究本身,但傳達給公眾的信息卻是偏頗的。而研讀視頻游戲 和癌癥關聯的研究者只能發現一篇論文,而這篇論文表明的卻是玩視頻游戲能預防癌癥。實際上,100項研究里有99項都找不出二者之間有任何關聯。
         回憶偏倚
           記憶是件奇妙的東西——盡管不能總算作優質數據的來源。人類天生就有沖動將現狀理解成過去發生的事情合乎邏輯的結 果,也就是因果關系。問題出在當我們試圖去解釋某些當前特別好或者特別糟糕的結果時,記憶就會變得“系統性的不堪一擊”。例如一項研究飲食和癌癥之間的關 系的研究。1993年,一名哈佛大學的研究者構建了一組罹患乳腺癌的婦女和沒有被診斷出癌癥的年齡匹配組女性的數據。研究人員分別詢問了這兩組女性的早年 飲食習慣。研究得出了清晰的結論:患有乳腺癌的婦女在年輕時有更顯著的可能擁有高脂肪的飲食。
           哈,不過,這實際上不是在研究飲食習慣對罹患癌癥幾率有什么影響。這項研究真正調查的是患上癌癥如何影響了女性對自 己早年飲食習慣的記憶。所有參與這項研究的女性都在多年以前,在任何人都沒有被診斷患有癌癥的時候,填寫了關于其飲食習慣的調查問卷。研究的結果十分驚 人,患有乳腺癌的婦女回想自己過去飲食攝入的脂肪的含量比她們實際消耗的要多得多;沒有患癌癥的女性則沒有出現這種情況。
《紐約時報雜志》在描述這種記憶偏倚的隱秘本質時稱:
   罹患乳腺癌不僅改變了一位女性的當下和未來;它連她的過去也 改變了?;加腥橄侔┑呐裕o意識地)認為高脂飲食可能是她們患病的易感原因,并且(無意識地)認為自己過去有高脂的飲食習慣。對于任何了解這種恥辱病的 歷史的人而言,這一模式都熟悉得令人悲傷:和她們之前成千上萬的女性一樣,這些女性在她們自己的記憶里尋找原因,并將這個原因放置在記憶里?!?/i>
           回憶偏倚是也是追蹤研究往往偏向于橫向研究(cross-sectional studies)的一個原因。在橫向研究里,數據是同時采集的。在5歲的時候,參與者會被問及他對學校的態度。然后,再過13年,我們可以重訪參與者,看 他是否高中輟學。在橫向研究中,所有的數據都在同一時間點采集,研究者必須詢問18歲的高中輟學生他5歲時對學校有何看法,而這一信息固然便是不怎么可靠 的。
          存活者誤差
           假設一名高中校長報告說,學生中的一組特定人群在4年中(編注:美國高中有4年)考試成績穩步上升。這批人高二的得 分比他們在高一時的成績好。高三那年的分數更好,高四達到了最好。我們假定不存在作弊的情況,也沒有任何創造性地運用描述性的統計數據。無論用什么評價標 準,這批學生每一年都比前一年做得更好:平均數、中位數、學生在年級水平的百分比等等。你會(A)提名這所學校的領導為“年度最佳校長”還是(B)要求提 供更多的數據?
“如果你有一屋子高矮不齊的人,強迫最矮的那個離開房間會使整個房間的平均身高上升,但這樣做并不會使任何人的身高變高?!?/i>
           我的話就會選(B)。我嗅到了存活者誤差的貓膩,這種情況下樣本中去掉了一些或很多觀測數據,以至于改變了整個剩下 的觀測結果,因而任何基于剩余觀測數據所做的分析也受了影響。假設我們的校長真不是個好人:他學校里的學生啥也沒學到;每年都有半數人輟學。不過,這在數 學的考試分數上面看起來很是漂亮——但沒有任何一名學生實際上考得更好。有理可測,學得最差的學生(也是考試分數最低的學生)最有可能輟學,那么考試分數 的平均分會隨著更多學生輟學而穩步上升。(如果你有一屋子高矮不齊的人,強迫最矮的那個離開房間會使整個房間的平均身高上升,但這樣做并不會使任何人的身 高變高。)
          健康用戶誤差
           每天按時吃維生素片的人更有可能身體健康——他們是每天都按時吃維生素的人!而至于維生素是否真的有益健康這又另當 別論了。 想想這樣一個思考實驗。假設公共衛生官員頒布這樣一條聲明,所有的剛生了小孩兒的夫妻都能該把自己的孩子裹在紫色的睡衣里睡覺,因為這有助于刺激大腦的發 育。20年后,追蹤研究證實,幼年時期穿紫色睡衣確實與今后人生中取得成功有一個特別大的正相關。比方說,我們發現,98%考上哈佛大學的新生孩童時期都 穿著紫色的睡衣(現在許多人仍然這樣做),相比之下,馬薩諸塞州監獄系統里的囚犯只有3%年幼時穿紫色睡衣。
“紫色睡衣并不重要?!?/i>
           當然,紫色睡衣并不重要,但擁有那種會讓孩子穿紫色睡衣的父母卻十分重要。就算試圖控制父母教育這樣的因素,研究者 仍然會面臨那些執著于讓孩子穿紫色睡衣和不穿的父母之間不可觀測的差異。正如《紐約時報》健康專欄作家加里?陶布斯(Gary Taubes)解釋說,“簡單地說,問題就是踏踏實實做那些對他們有好處的事情——比如按醫囑服藥或吃他們認為有益健康的食物——的人,跟那些不這樣做的 人有著根本上的不同?!边@種效應有可能擾亂任何試圖評估那些被視為有益健康的活動(比如每周運動或吃羽衣甘藍)真實效果的研究。研究人員以為他們是在比較 兩種飲食習慣對健康的影響:吃羽衣甘藍和不吃甘藍。但事實上,假如治療組和對照組不是隨機分配的,那么他們在比較兩種不同的人吃兩種不同的飲食,治療組和 對照組的不同有兩個方面,而不是僅僅一個。
           如果說統計學家"數據分析師"是偵探,那么數據就是線索。我的妻子在新罕布什爾郊區的高中教了一年書。她的一個學生因為闖入一家五 金店盜竊工具而被逮捕歸案,而警察之所以能破案是因為:(1)天剛剛下雪,從五金店到學生的家里的雪上有足跡;(2)在學生家里找到了被盜的工具。好線索 幫了大忙。

就跟好數據一樣。但首先,你得有好的數據,否則一切都是空。 數據分析師

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢