
處于大數據時代,應該具備哪些思維
對于身處大數據時代的我們來說,統計學越來走近我們,當我們在思考一個問題時,要盡量避免因為自己的無知,提出一些低級的問題來。譬如一些極其低級的,不符合統計學常識的錯誤。具體有哪些錯誤,后面我會提到。如果提問者懂一些統計學的常識,很多問題根本就不應該被提出來。要避免犯蠢,提出合理的科學的問題,就應該懂一些基本的統計常識。以下內容,學過數學/統計學/計量經濟學的同學,應該知道我在說什么。如果你不知道,那請你回去面壁思過一下。
樣本偏差
人們習慣通過很少的觀察值,就得出結論。這樣的結論,往往就存在樣本不足導致的偏差。
比如,你說吸煙有害健康,勸身邊人戒煙。煙民們常用的借口是這樣的:
你看隔壁王大爺,都九十歲了,抽煙抽了一輩子,照樣健健康康的。張二蛋,煙酒不沾,三十歲就歸了西。所以呀,抽煙有害健康,都是扯淡騙人的!
比如,有人跟蹤過每年的高考狀元后來的職業發展路徑,最終發現這些狀元,絕大多數并沒有成為人中龍鳳,國之棟梁,于是他們得出結論:
高考狀元最終將走向平庸,高考對篩選人才并沒什么卵用!
再比如,幾個清北畢業的人,上知乎回答了個問題,說自己清北畢業,也買不起學區房,甚至也在北京留不下來,于是就有人得出結論:
清北的學歷不如學區房值錢!
以上的例子,統統犯了小樣本偏差的統計錯誤。換句話說,考察的樣本太少,根本不可能得出可靠的結論。
看吸煙是否有害健康,應該看的是整個煙民群體和非煙民群體的比較,光一個王大爺和張二蛋怎么能得出結論。
高考狀元的容量加起來不過幾百人,但非狀元人數上千萬,幾千萬人當中出現馬云馬化騰,當然更正常。
說清北畢業買不起房的,也只是發聲的少數人,而那些悶聲發大財的清北人,看到這樣的結論,恐怕只會默默地罵一句SB。
說到樣本偏差,就必須提到有名的「紅球實驗」。
假設有兩個盒子:A和B.
A盒:2/3的紅球,1/3的藍球。
B盒:2/3的藍球,1/3的紅球。
現在我們把兩個盒子遮起來,從中隨機抽取小球出來。換句話說,這個時候,你不知道哪個是A哪個是B,只知道盒子1和盒子2。
我們從盒子1當中抽取了4個紅球和1個藍球,一共5個。從盒子2當中,抽取了20個紅球,10個藍球,一共30個。也即是:
盒子1:4個紅球,1個藍球,共5個。
盒子2:20個紅球,10個藍球,共30個。
現在問,哪個盒子更有可能是A盒,是1還是2?
多數人的答案是1。因為1當中紅球的概率是80%,而2當中只有67%。A盒當中的紅球概率更高,所以1是A盒。
學過概率論的同學應該馬上反應出來,這是一個典型的條件概率問題,用貝葉斯公式可以很容易計算:
P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.
P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.
看不懂公式的同學可以略過,你需要記住一點即可:
統計推斷,樣本量越大,越可靠?;谛颖镜慕Y論,往往都存在問題。
以后不要再很蠢地說,你看,名校畢業的
但答案恰恰相反,盒子2才更有可能是A盒。因為在更多的樣本量下,它保證了紅球的概率遠高于藍球。
也在北京買不起房,所以學歷沒什么卵用。
相關性
混淆相關和因果,不能建立多元相關思維模型,簡直是人們犯蠢的重災區!
因果的意思是,A的發生必然會導致B,B的發生必然以A的發生為前提。相關則不一定,僅僅可能是A,B同時發生了。
比如暴飲暴食導致胃痛,就是一種因果關系。吃太多胃承受不了,必然會痛。胃之所以會痛,就是因為你吃了太多東西進去(控制其他變量的前提下)。
但名校畢業和賺很多錢,這就不是因果關系。這只是一種相關關系,而且是一種多元的相關關系。
換句話說,賺錢這個事實,不僅和學校學歷相關,還和很多其他因素相關,比如長相、行業、冒險精神等等。
現在明白我為什么說上面那些問題很蠢了吧。誰告訴你清北畢業就一定可以去投行?同理,誰告訴你,哈佛的學生就一定比咪蒙賺錢賺得多?
清北畢業和去投行,只是相關性,且只是相關因子當中的一個,同理,哈佛畢業和賺錢多,也是這個道理。
如果把一個結果稱為Y,諸多和它相關的因素稱為X,那么Y和X的關系應該是:Y=AX.
其中A=[a0,a1,a2…an], X=[x0,x1,x2…xn]’
以上是一個最基本的多元相關模型。比如,賺錢是Y,那它對應的X,包括了學歷、起始資本(家庭背景)、努力程度、長相,等等。
如果以多元相關模型來思考問題,根本就不可能提出為什么一個哈佛的還不如咪蒙賺得多這種愚蠢的問題。
明白了這一點,你也不會再提憑什么奶茶長得好看就可以搞定東哥,為什么美聯儲加息了股票反而上漲,名校畢業的不如技校畢業的賺得多,這一類愚蠢的問題了。
簡單來說,記住一點:事情的發生,往往都是一個復雜系統里,多因素共同作用的結果。
凡事都盡量避免用單因素模型去解釋。這是避免你變得很蠢的重要思維法寶。
控制變量
控制變量的意思是,控制了這個因素,來看其他因素對事物發生的影響。最直觀的表達就是 “假設其他條件不變的情況下”,這種假設,就是很典型的一種控制變量的假設。
回到我們之前討論的名校畢業掙錢不多的問題,名校畢業照樣買不起學區房,很多人據此得出結論:
名校也沒什么卵用,甚至上大學也沒什么卵用,照樣買不起房,還不如王小二開個煎餅攤子掙得多。
這個推理最大的問題就是控制變量的不可比。
你在對比名校畢業生和開早餐鋪子的王小二時,隱含了一個極為重要的有關控制變量的假設:
除去學歷這個因素,其他條件都是一樣,且不變的。
但很顯然,一個清北畢業生和沒上過大學的王小二,除去學歷的不同,在其他方面,也就是控制變量方面,也存在巨大的差異!
換個思路,不用橫向對比,縱向來看,假設其他條件不變的情況下,一個清北畢業生,沒有清北的學歷,他會過得更好還是更慘?
這樣的比較才是有意義的。
同理,也只有比較具有類似家庭背景,長相水平,努力程度的清北畢業生和一般學校甚至沒上過大學的人,他們誰掙錢多,這樣的比較才是有意義的。
英文當中有個很好的表達叫 Apple to Apple,就是比較對象要要一致??上覀兇蟛糠秩俗龅亩际荘ear to Apple這樣的比較,毫無意義。
再說一遍,我們考察單一變量對結果的影響時,一定要保持控制變量的不變且可比。不然這樣比較得出的結論,毫無意義。
你不能因為天天撩妹的王思聰,比天天工作十六小時的投行民工,錢更多,就據此否認努力工作沒有用。你也不能因為同學有個好爸爸,就否認平民家庭出身的人奮斗沒有意義。
在考察努力這一變量對成功的影響上,你和王思聰的“控制變量相同”的假設并不成立。
反過來,就你自己而言,控制其他變量不變,你不努力和努力的結果差異,一下子就會清晰起來。這才是思考問題的正確方式。
不少反雞湯人士認為,努力沒什么用,家庭出身決定一切,先天條件決定一切,時代大勢決定一切,這些論點,統統都是愚蠢的,也是錯誤的,因為他們忽略了控制變量的因素。
系統思維
統計常識除了以上三點,還有很多。比如假設檢驗,樣本和母體的關系,統計一類和二類錯誤,置信水平等等,文章里沒辦法一一講述。
但我認為,弄清本文的三個基本常識,已經可以幫你避免很多愚蠢的錯誤。這些常識不是相互孤立的,在考察問題的過程當中,常常會同時運用到它們。
比如還是說名校畢業生買房的問題。
首先要問,是不是真的清北畢業生就買不起學區房,這個樣本到底有多大?是不是小樣本偏差,或者幸存者偏差得出的這個結論?
其次我們要想,清北畢業生買不起學區房,是一件多么令人驚訝的事情嗎?當然不是,因為掙錢這個事情,本身并不只和學歷相關,它還和很多其他因素相關。
也因此,名校畢業的同學,也不要總覺得自己有什么了不起,你得清晰地意識到,收入水平和你的教育程度,并非因果關系。意識到這一點,能讓你認清真相,接受現實,并更好得在其他方面去努力。
最后,因為其他方面的因素,比如家庭出身,比如行業影響,即使名校畢業真的也買不起房,你就要因此感到沮喪和否定名校教育帶給你的價值了嗎?當然不應該!
因為控制變量的思想告訴你,其他條件不變的情況下,你讀不讀名校,收入的差異還是非常顯著的。
綜合以上,我們在思考問題時,當盡量避免因為自己的無知,提出一些低級的問題來。
今天小編想和你聊聊的,是學好統計的現實好處。
第一,學會看問題,懂得數字的意義。
例如,新聞報道中經常說某市人均收入為1萬元。每每出現這樣的報道,就有很多網友驚呼自己被平均了。為什么會造成這樣的認知錯覺呢?這是因為新聞報道并沒有告訴我們數據的分布是什么樣的。比方說,可能有20%的人掌握了80%的收入,余下80%的人掌握了總收入的20%,那這80%的人肯定覺得自己被平均了。所以,學過統計的人,當看到這樣的數字的時候,就會多問幾個為什么,就能明白數字背后的真實含義了。
此外,如果你學了統計學的抽樣原理,或許你會進一步質疑,這個人均收入是怎么算出來的。是統計了全市所有人口的收入數據,還是只抽取了一部分人的收入數據。如果是抽取了一部分人,是按照什么原則抽取的?這些都會影響到數據的真實性與可信性。
第二,用數據說話,讓你的說服力要爆表。
當你向領導匯報工作的時候。
新人甲是這么匯報的:
今年我們在華東市場一共投入了100萬元推廣費用。我們做了很多有影響力的活動,產生了良好的品牌效果。用戶對我們的產品非常認可,在使用后很多都成為我們的忠誠的用戶。我們在華東地區的市場占有率進一步提升。我希望明年能加大在這一地區的投入,以便產生更好的市場效果。
新人乙是這么匯報的:
今年我們在華東市場一共投入了100萬元推廣費用。其中,投放廣告50萬,落地活動宣傳30萬,促銷樣品20萬。共帶來3萬新增用戶,提升市場占有率5個百分點,預計在未來一年提升這一地區的銷售額500萬元。
如果你是領導,你會喜歡哪個匯報?
很顯然,大部分人會選擇后者。清晰的數據能傳達清晰的信息。那些非常、很多、進一步寫在公文里或許還可以,但是在市場匯報中,這種詞匯簡直就是一團漿糊。領導早晨在家里已經挨訓了,你就不要給領導添堵啦。
第三,體驗到一種與眾不同的思維方式。
最近朋友圈流行兩只大熊貓的萌對話,其中一只對另一只說,你看看我們,就知道這個世界非黑即白。另外一只大熊貓于是伸出了紅色的舌頭。這個笑話告訴我們,世界并非非黑即白。統計學的思維就是永遠不肯定這個世界到底是什么樣子的。統計學永遠是講概率的,就是可能性。莊子說,一尺之錘,日取其半,而萬世不竭。這就是一種概率思維方式。所以,嗯,我喜歡宋冬野,他唱到:昨天晚上,我差一點就他媽地死了。他到底死沒死啊??赡苄?,是最值得人玩味的。
第四,像佛那樣懂因果,知報應。
統計學常常研究兩個因素之間的關系,叫做因果關系。例如,你的學歷對你收入的影響。統計學家可能會說,學歷每提升一個層次,年收入將提高1.2萬元。所以不要相信讀書無用論,你要相信概率。如果你相信自己能成為比爾蓋茨,那讀書對你確實沒意義,同樣,這只是小概率事件,基本不會發生在你身上。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25