
大數據中一個耳熟能詳的說法是:大數據長于分析相關關系,而非因果關系。但這可能是一個偽命題。如何從相關關系中推斷出因果關系,才是大數據真正問題所在。這個問題,被稱為因果推斷(causal inference),它是蘋果iPhone6的語音識別和谷歌的無人駕馭汽車技術的基礎。這個領域的大牛,美國工程院院士于達?珀爾(Judea Pearl,國內一般譯為朱迪亞?珀爾)因此獲得2011年的圖靈獎。珀爾院士提出概率和因果推理演算法,徹底改變了人工智能最初基于規則和邏輯的方向。
珀爾院士的思想,在圖靈問題的頂層設計高度,改變了我關于大數據的認識。與珀爾院士的深度思想交流事出偶然?!懊绹髱熜小钡呐f金山站安排9月3日下午見珀爾院士。本來只是禮節性的見面,請他簡單介紹一下研究成果。但珀爾院士顯然理解錯了,以為是專業交流,于是準備了64頁的數學講義。當他聽說聽眾竟然來自媒體、法律、經濟等文科背景時,不禁瞠目結舌。他說:“對不起,我不知道你們……”。改講義已來不及了,只好硬著頭皮,對牛談琴。不料,兩小時后,珀爾院士談得興起,早忘了我們是學什么的,奔放的數學思想噴薄而出,圖論、概率論、非線性數學的公式象袋鼠一樣,隔著十幾步十幾步地跳躍,如黃河之水,一發而不可收。時間已到,主辦方反復提示無效,又講了一個多小時。
我身旁的兄弟,被我晃醒,好像還在夢中,幾乎已經坐不正了。我靠一杯一杯的咖啡支撐,勉強聽著。之后,卻意外地聽入了迷,最后聽到如醉如癡。因為我發現珀爾院士講的,正是我在大數據上日思夜想的問題。
近年來,我在介紹大數據時,對相關關系與因果關系這個說法一直心存疑惑。雖然也引進美國大數據理論,如巴拉巴西院士的說法,但這個疑惑并沒有消除。相關關系對應經驗歸納,因果關系對應理性演繹。但難道大數據只有歸納,沒有演繹嗎,或者問,大數據如何才能實現歸納與演繹間的轉化?在這個思維瓶頸上,珀爾院士一下點破了我。
珀爾院士走后,大家面面相覷,互相打聽,這三個半小時,灌的是什么東東。在交流學習體會時,一位數學專業的專家說,他感到珀爾院士是在用一種非線性的方法,解決線性的問題。統計過去不能處理因果關系,只能處理相關關系,珀爾院士的貢獻是把因果關系引入了統計概率分析,把非結構化的東西半結構化了。半途接替口語翻譯進行專業翻譯的查理,是騰訊大數據師,專業研究方向與珀爾同領域。他以“西安的模型能否用于成都”為比喻,從專業角度又向大家解釋了一遍。我被當作文科的代表,在毫無心理準備的情況下,推到臺上交流體會。直到被研究非線性物理出身的查理超贊時,才確認自己聽的、想的,確實是珀爾院士講的,感覺像中了獎一樣。
我一上來就說,圖靈問題的核心是人與自然(機器)關系問題,人工智能就是要實現二者的統一。這個問題對應的今天的主題,是定性(非結構化)與定量,歸納與演繹,感性與理性的關系——相關關系與因果關系——如何統一的問題。用珀爾院士的話說,就是從巴比倫思維到雅典思維的問題(The causal revolution – from associations to counterfactuals – from Babylon to Athens)。大數據發展當前存在的問題是,偏離了圖靈原問題的軌道,變成理性計算的天下,以谷歌的數學算法為代表;而忽視了臉譜的算法(基于人與人associations的感性算法)。后者在統計學中,就是相關關系數據分析。珀爾院士對后者也不滿意,因此才批評說“不要老想數據,先把現實用模型模擬出來”(大意如此),意思是要把非結構化的定性問題結構化。
查理此前曾說珀爾院士提出的是休謨的問題。我說,珀爾院士提出和解決問題的思路讓我想起康德,我覺得他今天講的內容,就是《純粹理性批判》的數學版,而方法上的思路讓我聯想到牛頓與萊布尼茨。我回國后查閱專業資料時,發現有人這么評價珀爾院士的問題意識:“有人提到了哲學(史)上的休謨問題(我的轉述):人類是否能從有限的經驗中得到因果律?這的確是一個問題,這個問題最后促使德國哲學家康德為調和英國經驗派(休謨)和大陸理性派(萊布尼茲-沃爾夫)而寫了巨著《純粹理性批判》?!笨磥硭娐酝?。
康德《純粹理性批判》的原問題,是經驗與理性之間的關系,相當于大數據中相關關系與因果關系之間的關系。我說,康德當年解同樣問題的思路,象極了珀爾院士??档略O置了一個叫“圖式”的概念,作為溝通經驗與理性的中間框架(FRAME)?!皥D式”的特征是,兼具經驗的具體性與理性的普遍性,但既不同于經驗,也不等于理性。珀爾院士的“圖式”就是因果圖 (Causal Diagram),是他的結構化理論。這個結構不是完全理性的,而是可以靈活調整的。我說,珀爾院士的結構與康德的圖式唯一不同在于,前者設置了可替換的部件模塊,用于根據情況臨時調整,因此不是機械的結構,而是活的、松耦合的結構(例如,就象查理講的,西安的“普遍真理”模型,只要更換一些適應成都“具體實踐”的子模塊,就可以用于成都)。
在方法上,珀爾院士以柏拉圖著名的洞穴寓言,說明因果(真相)、結構(人)與相關(影子)之間的映射關系。我說,這更象牛頓和萊布尼茨的方法論:以理性為極限值,以經驗為數列,中間設一個結構化的函數(相當于洞穴中的人)。經驗(相關)可以無限接近理性(因果),永遠達不到因果(極限值),但可以視為等于因果。珀爾院士的獨特之處,只不過是把這個“函數”(圖式),泛函化了,實現了從結構化向非結構化、從線性到非線性的轉化。為此,在結構模型上,進行大量復雜的數學展開,成為他理論的重點。他的模型被稱為“圖模型”或者“貝葉斯網絡”(Bayesian network),用來描述變量聯合分布或者數據生成機制。好在聽眾睡覺時,他講的都是這一部分具體內容。關于他的因果結構理論,我聽課時私底下議論說,這個用流形上的微積分(Calculus on Manifolds),所謂“橡皮膜上的拓撲幾何學”也做得出來。
當前,人們討論大數據,有一個不好的傾向,在結構化還沒有打好基礎情況下,片面追求所謂非結構化數據。這樣就陷入珀爾院士批評的“老想數據”的狀態,相當于解微分的時候,不列函數,就想直接從數列中求極值一樣。在中國,這種情況尤為嚴重。這會把大數據搞成脫離表義基礎的禪宗。在商業上,不排除實用主義地利用大數據,找到賣貨上的皮毛聯系,但更適合小攤小販,畢竟不知其所以然,就做不大,做不長。
不過這也不奇怪,整個統計學和概率論,目前還停留在這個水平上,大多是關于“相關關系”的理論,而關于“因果關系”的理論非常稀少。Karl Pearson 就明確反對用統計研究因果關系。困擾統計的根本問題(辛普森悖論,Yule-Simpson’s Paradox),也同樣是困擾大數據的根本問題。
泛而言之,在整個邏輯學中,歸納論只能表示事物之間的相關關系,還無法指出真正的因果關系。這是有人類以來的難題。巴比倫人在畢達哥拉斯之前一千年已掌握了勾股定理的應用,也早就開始了天文觀察;但雅典人卻從經驗中提煉出了天文學的思辨理論。我們現在在還只是大數據上的巴比倫人。
話說回來,因果推斷過猶不及。如果把相關關系完全結構化了,也有問題,那就會排斥人類自由意志的空間。玻爾院士似乎還沒有想過其中的哥德爾悖論問題。正如段永朝評論玻爾院士的那樣:“不可知與可知,一定是你中有我,我中有你。他們想解決這個問題。確定性、不確定攪成一團。一時來看,方法上實現了;但根本上來說,科學觀要升級?!?/span>
想一想珀爾院士也真不容易,畢業于人稱的“野雞”大學,超前人類幾十年為大數據奠基,卻少有人聽懂他。他兒子Daniel Pearl是華爾街日報的駐外記者,9-11后在巴基斯坦被恐怖組織抓住,幾天后斬首碎尸。珀爾院士沒回答提問就走了,說要陪夫人。因為就在上午傳來消息,第二位美國記者象他兒子一樣被恐怖組織斬首,他夫人一定會再次想起兒子。(文章來源:CDA數據分析師)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25