熱線電話:13121318867

登錄
首頁職業發展因果推斷與大數據_數據分析師
因果推斷與大數據_數據分析師
2014-11-17
收藏

因果推斷與大數據_數據分析師

數據中一個耳熟能詳的說法是:大數據長于分析相關關系,而非因果關系。但這可能是一個偽命題。如何從相關關系中推斷出因果關系,才是大數據真正問題所在。這個問題,被稱為因果推斷(causal inference),它是蘋果iPhone6的語音識別和谷歌的無人駕馭汽車技術的基礎。這個領域的大牛,美國工程院院士于達?珀爾(Judea Pearl,國內一般譯為朱迪亞?珀爾)因此獲得2011年的圖靈獎。珀爾院士提出概率和因果推理演算法,徹底改變了人工智能最初基于規則和邏輯的方向。


珀爾院士的思想,在圖靈問題的頂層設計高度,改變了我關于大數據的認識。與珀爾院士的深度思想交流事出偶然?!懊绹髱熜小钡呐f金山站安排9月3日下午見珀爾院士。本來只是禮節性的見面,請他簡單介紹一下研究成果。但珀爾院士顯然理解錯了,以為是專業交流,于是準備了64頁的數學講義。當他聽說聽眾竟然來自媒體、法律、經濟等文科背景時,不禁瞠目結舌。他說:“對不起,我不知道你們……”。改講義已來不及了,只好硬著頭皮,對牛談琴。不料,兩小時后,珀爾院士談得興起,早忘了我們是學什么的,奔放的數學思想噴薄而出,圖論、概率論、非線性數學的公式象袋鼠一樣,隔著十幾步十幾步地跳躍,如黃河之水,一發而不可收。時間已到,主辦方反復提示無效,又講了一個多小時。


我身旁的兄弟,被我晃醒,好像還在夢中,幾乎已經坐不正了。我靠一杯一杯的咖啡支撐,勉強聽著。之后,卻意外地聽入了迷,最后聽到如醉如癡。因為我發現珀爾院士講的,正是我在大數據上日思夜想的問題。


近年來,我在介紹大數據時,對相關關系與因果關系這個說法一直心存疑惑。雖然也引進美國大數據理論,如巴拉巴西院士的說法,但這個疑惑并沒有消除。相關關系對應經驗歸納,因果關系對應理性演繹。但難道大數據只有歸納,沒有演繹嗎,或者問,大數據如何才能實現歸納與演繹間的轉化?在這個思維瓶頸上,珀爾院士一下點破了我。


珀爾院士走后,大家面面相覷,互相打聽,這三個半小時,灌的是什么東東。在交流學習體會時,一位數學專業的專家說,他感到珀爾院士是在用一種非線性的方法,解決線性的問題。統計過去不能處理因果關系,只能處理相關關系,珀爾院士的貢獻是把因果關系引入了統計概率分析,把非結構化的東西半結構化了。半途接替口語翻譯進行專業翻譯的查理,是騰訊大數據師,專業研究方向與珀爾同領域。他以“西安的模型能否用于成都”為比喻,從專業角度又向大家解釋了一遍。我被當作文科的代表,在毫無心理準備的情況下,推到臺上交流體會。直到被研究非線性物理出身的查理超贊時,才確認自己聽的、想的,確實是珀爾院士講的,感覺像中了獎一樣。


我一上來就說,圖靈問題的核心是人與自然(機器)關系問題,人工智能就是要實現二者的統一。這個問題對應的今天的主題,是定性(非結構化)與定量,歸納與演繹,感性與理性的關系——相關關系與因果關系——如何統一的問題。用珀爾院士的話說,就是從巴比倫思維到雅典思維的問題(The causal revolution – from associations to counterfactuals – from Babylon to Athens)。大數據發展當前存在的問題是,偏離了圖靈原問題的軌道,變成理性計算的天下,以谷歌的數學算法為代表;而忽視了臉譜的算法(基于人與人associations的感性算法)。后者在統計學中,就是相關關系數據分析。珀爾院士對后者也不滿意,因此才批評說“不要老想數據,先把現實用模型模擬出來”(大意如此),意思是要把非結構化的定性問題結構化。


查理此前曾說珀爾院士提出的是休謨的問題。我說,珀爾院士提出和解決問題的思路讓我想起康德,我覺得他今天講的內容,就是《純粹理性批判》的數學版,而方法上的思路讓我聯想到牛頓與萊布尼茨。我回國后查閱專業資料時,發現有人這么評價珀爾院士的問題意識:“有人提到了哲學(史)上的休謨問題(我的轉述):人類是否能從有限的經驗中得到因果律?這的確是一個問題,這個問題最后促使德國哲學家康德為調和英國經驗派(休謨)和大陸理性派(萊布尼茲-沃爾夫)而寫了巨著《純粹理性批判》?!笨磥硭娐酝?。


康德《純粹理性批判》的原問題,是經驗與理性之間的關系,相當于大數據中相關關系與因果關系之間的關系。我說,康德當年解同樣問題的思路,象極了珀爾院士??档略O置了一個叫“圖式”的概念,作為溝通經驗與理性的中間框架(FRAME)?!皥D式”的特征是,兼具經驗的具體性與理性的普遍性,但既不同于經驗,也不等于理性。珀爾院士的“圖式”就是因果圖 (Causal Diagram),是他的結構化理論。這個結構不是完全理性的,而是可以靈活調整的。我說,珀爾院士的結構與康德的圖式唯一不同在于,前者設置了可替換的部件模塊,用于根據情況臨時調整,因此不是機械的結構,而是活的、松耦合的結構(例如,就象查理講的,西安的“普遍真理”模型,只要更換一些適應成都“具體實踐”的子模塊,就可以用于成都)。


在方法上,珀爾院士以柏拉圖著名的洞穴寓言,說明因果(真相)、結構(人)與相關(影子)之間的映射關系。我說,這更象牛頓和萊布尼茨的方法論:以理性為極限值,以經驗為數列,中間設一個結構化的函數(相當于洞穴中的人)。經驗(相關)可以無限接近理性(因果),永遠達不到因果(極限值),但可以視為等于因果。珀爾院士的獨特之處,只不過是把這個“函數”(圖式),泛函化了,實現了從結構化向非結構化、從線性到非線性的轉化。為此,在結構模型上,進行大量復雜的數學展開,成為他理論的重點。他的模型被稱為“圖模型”或者“貝葉斯網絡”(Bayesian network),用來描述變量聯合分布或者數據生成機制。好在聽眾睡覺時,他講的都是這一部分具體內容。關于他的因果結構理論,我聽課時私底下議論說,這個用流形上的微積分(Calculus on Manifolds),所謂“橡皮膜上的拓撲幾何學”也做得出來。


當前,人們討論大數據,有一個不好的傾向,在結構化還沒有打好基礎情況下,片面追求所謂非結構化數據。這樣就陷入珀爾院士批評的“老想數據”的狀態,相當于解微分的時候,不列函數,就想直接從數列中求極值一樣。在中國,這種情況尤為嚴重。這會把大數據搞成脫離表義基礎的禪宗。在商業上,不排除實用主義地利用大數據,找到賣貨上的皮毛聯系,但更適合小攤小販,畢竟不知其所以然,就做不大,做不長。


不過這也不奇怪,整個統計學和概率論,目前還停留在這個水平上,大多是關于“相關關系”的理論,而關于“因果關系”的理論非常稀少。Karl Pearson 就明確反對用統計研究因果關系。困擾統計的根本問題(辛普森悖論,Yule-Simpson’s Paradox),也同樣是困擾大數據的根本問題。


泛而言之,在整個邏輯學中,歸納論只能表示事物之間的相關關系,還無法指出真正的因果關系。這是有人類以來的難題。巴比倫人在畢達哥拉斯之前一千年已掌握了勾股定理的應用,也早就開始了天文觀察;但雅典人卻從經驗中提煉出了天文學的思辨理論。我們現在在還只是大數據上的巴比倫人。


話說回來,因果推斷過猶不及。如果把相關關系完全結構化了,也有問題,那就會排斥人類自由意志的空間。玻爾院士似乎還沒有想過其中的哥德爾悖論問題。正如段永朝評論玻爾院士的那樣:“不可知與可知,一定是你中有我,我中有你。他們想解決這個問題。確定性、不確定攪成一團。一時來看,方法上實現了;但根本上來說,科學觀要升級?!?/span>


想一想珀爾院士也真不容易,畢業于人稱的“野雞”大學,超前人類幾十年為大數據奠基,卻少有人聽懂他。他兒子Daniel Pearl是華爾街日報的駐外記者,9-11后在巴基斯坦被恐怖組織抓住,幾天后斬首碎尸。珀爾院士沒回答提問就走了,說要陪夫人。因為就在上午傳來消息,第二位美國記者象他兒子一樣被恐怖組織斬首,他夫人一定會再次想起兒子。(文章來源:CDA數據分析師

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢