熱線電話：13121318867

登錄

首頁職業發展因果推斷與大數據_數據分析師

因果推斷與大數據_數據分析師

2014-11-17

收藏

因果推斷與大數據_數據分析師

大數據中一個耳熟能詳的說法是：大數據長于分析相關關系，而非因果關系。但這可能是一個偽命題。如何從相關關系中推斷出因果關系，才是大數據真正問題所在。這個問題，被稱為因果推斷（causal inference），它是蘋果iPhone6的語音識別和谷歌的無人駕馭汽車技術的基礎。這個領域的大牛，美國工程院院士于達?珀爾（Judea Pearl，國內一般譯為朱迪亞?珀爾）因此獲得2011年的圖靈獎。珀爾院士提出概率和因果推理演算法，徹底改變了人工智能最初基于規則和邏輯的方向。

珀爾院士的思想，在圖靈問題的頂層設計高度，改變了我關于大數據的認識。與珀爾院士的深度思想交流事出偶然?！懊绹髱熜小钡呐f金山站安排9月3日下午見珀爾院士。本來只是禮節性的見面，請他簡單介紹一下研究成果。但珀爾院士顯然理解錯了，以為是專業交流，于是準備了64頁的數學講義。當他聽說聽眾竟然來自媒體、法律、經濟等文科背景時，不禁瞠目結舌。他說：“對不起，我不知道你們……”。改講義已來不及了，只好硬著頭皮，對牛談琴。不料，兩小時后，珀爾院士談得興起，早忘了我們是學什么的，奔放的數學思想噴薄而出，圖論、概率論、非線性數學的公式象袋鼠一樣，隔著十幾步十幾步地跳躍，如黃河之水，一發而不可收。時間已到，主辦方反復提示無效，又講了一個多小時。

我身旁的兄弟，被我晃醒，好像還在夢中，幾乎已經坐不正了。我靠一杯一杯的咖啡支撐，勉強聽著。之后，卻意外地聽入了迷，最后聽到如醉如癡。因為我發現珀爾院士講的，正是我在大數據上日思夜想的問題。

近年來，我在介紹大數據時，對相關關系與因果關系這個說法一直心存疑惑。雖然也引進美國大數據理論，如巴拉巴西院士的說法，但這個疑惑并沒有消除。相關關系對應經驗歸納，因果關系對應理性演繹。但難道大數據只有歸納，沒有演繹嗎，或者問，大數據如何才能實現歸納與演繹間的轉化？在這個思維瓶頸上，珀爾院士一下點破了我。

珀爾院士走后，大家面面相覷，互相打聽，這三個半小時，灌的是什么東東。在交流學習體會時，一位數學專業的專家說，他感到珀爾院士是在用一種非線性的方法，解決線性的問題。統計過去不能處理因果關系，只能處理相關關系，珀爾院士的貢獻是把因果關系引入了統計概率分析，把非結構化的東西半結構化了。半途接替口語翻譯進行專業翻譯的查理，是騰訊大數據師，專業研究方向與珀爾同領域。他以“西安的模型能否用于成都”為比喻，從專業角度又向大家解釋了一遍。我被當作文科的代表，在毫無心理準備的情況下，推到臺上交流體會。直到被研究非線性物理出身的查理超贊時，才確認自己聽的、想的，確實是珀爾院士講的，感覺像中了獎一樣。

我一上來就說，圖靈問題的核心是人與自然（機器）關系問題，人工智能就是要實現二者的統一。這個問題對應的今天的主題，是定性（非結構化）與定量，歸納與演繹，感性與理性的關系——相關關系與因果關系——如何統一的問題。用珀爾院士的話說，就是從巴比倫思維到雅典思維的問題（The causal revolution – from associations to counterfactuals – from Babylon to Athens）。大數據發展當前存在的問題是，偏離了圖靈原問題的軌道，變成理性計算的天下，以谷歌的數學算法為代表；而忽視了臉譜的算法（基于人與人associations的感性算法）。后者在統計學中，就是相關關系數據分析。珀爾院士對后者也不滿意，因此才批評說“不要老想數據，先把現實用模型模擬出來”（大意如此），意思是要把非結構化的定性問題結構化。

查理此前曾說珀爾院士提出的是休謨的問題。我說，珀爾院士提出和解決問題的思路讓我想起康德，我覺得他今天講的內容，就是《純粹理性批判》的數學版，而方法上的思路讓我聯想到牛頓與萊布尼茨。我回國后查閱專業資料時，發現有人這么評價珀爾院士的問題意識：“有人提到了哲學（史）上的休謨問題（我的轉述）：人類是否能從有限的經驗中得到因果律？這的確是一個問題，這個問題最后促使德國哲學家康德為調和英國經驗派（休謨）和大陸理性派（萊布尼茲-沃爾夫）而寫了巨著《純粹理性批判》?！笨磥硭娐酝?。

康德《純粹理性批判》的原問題，是經驗與理性之間的關系，相當于大數據中相關關系與因果關系之間的關系。我說，康德當年解同樣問題的思路，象極了珀爾院士?？档略O置了一個叫“圖式”的概念，作為溝通經驗與理性的中間框架（FRAME）?！皥D式”的特征是，兼具經驗的具體性與理性的普遍性，但既不同于經驗，也不等于理性。珀爾院士的“圖式”就是因果圖 (Causal Diagram)，是他的結構化理論。這個結構不是完全理性的，而是可以靈活調整的。我說，珀爾院士的結構與康德的圖式唯一不同在于，前者設置了可替換的部件模塊，用于根據情況臨時調整，因此不是機械的結構，而是活的、松耦合的結構（例如，就象查理講的，西安的“普遍真理”模型，只要更換一些適應成都“具體實踐”的子模塊，就可以用于成都）。

在方法上，珀爾院士以柏拉圖著名的洞穴寓言，說明因果（真相）、結構（人）與相關（影子）之間的映射關系。我說，這更象牛頓和萊布尼茨的方法論：以理性為極限值，以經驗為數列，中間設一個結構化的函數（相當于洞穴中的人）。經驗（相關）可以無限接近理性（因果），永遠達不到因果（極限值），但可以視為等于因果。珀爾院士的獨特之處，只不過是把這個“函數”（圖式），泛函化了，實現了從結構化向非結構化、從線性到非線性的轉化。為此，在結構模型上，進行大量復雜的數學展開，成為他理論的重點。他的模型被稱為“圖模型”或者“貝葉斯網絡”（Bayesian network），用來描述變量聯合分布或者數據生成機制。好在聽眾睡覺時，他講的都是這一部分具體內容。關于他的因果結構理論，我聽課時私底下議論說，這個用流形上的微積分（Calculus on Manifolds），所謂“橡皮膜上的拓撲幾何學”也做得出來。

當前，人們討論大數據，有一個不好的傾向，在結構化還沒有打好基礎情況下，片面追求所謂非結構化數據。這樣就陷入珀爾院士批評的“老想數據”的狀態，相當于解微分的時候，不列函數，就想直接從數列中求極值一樣。在中國，這種情況尤為嚴重。這會把大數據搞成脫離表義基礎的禪宗。在商業上，不排除實用主義地利用大數據，找到賣貨上的皮毛聯系，但更適合小攤小販，畢竟不知其所以然，就做不大，做不長。

不過這也不奇怪，整個統計學和概率論，目前還停留在這個水平上，大多是關于“相關關系”的理論，而關于“因果關系”的理論非常稀少。Karl Pearson 就明確反對用統計研究因果關系。困擾統計的根本問題（辛普森悖論，Yule-Simpson’s Paradox），也同樣是困擾大數據的根本問題。

泛而言之，在整個邏輯學中，歸納論只能表示事物之間的相關關系，還無法指出真正的因果關系。這是有人類以來的難題。巴比倫人在畢達哥拉斯之前一千年已掌握了勾股定理的應用，也早就開始了天文觀察；但雅典人卻從經驗中提煉出了天文學的思辨理論。我們現在在還只是大數據上的巴比倫人。

話說回來，因果推斷過猶不及。如果把相關關系完全結構化了，也有問題，那就會排斥人類自由意志的空間。玻爾院士似乎還沒有想過其中的哥德爾悖論問題。正如段永朝評論玻爾院士的那樣：“不可知與可知，一定是你中有我，我中有你。他們想解決這個問題。確定性、不確定攪成一團。一時來看，方法上實現了；但根本上來說，科學觀要升級?！?/span>

想一想珀爾院士也真不容易，畢業于人稱的“野雞”大學，超前人類幾十年為大數據奠基，卻少有人聽懂他。他兒子Daniel Pearl是華爾街日報的駐外記者，9-11后在巴基斯坦被恐怖組織抓住，幾天后斬首碎尸。珀爾院士沒回答提問就走了，說要陪夫人。因為就在上午傳來消息，第二位美國記者象他兒子一樣被恐怖組織斬首，他夫人一定會再次想起兒子。（文章來源：CDA數據分析師）

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

大數據數據分析人工智能特征圖論

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇大數據應用的五個典型應用場景-數據分析師

下一篇數據可視分析中的知識產生模型_數據分析師

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊