數據挖掘中所需的概率論與數理統計知識(四)
從數理統計簡史中看正態分布的歷史由來
本節將結合數理統計學簡史一書,從早期概率論的發展、棣莫弗的二項概率逼近講到貝葉斯方法、最小二乘法、誤差與正態分布等問題,有詳有略,其中,重點闡述正態分布的歷史由來。
相信,你我可以想象得到,我們現在眼前所看到的正態分布曲線雖然看上去很美,但數學史上任何一個定理的發明幾乎都不可能一蹴而就,很多往往經歷了幾代人的持續努力。因為在科研上諸多觀念的革新和突破是有著很多的不易的,或許某個定理在某個時期由某個人點破了,現在的我們看來一切都是理所當然,但在一切沒有發現之前,可能許許多多的頂級學者畢其功于一役,耗盡一生,努力了幾十年最終也是無功而返。
如上文前三節所見,現在概率論與數理統計的教材上,一上來介紹正態分布,然后便給出其概率密度分布函數,卻從來沒有說明這個分布函數是通過什么原理推導出來的。如此,可能會導致你我在內的很多人一直搞不明白數學家當年是怎么找到這個概率分布曲線的,又是怎么發現隨機誤差服從這個奇妙的分布的。我們在實踐中大量的使用正態分布,卻對這個分布的來龍去脈知之甚少。
本文接下來的第四節將結合陳希儒院士的《數理統計學簡史》及“正態分布的前世今生”為你揭開正態分布的神秘面紗。
上文中已經給出了正態分布的相關定義,咱們先再來回顧下。如下兩圖所示(來源:大嘴巴漫談數據挖掘):
相信,經過上文諸多繁雜公式的轟炸,讀者或有些許不耐其煩,咱們接下來講點有趣的內容:歷史。下面,咱們來結合數理統計簡史一書,即正態分布的前世今生系列,從古至今論述正態分布的歷史由來。
4.2、早期概率論:從萌芽到推測術
4.2.1、惠更新的三個關于期望的定理
(一)惠更新的論賭博的計算
所謂概率,即指一個事件發生,一種情況出現的可能性大小的數量指標,介于0和1之間,這個概念最初形成于16世紀,說來可能令你意想不到,凡事無絕對,早期很多概率論中的探討卻與擲骰子等當今看來是違法犯罪的賭博活動有著不可分割的聯系,可以說,這些賭博活動反而推動了概率論的早期發展。
歷史是紛繁多雜的,咱們從惠更斯的機遇的規律一書入手,此人指導過微積分的奠基者之一的萊布尼茲學習數學,與牛頓等人也有交往,終生未婚。如諸多歷史上有名的人物一般,他們之所以被后世的人們記住,是因為他們在某一個領域的杰出貢獻,這個貢獻可能是提出了某一個定理或者公式,換句話來說,就是現今人們口中所說的代表作,一個意思。
而惠更新為當代人們所熟知的應該是他在《擺式時鐘或用于時鐘上的擺的運動的幾何證明》、《擺鐘》等論文中提出了物理學史上鐘擺擺動周期的公式:FJZN_(L_BOIT1.tmp)
。
(二)創立數學期望
與此同時,惠更斯1657年發表了《論賭博中的計算》,被認為是概率論誕生的標志。同時對二次曲線、復雜曲線、懸鏈線、曳物線、對數螺線等平面曲線都有所研究。
《論賭博中的計算》中,惠更斯先從關于公平賭博值的一條公理出發,推導出有關數學期望的三個基本定理,如下述內容所示:
-
公理:每個公平博弈的參與者愿意拿出經過計算的公平賭注冒險而不愿拿出更多的數量。即賭徒愿意押的賭注不大于其獲得賭金的數學期望數。
對這一公理至今仍有爭議。所謂公平賭注的數額并不清楚,它受許多因素的影響。但惠更斯由此所得關于數學期望的3 個命題具有重要意義。這是數學期望第一次被提出,由于當時概率的概念還不明確,后被拉普拉斯( Laplace ,1749 —1827) 用數學期望來定義古典概率。在概率論的現代表述中,概率是基本概念,數學期望則是二級概念,但在歷史發展過程中卻順序相反。
關于數學期望的三個命題為:
-
命題1 若某人在賭博中以等概率1/2獲得賭金a元、b元,則其數學期望值為:a*1/2+b*1/2,即為( a + b)/2;
-
命題2 若某人在賭博中以等概率1/3獲得賭金a 、b 元和c元 ,則其數學期望值為( a + b + c)/3元;
-
命題3 若某人在賭博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 獲得賭金a元、b元 ,則獲得賭金的數學期望值為p*a + q*b 元。
這些今天看來都可作為數學期望定義,不準確的說,數學期望來源于取平均值。同時,根據上述惠更斯的3個命題不難證明:若某人在賭博中分別以概率p1...,pk(p1+..+pk=1)分別贏得a1,..ak元,那么其期望為p1*a1+...+pk*ak,這與本文第一節中關于離散型隨機變量的期望的定義完全一致(各值與各值概率乘積之和)。
但惠更新關于概率論的討論局限于賭博中,而把概率論由局限于對賭博機遇的討論擴展出去的則得益于伯努利,他在惠更新的論賭博中的計算一書出版的56年,即1733年出版了劃時代的著作:推測術。伯努利在此書中,不僅對惠更斯的關于擲骰子等賭博活動中出現的額各種情況的概率進行了計算,而且還提出了著名的“大數定律”,這個定律在歷史上甚至到今天,影響深遠,后續諸多的統計方法和理論都是建立在大數定律的基礎上。
(三) 伯努利的大數定律及其如何而來
同樣,咱們在讀中學的時候,之所以記住了伯努利這個人,恐怕是因為物理課上,老師所講的伯努利方程
C,(C為常量)。我當時的物理老師叫劉新見,記得他在講伯努利方程的時候,曾開玩笑說,“’伯努利‘好記好記,‘白努力‘嘛”。
定理表明事件發生的頻率依概率收斂于事件的概率。定理以嚴格的數學形式表達了頻率的穩定性。就是說當n很大時,事件發生的頻率于概率有較大偏差的可能性很小。
這個定理如何而來的呢?
咱們來看一個簡單的袋中抽球的模型,袋中有a個白球,b個黑球,則從袋中取出白球的概率為p=a/(a+b),有放回的充袋中抽球N次(每次抽取時保證袋中a+b個球的每一個都有同等機會被抽出),記得抽到的白球的次數為X,然后以X/N 這個值去估計p,這個估計方法至今仍是數理統計學中最基本的方法之一。
伯努利試圖證明的是:用X/N 估計p 可以達到事實上的確定性,即:任意給定兩個數ε>0和η>0,取足夠大的抽取次數N,使得事件
的概率不超過η,這意思是
,表面估計誤差未達到制定的接近程度η。
換句話說,我們需要證明的是當N充分無限大時,X/N 無限逼近于p,用公式表達即為:
(N趨于無窮大)
盡管現在我們看來,上述這個結論毫無疑問是理所當然的,但直到1909年才有波萊爾證明。此外,此伯努利大數定律是我們今天所熟知的契比雪夫不等式的簡單推論,但須注意的是在伯努利那個時代,并無“方差”這個概念,更不用說從這個不等式而推論出伯努利大數定律了。
此外,常用的大數定律除了伯努利大數定律之外,還有辛欽大數定律、柯爾莫哥洛夫強大數定律和重對數定律等定律。這里稍微提下辛欽大數定律,如下圖所示。
在1733年,棣莫弗發展了用正態分布逼近二項分布的方法,這對于當時而言,是一實質性的深遠改進。
4.3、棣莫弗的二項概率逼近
同上文中的惠更新,伯努利一樣,人們熟悉棣莫弗,想必是因為著名的棣莫弗公式,如下:
據數理統計學簡史一書上的說明,棣莫弗之所以投身到二項概率的研究,非因伯努利之故,而又是賭博問題(賭博貢獻很大丫哈)。有一天一個哥們,也許是個賭徒,向棣莫弗提了一個和賭博相關的一個問題:A,B兩人在賭場里賭博,A,B各自的獲勝概率是p和q=1?p,賭n局,若A贏的局數X>np,則A付給賭場X?np元,否則B付給賭場np?X元。問賭場掙錢的期望值是多少?按定義可知,此期望值為:
上式的b(N,平,i)為二項概率,棣莫弗最終在Np為整數的條件下得到:
當m=N/2時,N趨于無窮,
也就是說上述問題的本質上是上文第一節中所講的一個二項分布。雖然從上述公式可以集結此問題,但在N很大時,
計算不易,故棣莫弗想找到一個更方便于計算的近似公式。
棣莫弗后來雖然做了一些計算并得到了一些近似結果,但是還不夠,隨后有人講棣莫弗的研究工作告訴給了斯特林,于是,便直接催生了在數學分析中必學的一個重要公式斯特林公式(斯特林公式最初發表于1730年,而后棣莫弗改進了斯特林公式):
(其中,m= N/2)
1733年,棣莫弗有了一個決定性意義的舉動,他證明了當N趨于去窮時,有下列式子成立:
不要小瞧了這個公式。當它與上面給出的這個公式
結合后,便有了:
根據上面式子,近似地以定積分代替和,得到下式:
不知道,當讀者讀到這里的時候,是否從上式看出了些許端倪,此式可隱藏了一個我們習以為常卻極其重要的概念。OK,或許其形式不夠明朗,借用rickjin的式子轉化下:
沒錯,正態分布的概率密度(函數)在上述的積分公式中出現了!于此,我們得到了一個結論,原來二項分布的極限分布便是正態分布。與此同時,還引出了統計學史上占據重要地位的中心極限定理。
「棣莫弗-拉普拉斯定理」:設隨機變量Xn(n=1,2...)服從參數為p的二項分布,則對任意的x,恒有下式成立:
我們便稱此定理為中心極限定理。而且還透露著一個極為重要的信息:1730年,棣莫弗用二項分布逼近竟然得到了正太密度函數,并首次提出了中心極限定理。
還沒完,隨后,在1744年,拉普拉斯證明了:
最終,1780年,拉普拉斯建立了中心極限定理的一般形式(也就是上文3.2節中所講的中心極限定理的一般形式):
「Lindeberg-Levy中心極限定理」設X1,?,Xn獨立同分布,且具有有限的均值μ和方差σ2,則在n→∞時,有
棣莫弗的工作對數理統計學有著很大的影響,棣莫弗40年之后,拉普拉斯建立中心極限定理的一般形式,20世紀30年代最終完成獨立和中心極限定理最一般的形式,在中心極限定理的基礎之上,統計學家們發現當樣本量趨于無窮時,一系列重要統計量的極限分布如二項分布,都有正態分布的形式,也就是說,這也構成了數理統計學中大樣本方法的基礎。
此外,從上面的棣莫弗-拉普拉斯定理,你或許還沒有看出什么蹊蹺。但我們可以這樣理解:若取c充分大,則對足夠大的N,事件
|的概率可任意接近于1,由于
,故對于任意給定的ε>0, 有下式成立:
而這就是上文中所講的伯努利大數定律(注:上面討論的是對稱情況,即p=1/2的情況)。
我之所以不厭其煩的要論述這個棣莫弗的二項概率逼近的相關過程,是想說明一點:各個定理.公式彼此之前是有著緊密聯系的,要善于發現其中的各種聯系。
同時,還有一個問題,相信讀者已經意識到了,如本文第一節內容所述,咱們的概率論與數理統計教材講正態分布的時候,一上來便給出正態分布的概率密度(函數),然后告訴我們說,符合這個概率密度(函數)的稱為正態分布,緊接著闡述和證明相關性質,最后說了一句:”在自然現象和社會現象中,大量隨機變量都服從或近似服從正態分布,如人的身高,某零件長度的誤差,海洋波浪的高度“,然后呢?然后什么也沒說了。連正態分布中最基本的兩個參數為
、和
的的意義都不告訴我們(位置參數
即為數學期望,尺度參數為
即為方差,換句話說,有了期望
和方差
,即可確定正態分布)。
隨后,教材上便開始講數學期望,方差等概念,最后才講到中心極限定理?;蛟S在讀者閱讀本文之后,這些定理的先后發明順序才得以知曉。殊不知:正態分布的概率密度(函數)形式首次發現于棣莫弗-拉普拉斯中心極限定理中,即先有中心極限定理,而后才有正態分布(通過閱讀下文4.6節你將知道,高斯引入正太誤差理論,才成就了正態分布,反過來,拉普拉斯在高斯的工作之上用中心極限定理論證了正態分布)。如rickjin所言:’‘學家研究數學問題的進程很少是按照我們數學課本的安排順序推進的,現代的數學課本都是按照數學內在的邏輯進行組織編排的,雖然邏輯結構上嚴謹優美,卻把數學問題研究的歷史痕跡抹得一干二凈。DNA雙螺旋結構的發現者之一James Waston在他的名著《DNA雙螺旋》序言中說:‘科學的發現很少會像門外漢所想象的一樣,按照直接了當合乎邏輯的方式進行的?!?’‘
4.4、貝葉斯方法
前面,介紹了惠更斯、伯努利和棣莫弗等人的重大成果,無疑在這些重要發明中,二項分布都占據著舉重輕重的地位。這在早期的概率統計史當中,也是唯一一個研究程度很深的分布。但除了伯努利的大數定律及棣莫弗的二項逼近的研究成果外,在18世紀中葉,為了解決二項分布概率的估計問題,出現了一個影響極為廣泛的貝葉斯方法,貝葉斯方法經過長足的發展,如今已經成為數理統計學中的兩個主要學派之一:貝葉斯學派,牢牢占據數理統計學領域的半壁江山。
據數理統計學簡史一書,托馬斯.貝葉斯,此人在18世紀上半葉的歐洲學術界,并不算得上很知名,在提出貝葉斯定理之前,也未發表過片紙只字的科學論著,套用當今的話來說,他便是活生生一個民間學術屌絲。
未發表過任何科學著作,但一個人如果熱愛研究,喜好學術的話,必找人交流。于此,諸多重大發明定理都出現在學者之間的一些書信交流中。奇怪的是,貝葉斯這方面的書信材料也不多?;蛟S讀者讀到此處,已知我意,會說這一切在他提出貝葉斯定理之后有了改變,但讀者朋友只猜對了一半。
貝葉斯的確發表了一篇題為An essay towards solving a problem in the doctrine of chances(機遇理論中一個問題的解)的遺作,此文在他發表后很長一段時間起,在學術界沒有引起什么反響,直到20世紀以來,突然受到人們的重視,此文也因此成為貝葉斯學派最初的奠基石(又一個梵高式的人物)。
有人說貝葉斯發表此文的動機是為了解決伯努利和棣莫弗未能解決的二項分布概率P的“逆概率”問題。所謂逆概率,顧名思義,就是求概率問題的逆問題:已知時間的概率為P,可由之計算某種觀察結果的概率如何;反過來,給定了觀察結果,問由之可以對概率P作何推斷。也就是說,正概率是由原因推結果,稱之為概率論;而逆概率是結果推原因,稱之為數理統計。
由于本文中,重點不在貝葉斯定理,而本文第一節之2.1小節已對其做簡要介紹,再者,此文從決策樹學習談到貝葉斯分類算法、EM、HMM第二部分也詳細介紹過了貝葉斯方法,故為本文篇幅所限,不再做過多描述。
4.5、最小二乘法,數據分析的瑞士軍刀
事實上,在成百上千的各式各樣的攻擊方法中,取算術平均恐怕是最廣為人知使用也最為廣泛的方法,因為可能一個小學生都知道使用算術平均來計算自己每天平均花了多少零花錢而以此作為向爸媽討要零花錢的依據。而我們大多數成年人也經常把“平均說來”掛在嘴邊。故此節要講的最小二乘法其實并不高深,它的本質思想即是來源于此算術平均的方法。
不太精確的說,一部數理統計學的歷史,就是從縱橫兩個方向對算術平均進行不斷深入研究的歷史,
-
縱的方面指平均值本身,諸如伯努利及其后眾多的大數定律,棣莫弗-拉普拉斯中心極限定理,高斯的正太誤差理論,這些在很大程度上都可以視為對算術平均的研究成果,甚至到方差,標準差等概念也是由平均值發展而來;
-
橫的方面中最為典型的就是此最小二乘法。
而算術平均也是解釋最小二乘法的最簡單的例子。使誤差平方和達到最小以尋求估計值的方法,則稱為最小二乘估計(當然,取平方和作為目標函數知識眾多可取的方法之一,例如也可以取誤差4次方或絕對值和,取平方和是人類千百年實踐中被證實行之有效的方法,因此被普遍采用)。
何謂最小二乘法?實踐中,常需尋找兩變量之間的函數關系,比如測定一個刀具的磨損速度,也就是說,隨著使用刀具的次數越多,刀具本身的厚度會逐漸減少,故刀具厚度與使用時間將成線性關系,假設符合f(t)=at + b(t代表時間,f(t)代表刀具本身厚度),a,b是待確定的常數,那么a、b如何確定呢?
最理想的情形就是選取這樣的a、b,能使直線y = at + b 所得到的值與實際中測量到的刀具厚度完全符合,但實際上這是不可能的,因為誤差總是存在難以避免的。故因誤差的存在,使得理論值與真實值存在偏差,為使偏差最小通過偏差的平方和最小確定系數a、b,從而確定兩變量之間的函數關系f(t)= at + b。
這種通過偏差的平方和為最小的條件來確定常數a、b的方法,即為最小二乘法。最小二乘法的一般形式可表述為:
在此,說點后話,最小二乘法是與統計學有著密切聯系的,因為觀測值有隨機誤差,所以它同正態分布一樣與誤差論有著密切聯系(說實話,最小二乘法試圖解決的是誤差最小的問題,而正態分布則是試圖尋找誤差分布規律的問題,無論是最小二乘法,還是正態分布的研究工作,至始至終都圍繞著誤差進行)。
那么,最小二乘法是如何發明的呢?據史料記載,最小二乘法最初是由法國數學家勒讓德于1805年發明的。那勒讓德發明它的動機來源于哪呢?
18世紀中葉,包括勒讓德、歐拉、拉普拉斯、高斯在內的許多天文學家和數學家都對天文學上諸多問題的研究產生了濃厚的興趣。比如以下問題:
-
土星和木星是太陽系中的大行星,由于相互吸引對各自的運動軌道產生了影響,許多大數學家,包括歐拉和拉普拉斯都在基于長期積累的天文觀測數據計算土星和木星的運行軌道。
-
勒讓德承擔了一個政府給的重要任務,測量通過巴黎的子午線的長度。
-
海上航行經緯度的定位。主要是通過對恒星和月面上的一些定點的觀測來確定經緯度。
這些問題都可以用如下數學模型描述:我們想估計的量是β0,?,βp,另有若干個可以測量的量x1,?,xp,y,這些量之間有線性關系
如何通過多組觀測數據求解出參數β0,?,βp呢?歐拉和拉普拉斯采用的都是求解線性方程組的方法。
但是面臨的一個問題是,有n組觀測數據,p+1個變量,如果n>p+1,則得到的線性矛盾方程組,無法直接求解。所以歐拉和拉普拉斯采用的方法都是通過一定的對數據的觀察,把n個線性方程分為p+1組,然后把每個組內的方程線性求和后歸并為一個方程,從而就把n個方程的方程組化為p+1個方程的方程組,進一步解方程求解參數。這些方法初看有一些道理,但是都過于經驗化,無法形成統一處理這一類問題的一個通用解決框架。
以上求解線性矛盾方程的問題在現在的本科生看來都不困難,就是統計學中的線性回歸問題,直接用最小二乘法就解決了,可是即便如歐拉、拉普拉斯這些數學大牛,當時也未能對這些問題提出有效的解決方案??梢娫诳茖W研究中,要想在觀念上有所突破并不容易。有效的最小二乘法是勒讓德在1805年發表的,基本思想就是認為測量中有誤差,所以所有方程的累積誤差為:
我們求解出導致累積誤差最小的參數即可。
上面我們已經看到,是勒讓德最初發明的最小二乘法,那為何歷史上人們常常把最小二乘法的發明與高斯的名字聯系起來呢?(注:勒讓德時期的最小二乘法還只是作為一個處理測量數據的代數方法來討論的,實際上與統計學并無多大關聯,只有建立在了測量誤差分布的概率理論之后,這個方法才足以成為一個統計學方法。盡管拉普拉斯用他的中心極限定理定理也可以推導出最小二乘法,但無論是之前的棣莫弗,還是當時的勒讓德,還是拉普拉斯,此時他們這些研究成果都還只是一個數學表達式而非概率分布)。
因為1829年,高斯提供了最小二乘法的優化效果強于其他方法的證明,即為高斯-馬爾可夫定理。也就是說勒讓德最初提出了最小二乘法,而卻是高斯讓最小二乘法得以鞏固而影響至今。且高斯對最小二乘法的最大貢獻在于他是建立在正太誤差分布的理論基礎之上的(后續更是導出了誤差服從正態分布的結論),最后,1837年,統計學家們正式確立誤差服從正態分布,自此,人們方才真正確信:觀測值與理論值的誤差服從正態分布。
4.6、誤差分布曲線的建立
十八世紀,天文學的發展積累了大量的天文學數據需要分析計算,應該如何來處理數據中的觀測誤差成為一個很棘手的問題。我們在數據處理中經常使用平均的常識性法則,千百年來的數據使用經驗說明算術平均能夠消除誤差,提高精度。平均有如此的魅力,道理何在,之前沒有人做過理論上的證明。算術平均的合理性問題在天文學的數據分析工作中被提出來討論:測量中的隨機誤差應該服從怎樣的概率分布?算術平均的優良性和誤差的分布有怎樣的密切聯系?
伽利略在他著名的《關于兩個主要世界系統的對話》中,對誤差的分布做過一些定性的描述,主要包括:
-
誤差是對稱分布的分布在0的兩側;
-
大的誤差出現頻率低,小的誤差出現頻率高。
用數學的語言描述,也就是說誤差分布函數f(x)關于0對稱分布,概率密度隨|x|增加而減小,這兩個定性的描述都很符合常識。
4.6.1、辛普森的工作
許多天文學家和數學家開始了尋找誤差分布曲線的嘗試。托馬斯?辛普森(Thomas Simpson,1710-1761)先走出了有意義的一步。
-
設真值為θ,而
為n次測量值,現在用測量值
去估計真值
,那么每次測量的誤差為
,
-
但若用算術平均
去估計θ呢,則其誤差為
。
Simpson證明了,對于如下的一個概率分布,
Simpson的誤差態分布曲線
有這樣的估計:
也就是說,
相比于
取小值的機會更大。辛普森的這個工作很粗糙,但是這是第一次在一個特定情況下,從概率論的角度嚴格證明了算術平均的優良性。
4.6.2、拉普拉斯的工作
在1772-1774年間,拉普拉斯也加入到了尋找誤差分布函數的隊伍中。與辛普森不同,拉普拉斯不是先假定一種誤差分后去設法證明平均值的優良性,而是直接射向應該去怎么的分布為誤差分布,以及在確定了誤差分布之后,如何根據觀測值
去估計真值
。
拉普拉斯假定誤差密度函數f(x)滿足如下性質:
m>0,且為常數,上述方程解出
,C>0且為常數,由于
,得
。故當x<0,結合概率密度的性質之一(參看上文2.2.4節):
,解得c=m/2。
由此,最終1772年,拉普拉斯求得的分布密度函數為:
這個概率密度函數現在被稱為拉普拉斯分布:
CDA數據分析師考試相關入口一覽(建議收藏):
? 想報名CDA認證考試,點擊>>>
“CDA報名”
了解CDA考試詳情;
? 想學習CDA考試教材,點擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點擊>>> “CDA含金量” 了解CDA考試詳情;