熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘中所需的概率論與數理統計知識(一)
數據挖掘中所需的概率論與數理統計知識(一)
2014-11-11
收藏

數據挖掘中所需的概率論與數理統計知識(一)


一個月余前,在微博上感慨道,不知日后是否有無機會搞DM,微博上的朋友只看不發的圍脖評論道:算法研究領域,那里要的是數學,你可以深入學習數學,將算法普及當興趣。想想,甚合我意。自此,便從rickjin寫的“正態分布的前世今生”開始研習數學。

    如之前微博上所說,“今年5月接觸DM,循序學習決策樹.貝葉斯,SVM.KNN,感數學功底不足,遂補數學,從‘正態分布的前后今生’中感到數學史有趣,故買本微積分概念發展史讀,在嘆服前人偉大的創造之余,感微積分概念模糊,復習高等數學上冊,完后學概率論與數理統計,感概道:微積分是概數統計基礎,概數統計則是DM&ML之必修課?!卑ㄗx者相信也已經感覺到,我在寫這個Top 10 Algorithms in Data Mining系列的時候,其中涉及到諸多的數學概念與基礎知識(例如此篇SVM文章內諸多max.s.t.對偶.KKT條件.拉格朗日.松弛因子等問題則皆屬于數學內一分支:最優化理論與算法范疇內),特別是概率論與數理統計部分。更進一步,在寫上一篇文章的時候,看到機器學習中那么多距離度量的表示法,發現連最起碼的期望,方差,標準差等基本概念都甚感模糊,于此,便深感數學之重要性。

    很快,我便買了一本高等教育出版社出版的概率論與數理統計一書,此書從0-1分布、到二項分布、正態分布,概率密度函數,從期望到方差、標準差、協方差,中心極限定理,樣本和抽樣,從最大似然估計量到各種置信區間,從方差分析到回歸分析,bootstrap方法,最后到馬爾可夫鏈,以前在學校沒開概率論與數理統計這門課,現在有的學有的看了”。且人類發明計算機,是為了輔助人類解決現實生活中遇到的問題,然計算機科學畢竟只發展了數十年,可在數學.統計學中,諸多現實生活問題已經思考了數百年甚至上千年,故,計算機若想更好的服務人類解決問題,須有效借鑒或參考數學.統計學。世間萬事萬物,究其本質乃數學,于變化莫測中尋其規律謂之統計學。

    話休絮煩。本文結合高等數學上下冊、微積分概念發展史,概率論與數理統計、數理統計學簡史等書,及rickjin寫的“正態分布的前世今生”系列(此文亦可看作讀書筆記或讀后感)與wikipedia整理而成,對數據挖掘中所需的概率論與數理統計相關知識概念作個總結梳理,方便你我隨時查看復習相關概念,而欲深入學習研究的課后還需參看相關專業書籍.資料。同時,本文篇幅會比較長,簡單來說:

  1. 第一節、介紹微積分中極限、導數,微分、積分等相關概念;
  2. 第二節、介紹隨機變量及其分布;
  3. 第三節、介紹數學期望.方差.協方差.相關系數.中心極限定理等概念;
  4. 第四節、依據數理統計學簡史介紹正態分布的前后由來;
  5. 第五節、論道正態,介紹正態分布的4大數學推導。

    5部分起承轉合,彼此依托,層層遞進。且在本文中,會出現諸多并不友好的大量各種公式,但基本的概念.定理是任何復雜問題的根基,所以,你我都有必要硬著頭皮好好細細閱讀。最后,本文若有任何問題或錯誤,懇請廣大讀者朋友們不吝批評指正,謝謝。

第一節、微積分的基本概念

    開頭前言說,微積分是概數統計基礎,概數統計則是DM&ML之必修課”,是有一定根據的,包括后續數理統計當中,如正態分布的概率密度函數中用到了相關定積分的知識,包括最小二乘法問題的相關探討求證都用到了求偏導數的等概念,這些都是跟微積分相關的知識。故咱們第一節先復習下微積分的相關基本概念。

    事實上,古代數學中,單單無窮小、無窮大的概念就討論了近200年,而后才由無限發展到極限的概念。

1.1、極限

    極限又分為兩部分:數列的極限和函數的極限。

1.1.1、數列的極限

    定義  如果數列{xn}與常a 有下列關系:對于任意給定的正數e (不論它多么小), 總存在正整數N , 使得對于n >N 時的一切xn, 不等式 |xn-a |

    也就是說,

1.1.2、函數的極限

    設函數f(x)在點x0的某一去心鄰域內有定義. 如果存在常數A, 對于任意給定的正數e (不論它多么小), 總存在正數d, 使得當x滿足不等式0<|x-x0||f(x)-A|的極限, 記為

    也就是說,

    幾乎沒有一門新的數學分支是某個人單獨的成果,如笛卡兒和費馬的解析幾何不僅僅是他們兩人研究的成果,而是若干數學思潮在16世紀和17世紀匯合的產物,是由許許多多的學者共同努力而成。

    甚至微積分的發展也不是牛頓與萊布尼茨兩人之功。在17世紀下半葉,數學史上出現了無窮小的概念,而后才發展到極限,到后來的微積分的提出。然就算牛頓和萊布尼茨提出了微積分,但微積分的概念尚模糊不清,在牛頓和萊布尼茨之后,后續經過一個多世紀的發展,諸多學者的努力,才真正清晰了微積分的概念。

    也就是說,從無窮小到極限,再到微積分定義的真正確立,經歷了幾代人幾個世紀的努力,而課本上所呈現的永遠只是冰山一角。

1.2、導數

    設有定義域和取值都在實數域中的函數。若在點的某個鄰域內有定義,則當自變量處取得增量(點仍在該鄰域內)時,相應地函數取得增量;如果之比當時的極限存在,則稱函數在點處可導,并稱這個極限為函數在點處的導數,記為。
    即:

    也可記為:,。

1.3、微分

    設函數在某區間內有定義。對于內一點,當變動到附近的也在此區間內)時。如果函數的增量可表示為(其中是不依賴于的常數),而是比高階的無窮小,那么稱函數在點是可微的,且稱作函數在點相應于自變量增量的微分,記作,即,的線性主部。通常把自變量的增量稱為自變量的微分,記作,即。 
    實際上,前面講了導數,而微積分則是在導數的基礎上加個后綴,即為:。

1.4、積分 

    積分是微積分學與數學分析里的一個核心概念。通常分為定積分和不定積分兩種。
不定積分的定義
    一個函數的不定積分,也稱為原函數或反導數,是一個導數等于的函數,即
    不定積分的有換元積分法,分部積分法等求法。
定積分的定義
    直觀地說,對于一個給定的正實值函數,在一個實數區間上的定積分
    定積分與不定積分區別在于不定積分便是不給定區間,也就是說,上式子中,積分符號沒有a、b。下面,介紹定積分中值定理。
    如果函數f(x)在閉區間[a,b]上連續, 則在積分區間[a,b]上至少存在一個點,使下式成立:
    這個公式便叫積分中值公式。
牛頓-萊布尼茨公式
    接下來,咱們講介紹微積分學中最重要的一個公式:牛頓-萊布尼茨公式。
     如果函數F (x)是連續函數f(x)在區間[a, b]上的一個原函數, 則
    此公式稱為牛頓-萊布尼茨公式, 也稱為微積分基本公式。這個公式由此便打通了原函數與定積分之間的聯系,它表明:一個連續函數在區間[a, b]上的定積分等于它的任一個原函數在區間[a, b]上的增量,如此,便給定積分提供了一個有效而極為簡單的計算方法,大大簡化了定積分的計算手續。
    下面,舉個例子說明如何通過原函數求取定積分。
    如要計算,由于的一個原函數,所以。

1.5、偏導數

    對于二元函數z = f(x,y) 如果只有自變量x 變化,而自變量y固定 這時它就是x的一元函數,這函數對x的導數,就稱為二元函數z = f(x,y)對于x的偏導數。
    定義  設函數z = f(x,y)在點(x0,y0)的某一鄰域內有定義,當y固定在y0而x在x0處有增量時,相應地函數有增量,
    如果極限
    存在,則稱此極限為函數z = f(x,y)在點(x0,y0)處對 x 的偏導數,記作:
    例如。類似的,二元函數對y求偏導,則把x當做常量。
    此外,上述內容只講了一階偏導,而有一階偏導就有二階偏導,這里只做個簡要介紹,具體應用具體分析,或參看高等數學上下冊相關內容。接下來,進入本文的主題,從第二節開始。本文來自:http://www.ruiqisteel.com/


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢