
數據挖掘中所需的概率論與數理統計知識(一)
一個月余前,在微博上感慨道,不知日后是否有無機會搞DM,微博上的朋友只看不發的圍脖評論道:算法研究領域,那里要的是數學,你可以深入學習數學,將算法普及當興趣。想想,甚合我意。自此,便從rickjin寫的“正態分布的前世今生”開始研習數學。
如之前微博上所說,“今年5月接觸DM,循序學習決策樹.貝葉斯,SVM.KNN,感數學功底不足,遂補數學,從‘正態分布的前后今生’中感到數學史有趣,故買本微積分概念發展史讀,在嘆服前人偉大的創造之余,感微積分概念模糊,復習高等數學上冊,完后學概率論與數理統計,感概道:微積分是概數統計基礎,概數統計則是DM&ML之必修課?!卑ㄗx者相信也已經感覺到,我在寫這個Top 10 Algorithms in Data Mining系列的時候,其中涉及到諸多的數學概念與基礎知識(例如此篇SVM文章內諸多max.s.t.對偶.KKT條件.拉格朗日.松弛因子等問題則皆屬于數學內一分支:最優化理論與算法范疇內),特別是概率論與數理統計部分。更進一步,在寫上一篇文章的時候,看到機器學習中那么多距離度量的表示法,發現連最起碼的期望,方差,標準差等基本概念都甚感模糊,于此,便深感數學之重要性。
很快,我便買了一本高等教育出版社出版的概率論與數理統計一書,此書“從0-1分布、到二項分布、正態分布,概率密度函數,從期望到方差、標準差、協方差,中心極限定理,樣本和抽樣,從最大似然估計量到各種置信區間,從方差分析到回歸分析,bootstrap方法,最后到馬爾可夫鏈,以前在學校沒開概率論與數理統計這門課,現在有的學有的看了”。且人類發明計算機,是為了輔助人類解決現實生活中遇到的問題,然計算機科學畢竟只發展了數十年,可在數學.統計學中,諸多現實生活問題已經思考了數百年甚至上千年,故,計算機若想更好的服務人類解決問題,須有效借鑒或參考數學.統計學。世間萬事萬物,究其本質乃數學,于變化莫測中尋其規律謂之統計學。
話休絮煩。本文結合高等數學上下冊、微積分概念發展史,概率論與數理統計、數理統計學簡史等書,及rickjin寫的“正態分布的前世今生”系列(此文亦可看作讀書筆記或讀后感)與wikipedia整理而成,對數據挖掘中所需的概率論與數理統計相關知識概念作個總結梳理,方便你我隨時查看復習相關概念,而欲深入學習研究的課后還需參看相關專業書籍.資料。同時,本文篇幅會比較長,簡單來說:
5部分起承轉合,彼此依托,層層遞進。且在本文中,會出現諸多并不友好的大量各種公式,但基本的概念.定理是任何復雜問題的根基,所以,你我都有必要硬著頭皮好好細細閱讀。最后,本文若有任何問題或錯誤,懇請廣大讀者朋友們不吝批評指正,謝謝。
開頭前言說,微積分是概數統計基礎,概數統計則是DM&ML之必修課”,是有一定根據的,包括后續數理統計當中,如正態分布的概率密度函數中用到了相關定積分的知識,包括最小二乘法問題的相關探討求證都用到了求偏導數的等概念,這些都是跟微積分相關的知識。故咱們第一節先復習下微積分的相關基本概念。
事實上,古代數學中,單單無窮小、無窮大的概念就討論了近200年,而后才由無限發展到極限的概念。
極限又分為兩部分:數列的極限和函數的極限。
定義 如果數列{xn}與常a 有下列關系:對于任意給定的正數e (不論它多么小), 總存在正整數N , 使得對于n >N 時的一切xn, 不等式 |xn-a |或
也就是說,
設函數f(x)在點x0的某一去心鄰域內有定義. 如果存在常數A, 對于任意給定的正數e (不論它多么小), 總存在正數d, 使得當x滿足不等式0<|x-x0|的極限, 記為
也就是說,
幾乎沒有一門新的數學分支是某個人單獨的成果,如笛卡兒和費馬的解析幾何不僅僅是他們兩人研究的成果,而是若干數學思潮在16世紀和17世紀匯合的產物,是由許許多多的學者共同努力而成。
甚至微積分的發展也不是牛頓與萊布尼茨兩人之功。在17世紀下半葉,數學史上出現了無窮小的概念,而后才發展到極限,到后來的微積分的提出。然就算牛頓和萊布尼茨提出了微積分,但微積分的概念尚模糊不清,在牛頓和萊布尼茨之后,后續經過一個多世紀的發展,諸多學者的努力,才真正清晰了微積分的概念。
也就是說,從無窮小到極限,再到微積分定義的真正確立,經歷了幾代人幾個世紀的努力,而課本上所呈現的永遠只是冰山一角。
也可記為:,
或
。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24