
機器學習和計算機視覺都是很多種數學的交匯場??粗煌睦碚擉w系的交匯,對于一個researcher來說,往往是非常exciting的enjoyable的事情。不過,這也代表著要充分了解這個領域并且取得有意義的進展是很艱苦的。
Linear Algebra (線性代數) 和 Statistics (統計學) 是最重要和不可缺少的。
這代表了Machine Learning中最主流的兩大類方法的基礎。一種是以研究函數和變換為重點的代數方法,比如Dimension reduction,feature extraction,Kernel等,一種是以研究統計模型和樣本分布為重點的統計方法,比如Graphical model, Information theoretical models等。它們側重雖有不同,但是常常是共同使用的,對于代數方法,往往需要統計上的解釋,對于統計模型,其具體計算則需要代數的幫助。以代數和統計為出發點,繼續往深處走,我們會發現需要更多的數學。
Calculus (微積分),只是數學分析體系的基礎。
其基礎性作用不言而喻。Learning研究的大部分問題是在連續的度量空間進行的,無論代數還是統計,在研究優化問題的時候,對一個映射的微分或者梯度的分析總是不可避免。而在統計學中,Marginalization和積分更是密不可分——不過,以解析形式把積分導出來的情況則不多見。
Partial Differential Equation (偏微分方程),這主要用于描述動態過程,或者仿動態過程。
這個學科在Vision中用得比Learning多,主要用于描述連續場的運動或者擴散過程。比如Level set, Optical flow都是這方面的典型例子。
Functional Analysis (泛函分析),通俗地,可以理解為微積分從有限維空間到無限維空間的拓展——當然了,它實際上遠不止于此。
在這個地方,函數以及其所作用的對象之間存在的對偶關系扮演了非常重要的角色。Learning發展至今,也在向無限維延伸——從研究有限維向量的問題到以無限維的函數為研究對象。Kernel Learning 和Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的人把Kernel簡單理解為Kernel trick的運用,這就把kernel的意義嚴重弱化了。在泛函里面,Kernel (Inner Product)是建立整個博大的代數體系的根本,從metric, transform到spectrum都根源于此。
Measure Theory (測度理論),這是和實分析關系非常密切的學科。但是測度理論并不限于此。
從某種意義上說,Real Analysis可以從Lebesgue Measure(勒貝格測度)推演,不過其實還有很多別的測度體系——概率本身就是一種測度。測度理論對于Learning的意義是根本的,現代統計學整個就是建立在測度理論的基礎之上——雖然初級的概率論教科書一般不這樣引入。在看一些統計方面的文章的時候,你可能會發現,它們會把統計的公式改用測度來表達,這樣做有兩個好處:所有的推導和結論不用分別給連續分布和離散分布各自寫一遍了,這兩種東西都可以用同一的測度形式表達:連續分布的積分基于Lebesgue測度,離散分布的求和基于計數測度,而且還能推廣到那種既不連續又不離散的分布中去(這種東西不是數學家的游戲,而是已經在實用的東西,在Dirchlet Process或者Pitman-Yor Process里面會經??吹?。而且,即使是連續積分,如果不是在歐氏空間進行,而是在更一般的拓撲空間(比如微分流形或者變換群),那么傳統的黎曼積分(就是大學一年級在微積分課學的那種)就不work了,你可能需要它們的一些推廣,比如Haar Measure或者Lebesgue-Stieltjes積分。
Topology(拓撲學),這是學術中很基礎的學科。
它一般不直接提供方法,但是它的很多概念和定理是其它數學分支的基石??春芏鄤e的數學的時候,你會經常接觸這樣一些概念:Open set / Closed set,set basis,Hausdauf, continuous function,metric space, Cauchy sequence, neighborhood, compactness, connectivity。很多這些也許在大學一年級就學習過一些,當時是基于極限的概念獲得的。如果,看過拓撲學之后,對這些概念的認識會有根本性的拓展。比如,連續函數,當時是由epison法定義的,就是無論取多小的正數epsilon,都存在xxx,使得xxx。這是需要一種metric去度量距離的,在general topology里面,對于連續函數的定義連坐標和距離都不需要——如果一個映射使得開集的原像是開集,它就是連續的——至于開集是基于集合論定義的,不是通常的開區間的意思。這只是最簡單的例子。當然,我們研究learning也許不需要深究這些數學概念背后的公理體系,但是,打破原來定義的概念的局限在很多問題上是必須的——尤其是當你研究的東西它不是在歐氏空間里面的時候——正交矩陣,變換群,流形,概率分布的空間,都屬于此。
Differential Manifold (微分流形),通俗地說它研究的是平滑的曲面。
一個直接的印象是它是不是可以用來fitting一個surface什么的——當然這算是一種應用,但是這是非常初步的。本質上說,微分流形研究的是平滑的拓撲結構。一個空間構成微分流形的基本要素是局部平滑:從拓撲學來理解,就是它的任意局部都同胚于歐氏空間,從解析的角度來看,就是相容的局部坐標系統。當然,在全局上,它不要求和歐氏空間同胚。它除了可以用于刻畫集合上的平滑曲面外,更重要的意義在于,它可以用于研究很多重要的集合。一個n-維線性空間的全部k-維子空間(k
Lie Group Theory (李群論),一般意義的群論在Learning中被運用的不是很多,群論在Learning中用得較多的是它的一個重要方向Lie group。
定義在平滑流形上的群,并且其群運算是平滑的話,那么這就叫李群。因為Learning和編碼不同,更多關注的是連續空間,因為Lie group在各種群中對于Learning特別重要。各種子空間,線性變換,非奇異矩陣都基于通常意義的矩陣乘法構成李群。在李群中的映射,變換,度量,劃分等等都對于Learning中代數方法的研究有重要指導意義。
Graph Theory(圖論),圖,由于它在表述各種關系的強大能力以及優雅的理論,高效的算法,越來越受到Learning領域的歡迎。
經典圖論,在Learning中的一個最重要應用就是graphical models了,它被成功運用于分析統計網絡的結構和規劃統計推斷的流程。Graphical model所取得的成功,圖論可謂功不可沒。在Vision里面,maxflow (graphcut)算法在圖像分割,Stereo還有各種能量優化中也廣受應用。另外一個重要的圖論分支就是Algebraic graph theory (代數圖論),主要運用于圖的譜分析,著名的應用包括Normalized Cut和Spectral Clustering。近年來在semi-supervised learning中受到特別關注。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23