熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘所需數學基礎
數據挖掘所需數學基礎
2017-06-23
收藏

數據挖掘所需數學基礎

數據挖掘,是指從大量數據中獲取隱含的、潛在的是有價值信息的過程,是近年來計算機領域火熱的研究內容。作為一個大的命題,為了便于引入討論,這里以本人目前涉及的游戲工業領域的數據挖掘方法展開討論。

數據挖掘方法在游戲工業領域最初的應用,常常是游戲中的人工智能的開發。例如游戲中的電腦對手,對戰類游戲的天梯系統,游戲開發時的關卡自動生成器。這些功能對應著數據挖掘方法中的專家系統、機器學習、模式識別、自然語言理解、自動定理證明、自動程序設計、機器人學、博弈、人工神經網絡等。

事實上,數據挖掘的方法本質上就是人工智能的方法,數據挖掘的出現是人工智能發展史上具有重大意義的事件。傳統人工智能的研究在20世紀末期事實上進入了一個低谷,這是因為20世紀80年代初,美國、歐洲和日本制定的一批針對人工智能的大型項目都面臨了重重困難:一是所謂的交叉問題,即傳統方法只能模擬人類深思熟慮的行為,而不包括人與環境的交互行為;二是所謂的擴展問題,即傳統人工智能方法只適合于建造領域狹窄的專家系統,不能把這種方法簡單地推廣到規模更大、領域更寬的復雜系統中去。以上兩個根本性問題使人工智能研究進入低谷。而數據挖掘的出現使人們又重新看到了人工智能的希望。 原因就在于數據挖掘方法將人工智能方法帶進了廣域數據集中,突破了專家系統的限制。

在最近的研究中,游戲行業的研究者們更多地使用數據挖掘方法去分析用戶行為,從而進行更精準的商業方案定制。一方面這是因為資本的逐利性使然,現代游戲開發已經走進了一個不斷推升制作成本和玩家期望之間的循環,高額的開發費用已經使很多游戲公司不堪重負。另外一方面,大數據時代的數據采集,令大量用戶行為成為保存在服務器端的數據,令我們有能力進行分析與研究。通過數據挖掘方法,我們可以做到對游戲用戶行為進行建模,并進行自動程序設計。典型的應用例如分析玩家行為和動機,探尋在線角色扮演游戲中的玩家社交群體的變化,識別玩家人物和公會的命名模式,檢測游戲玩家感到沮喪的原因,揭露游戲中玩家的社會關系。

數據挖掘過程中相關的主要數學領域

面對復雜數據,數據挖掘的基本流程是:首先對原始數據進行填補遺漏、消除異常、平滑噪聲等處理,提高數據挖掘的有效性和準確性。然后使用專門的算法對原始數據進行歸納抽象,去掉取之過多且不均勻的屬性和概念層次樹中不存在的屬性,最終得到一個關系模型。當新的數據加入數據集中時,可以根據該關系模型決定新數據的分類和處理模式。同時,新數據也將帶來對整體模型的變化,數據和模型處于動態對應的狀態。

從以上過程中可以明顯感到,所謂數據挖掘,就是一個典型的數學建模過程。當然,這里已經有較為成熟的工具、方法和理論。例如,統計機器學習所需要的主要理論和技術:泛函分析、逼近論與測度論、統計理論、VC維理論、覆蓋數、描述長度理論與算法復雜度研究、核方法、非線性規劃技術、幾何變換。下文簡要介紹涉及的數學學科。

1. 線性代數和統計學

在這個建模過程中,基礎是兩大數學學科:線性代數和統計學。這代表了機器學習中最主流的兩大類方法的基礎。一種是以研究函數和變換為重點的代數方法,比如降維,特征值提取等,一種是以研究統計模型和樣本分布為重點的統計方法,比如圖模型、信息理論模型等。它們側重雖有不同,但是常常是共同使用的,對于代數方法,往往需要統計上的解釋,對于統計模型,其具體計算則需要代數的幫助。以代數和統計為出發點,繼續往深處走,我們會發現需要更多的數學。傳統的統計學所研究的主要是漸進理論(大樣本情況下的統計性質),而樣本數目通常有限(甚至還十分有限)。人們過去一直采用樣本數目無窮為假設條件推導各種算法,然后將算法用于樣本較小的情況,希望能有較好的效果,然而,算法往往不令人滿意。由此,人們提出了學習的推廣能力(泛化能力)的重要問題。過去多數工作集中在對大樣本統計學習方法的改進和修改,或利用啟發式方法設計特殊算法。

2、微積分

微積分只是數學分析體系的基礎。其基礎性作用不言而喻。機器學習研究的大部分問題是在連續的度量空間進行的,無論代數還是統計,在研究優化問題的時候,對一個映射的微分或者梯度的分析總是不可避免。

3、泛函分析

泛函分析體現了數學模型從特殊到一般的發展過程。

函數在19世紀前期的定義還是數與數的對應關系,空間的概念也只有歐幾里德空間。十九世紀以來,數學的發展進入了一個新的階段。這就是,由于對歐幾里得第五公理的研究,引出了非歐幾何這門新的學科;對于代數方程求解的一般思考,最后建立并發展了群論;對數學分析的研究又建立了集合論。這些新的理論都為用統一的觀點把古典分析的基本概念和方法一般化準備了條件。泛函分析作為數學分析的分支,將函數擴展到函數與函數之間的關系,乃至任意兩個集合之間的關系,空間則從有限維空間拓展到無限維空間。

在這個地方,函數以及其所作用的對象之間存在的對偶關系扮演了非常重要的角色。機器學習發展至今,也在向無限維延伸——從研究有限維向量的問題到以無限維的函數為研究對象。內核學習和高斯過程是其中典型的例子。

4、測度理論

這是和實分析關系非常密切的學科。概率本身就是一種測度。測度理論對于機器學習的意義是根本的,現代統計學整個就是建立在測度理論的基礎之上——雖然初級的概率論教科書一般不這樣引入。在一些統計方面的文章中它們會把統計的公式改用測度來表達,這樣做有兩個好處:所有的推導和結論不用分別給連續分布和離散分布各自寫一遍了,這兩種東西都可以用同一的測度形式表達:連續分布的積分基于Lebesgue測度,離散分布的求和基于計數測度,而且還能推廣到那種既不連續又不離散的分布中去。而且,即使是連續積分,如果不是在歐氏空間進行,而是在更一般的拓撲空間(比如微分流形或者變換群),那么就不能使用傳統的黎曼積分了,需要使用,比如哈爾測度或者Lebesgue-Stieltjes積分。

5、拓撲學

這是學術中很基礎的學科。它一般不直接提供方法,但是它的很多概念和定理是其它數學分支的基石??春芏鄤e的數學的時候,會經常接觸這樣一些概念:開集,閉集,連續函數度量空間,柯西序列,鄰接性,連續性。很多這些也許在大學一年級就學習過一些,當時是基于極限的概念獲得的。但是看過拓撲學之后,對這些概念的認識會有根本性的拓展。值得一提的是,計算機學科的基礎布爾代數與拓撲學有重要的聯系。

6、圖論

圖,由于它在表述各種關系的強大能力以及優雅的理論,高效的算法,越來越受到數據挖掘領域的歡迎。而從目前我所接觸的范圍內,圖論僅在數據結構這門課中提到過。經典圖論,在數據挖掘領域中的一個最重要應用就是圖模型了,它被成功運用于分析統計網絡的結構和規劃統計推斷。例如,分析社交網絡的用戶關系,常用鄰接鏈表和鄰接矩陣綜合表示。在遍歷時也離不開深度優先和廣度優先算法.


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢