熱線電話:13121318867

登錄
首頁精彩閱讀大數據與拓撲學共通的一些分析算法_數據分析師
大數據與拓撲學共通的一些分析算法_數據分析師
2015-01-07
收藏

大數據與拓撲學共通的一些分析算法_數據分析師


抽象大型數據集的學習一般從兩個名稱開始:數據挖掘(Data mining),脫胎于統計學領域,研究組織和總結高維數據的方式,以便于人類更容易理解這些數據;機器學習(Machine Learning),計算機科學的一個分支(特別是人工智能),為了達到讓計算機作出決定的目標,尋找計算機組織和總結數據的方式。這兩個領域有許多共同點,但是我不會試圖對它們加以區分,還有這些方法在不同學科中應用的名詞,如生物信息學和化學信息學。還有眾人皆知的在市場營銷上的應用,它可以讓店主提前知道你將購買什么。

收集的數據通常是一組有序的N元組,它們來自科學實驗、調查或者零售商收集關于每次你使用信用卡的信息等等。其中一些可以看做是帶有標簽的——例如特殊實驗的代號,其它的如坐標和尺寸通常叫做特征(features),如果這些特征是數字,那么我們可以認為它們是歐式空間的定義向量,這樣我們就初次瞥見了幾何學。然而,對于高維數據,歐式度量的結果是有問題的,因此我們常常要使用不同的度量方式。歐式度量在分析具有二元特征的數據上也是有問題的,例如,同一有機體不同基因存在的問題。

因此,我們常常要考慮數據點的其他度量法。一個Kernel是一次非線性原始向量空間向更高維向量空間的嵌入過程,它允許在圖像空間上使用拉回度量,但是,在實踐中,嵌入過程不是用來計算的,僅僅促使度量信息的產生。

考慮使用相似測量(非度量)有時也是有效的:區間從1到0,當兩個點相同時用1表示,當不同時用0表示。歐式度量的高斯函數是一個非常流行的相似測量方式。還有非數值數據,可根據具體的情況使用不同的度量法進行分析,暫時先不要關心它。

通常這些數據是從概率分布的向量空間上隨機選取的,這種分布應該有一個非常明確的結構,例如已本地化的高余維子流形分布(being localized around a positive codimensional submanifold),但是由于數據中存在噪音,我們一般假設分布支持的是一個開發集,當然,我們不會讓這些有限的多個數據點是支持離散分布的,否則將會是一個過度擬合(overfitting)的例子,任何模型都應該避免這種情況的出現。

這里有四個比較具體的研究人員試圖了解大型數據集的方法以及一些常用的算法。這些方法和算法有許多變數,但是這個表單至少是個良好的開端。我將在后續的帖子中更詳盡的描述他們。

1)投影——找一個從原始向量空間到低維空間(例如水平面)盡可能少的扭曲點與點之間關系的函數,當然,盡可能的線性投影,但是找到一個好的線性投影可不是一個平凡的工作。線性投影最流行的做法似乎是主成分分析法。如拓撲學,不過,我們可以想像線性預測潛在問題,特別是拓撲有趣集。自組織映射圖(有時稱為Kohonen map)產生一個本地/分段線性投影,似乎更像拓撲聲紋。更普遍的是,人們可以嘗試投到一個更有趣的拓撲低維流上,這叫做流形學習。

2)特征選擇——在一些高維數據中,有許多維度是噪音數據。特征選擇是找出那些具有高信噪比的問題。統計學方法可以逐個的檢查特征/尺寸,但往往最好是一下子能看到特征的子集。從拓撲學觀點,這僅僅是有限的線性投影形式,但是在實際中往往是一個單獨的問題類型。特別是人們普遍要投射到兩維或者三維的情況,但是對于特征選擇,可以選擇超過兩個或者三個的特征。 這兩個問題往往是進入下面兩個之一的前奏:

3)分類——這個問題和機器學習密切相關,通常被叫做監督學習:一組帶有標簽的收集數據,這些標簽告訴你它從哪兒來;另一組沒有標簽的收集數據,決定哪個標簽最適合他們,這就是“學習”,因為你可以通過思考標記的數據來進行訓練——你告訴計算機在不同情形下對于集合中每個元素應該做什么樣的決定。然后電腦必須自己決定在其余的情況下該做什么,通常,人們要基于標簽數據建立一個合理的模型,然后拋出原始數據并歸納出基于這個模型新問題。尤其是,經常要權衡是制造一個拓撲的、尖端的模型還是造一個計算廉價的。但是,如上所述,這個模型必須避免過度擬合。有許多不同的方法來解決這個問題。

4)聚類——這是一個基于幾何學來分隔數據(未標記)為小數量集的問題。它是數據挖掘的核心問題,盡管在機器學習中它歸入非監督學習,即與非標記的數據工作。關于這個的一個流行算法是K-means,它假設概率分布是以K點為中心的高斯總和(a sum of Gaussians),并且嘗試去找到這些點。這個算法由于計算效率而聞名,但是常常返回無用結果集。一個更合理做法是形成一個頂點是這些數據點的圖形,用邊連接點距低于一個給定閾值的點(或者高于一個給定閾值的點)。這個聚類問題轉換成了一個圖分隔問題——通過較少的邊分隔成相對較大的塊。

這些是比較實際的問題,盡管不像我們使用在拓撲學上的,但是有可能是一個沒有明確及最終答案的問題。相反,每個問題的最佳方法取決于特定的數據集和長期項目分析目標。因此,對于任何的方法,包括拓撲學啟發的,在適合的情況下都有可能非常有用。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢