
大數據與拓撲學共通的一些分析算法_數據分析師
抽象大型數據集的學習一般從兩個名稱開始:數據挖掘(Data mining),脫胎于統計學領域,研究組織和總結高維數據的方式,以便于人類更容易理解這些數據;機器學習(Machine Learning),計算機科學的一個分支(特別是人工智能),為了達到讓計算機作出決定的目標,尋找計算機組織和總結數據的方式。這兩個領域有許多共同點,但是我不會試圖對它們加以區分,還有這些方法在不同學科中應用的名詞,如生物信息學和化學信息學。還有眾人皆知的在市場營銷上的應用,它可以讓店主提前知道你將購買什么。
收集的數據通常是一組有序的N元組,它們來自科學實驗、調查或者零售商收集關于每次你使用信用卡的信息等等。其中一些可以看做是帶有標簽的——例如特殊實驗的代號,其它的如坐標和尺寸通常叫做特征(features),如果這些特征是數字,那么我們可以認為它們是歐式空間的定義向量,這樣我們就初次瞥見了幾何學。然而,對于高維數據,歐式度量的結果是有問題的,因此我們常常要使用不同的度量方式。歐式度量在分析具有二元特征的數據上也是有問題的,例如,同一有機體不同基因存在的問題。
因此,我們常常要考慮數據點的其他度量法。一個Kernel是一次非線性原始向量空間向更高維向量空間的嵌入過程,它允許在圖像空間上使用拉回度量,但是,在實踐中,嵌入過程不是用來計算的,僅僅促使度量信息的產生。
考慮使用相似測量(非度量)有時也是有效的:區間從1到0,當兩個點相同時用1表示,當不同時用0表示。歐式度量的高斯函數是一個非常流行的相似測量方式。還有非數值數據,可根據具體的情況使用不同的度量法進行分析,暫時先不要關心它。
通常這些數據是從概率分布的向量空間上隨機選取的,這種分布應該有一個非常明確的結構,例如已本地化的高余維子流形分布(being localized around a positive codimensional submanifold),但是由于數據中存在噪音,我們一般假設分布支持的是一個開發集,當然,我們不會讓這些有限的多個數據點是支持離散分布的,否則將會是一個過度擬合(overfitting)的例子,任何模型都應該避免這種情況的出現。
這里有四個比較具體的研究人員試圖了解大型數據集的方法以及一些常用的算法。這些方法和算法有許多變數,但是這個表單至少是個良好的開端。我將在后續的帖子中更詳盡的描述他們。
1)投影——找一個從原始向量空間到低維空間(例如水平面)盡可能少的扭曲點與點之間關系的函數,當然,盡可能的線性投影,但是找到一個好的線性投影可不是一個平凡的工作。線性投影最流行的做法似乎是主成分分析法。如拓撲學,不過,我們可以想像線性預測潛在問題,特別是拓撲有趣集。自組織映射圖(有時稱為Kohonen map)產生一個本地/分段線性投影,似乎更像拓撲聲紋。更普遍的是,人們可以嘗試投到一個更有趣的拓撲低維流上,這叫做流形學習。
2)特征選擇——在一些高維數據中,有許多維度是噪音數據。特征選擇是找出那些具有高信噪比的問題。統計學方法可以逐個的檢查特征/尺寸,但往往最好是一下子能看到特征的子集。從拓撲學觀點,這僅僅是有限的線性投影形式,但是在實際中往往是一個單獨的問題類型。特別是人們普遍要投射到兩維或者三維的情況,但是對于特征選擇,可以選擇超過兩個或者三個的特征。 這兩個問題往往是進入下面兩個之一的前奏:
3)分類——這個問題和機器學習密切相關,通常被叫做監督學習:一組帶有標簽的收集數據,這些標簽告訴你它從哪兒來;另一組沒有標簽的收集數據,決定哪個標簽最適合他們,這就是“學習”,因為你可以通過思考標記的數據來進行訓練——你告訴計算機在不同情形下對于集合中每個元素應該做什么樣的決定。然后電腦必須自己決定在其余的情況下該做什么,通常,人們要基于標簽數據建立一個合理的模型,然后拋出原始數據并歸納出基于這個模型新問題。尤其是,經常要權衡是制造一個拓撲的、尖端的模型還是造一個計算廉價的。但是,如上所述,這個模型必須避免過度擬合。有許多不同的方法來解決這個問題。
4)聚類——這是一個基于幾何學來分隔數據(未標記)為小數量集的問題。它是數據挖掘的核心問題,盡管在機器學習中它歸入非監督學習,即與非標記的數據工作。關于這個的一個流行算法是K-means,它假設概率分布是以K點為中心的高斯總和(a sum of Gaussians),并且嘗試去找到這些點。這個算法由于計算效率而聞名,但是常常返回無用結果集。一個更合理做法是形成一個頂點是這些數據點的圖形,用邊連接點距低于一個給定閾值的點(或者高于一個給定閾值的點)。這個聚類問題轉換成了一個圖分隔問題——通過較少的邊分隔成相對較大的塊。
這些是比較實際的問題,盡管不像我們使用在拓撲學上的,但是有可能是一個沒有明確及最終答案的問題。相反,每個問題的最佳方法取決于特定的數據集和長期項目分析目標。因此,對于任何的方法,包括拓撲學啟發的,在適合的情況下都有可能非常有用。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25