
拓撲數據分析與機器學習的相互促進
拓撲數據分析(TDA)和機器學習(ML)的區別與聯系讓不熟悉TDA的人撲朔迷離,本文通過兩個定義,解釋了TDA和ML的不同,以及TDA和ML如何相互促進,為何會相互促進,并通過一個設備故障分析的案例(5000個樣本,復雜度適中,48個連續特征)來進行證明。
對拓撲數據分析(TDA)不熟悉的人,經常會問及一些類似的問題:“機器學習和TDA兩者之間的區別?”,這種問題的確難以回答,部分原因在于你眼中的機器學習(ML)是什么。
下面是維基百科關于機器學習的說明:
機器學習研究算法學習和構造,能從數據中進行學習并做出預測。這種算法通過從輸入實例中建立模型,目的是根據數據做出預測或決策,而不是嚴格地遵循靜態程序指令。
大多數人可能會認為TDA是機器學習的一種形式,但我覺得,在這些領域工作的人可能都不會贊成這一說法。
機器學習的具體實例比任何一個TDA的例子更像機器學習。同樣,TDA的實例比任何一個機器學習的例子看起來更像是TDA。
為了解釋TDA和ML兩者的不同,更重要的是證明TDA和ML是如何相互促進以及為何會相互促進,我將給出兩個非常簡單的定義,然后用一個真實的實例進行說明。
定義ML:假定一個數據參數模型,并根據數據來學習模型參數的任意方法。
定義TDA:只把數據點間的“相似性”概念用來構建數據模型的任意方法。
在這種觀點中,ML模型更加具體和詳細,而且模型的成功取決于它對未知數據的擬合程度。它的優勢是,當數據能很好的擬合模型時,其結果尤為突出——幾乎能夠完美的理解那些有明顯噪聲的數據。
TDA的優點是它的通用性。
對于TDA,任何相似性概念都可以拿來使用。相反,對于ML,你需要一個(或更多)強化的相似性概念,與其它任何方法一起發揮作用。
例如,給你一長串的名字,你是無法根據它來預測出身高和體重。你需要更多的信息。
主要因素是拓撲算法對小誤差的容忍度很大——即便你的相似性概念在某種程度上存在缺陷,只要它存在“幾分相似”,TDA算法一般就會產生一些有用的東西。
TDA方法的通用性還有另一個優于ML技術的地方,當ML方法擬合效果很好的時候,TDA方法仍然有效——即ML方法經常創建詳細的能生成相似性概念的內部狀態,使TDA和ML能夠更深層次的洞悉數據。
聽起來還不錯,但是這通常會走向極端(或者如果你覺得小誤差的容忍度偏低,或是模糊度不夠),這意味著一切都有可能發生。
那么,來舉個特例吧。
隨機森林分類器是一個組合學習方法,在訓練過程中,建立大量的決策樹并在這些“森林”(決策樹集合)的基礎上使用“多數規則”對非訓練數據進行分類。
盡管建立樹的過程相當有趣并且也很靈活,但它們沒有相關的細節。對于隨機森林,你只要記住,它通過把一系列決策樹的集合應用到已知數據點上,然后返回一系列的“葉節點”(決策樹中,到輸入”下落”的葉子)。
在正常的操作下,每棵樹的每個葉子節點都有一個相關的類別C,可以解釋為“當一個數據點位于樹的該節點時,在很大程度上它就屬于該類別C”。隨機森林分類器通過從每棵樹上統計“葉節點類別投票總數”來選出勝出者。盡管在大規模的數據類型上高度有效,但該過程會丟掉大量的信息。
如果你關心的是對數據類別的最佳猜測,那么你不會想看到額外的信息,但有時候你會需要更多的信息。這種“無關的”信息可以轉換成一個距離函數,通過把兩個數據點之間的距離定義為它們各自“葉節點”之間差異的倍數。
兩個數據點的距離函數是一個很好的度量(事實上,是在轉換后的數據集上的漢明距離),而且這樣我們可以把TDA應用到上面。
例如,讓我們來看看從下面的樣本中隨機選取的5000個樣本點
該數據集復雜度適中,有48個連續特征,這些特征似乎是硬盤驅動中無法解釋的電流信號。數據還包括一個類別列,它有11個可能的取值,描述的是光盤驅動組件不同的狀況(故障模式,也許吧?)。很明顯可以在特征列上計算歐幾里得距離,然后通過類來給圖形著色。由于我們對于特征項一無所知,所以首先要嘗試的事情就是查看鄰近晶狀體情況。其結果是一個普通的斑點。
這讓人有些失望!
接著,使用一些內部的調試功能,我看到鄰近晶狀體的一個散點圖,我知道為什么如此糟糕了——它看起來像是一顆圣誕樹。
很顯然,在歐氏度量中沒有類的定位。
然而,如果你在數據集上建立一個隨機森林,分類器會有一個非常小的out-of-bag誤差,這強烈的表明了分類器性能的可靠性。
因此,我嘗試使用隨機森林的漢明距離來作圖,這種度量下的鄰近晶狀體如下圖所示:
這看起來很不錯。只要確定我們也看到了鄰近晶狀體的散點圖就行,上圖的結果表明:
很明顯,從線圖和散點圖可以看出,隨機森林“看”復雜結構的能力要低于分類的標準水平,并被TDA給證實了。原因就是RF沒有充分使用“不相關的”數據——而TDA充分的利用了這些數據并且從這些信息中得到了大量的好處。
然而,一些人可能會說,這種結構是虛構的——這也許是我們在系統的某處使用算法人工生成的?在這種數據集下,我們不能真正識別它,因為對于該類別的其它信息我們一無所知。
不過,基于設備老化時收集的數據,我們在消費者數據上使用隨機森林來度量分析成千上萬的復雜設備可能的故障模式。類別是基于設備因為不同的原因(并不是所有的原因都是由故障導致的)而返廠的事后分析完成的。
在這個例子中,我們發現隨機森林度量標準在故障識別層面做的很好,并且我們得到的圖片特征和上面這些也相似。更重要的是,我們發現在給定的故障模式中的特定組,有時有不同的原因。
在這些情況下得出的結論是:我們在使用TDA和RF時沒有做進一步的空間分解,這些原因可能會更難發現。
我們剛才看到的例子表明,TDA與機器學習可以一起使用,并且得到的效果比使用單個技術更好。
這就是我們所說的ML&TDA:同時使用更好。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25