
數據挖掘歷史中的重要里程碑_數據分析師培訓
數據挖掘現在隨處可見,而它的故事在《點球成金》出版和“棱鏡門”事件發生之前就已經開始了。下文敘述的就是數據挖掘的主要里程碑,歷史上的第一次,它是怎樣發展以及怎樣與數據科學和大數據融合。
數據挖掘是在大數據集(即:大數據)上探索和揭示模式規律的計算過程。它是計算機科學的分支,融合了統計學、數據科學、數據庫理論和機器學習等眾多技術。
1763 年,Thomas Bayes 的論文在他死后發表,他所提出的 Bayes 理論將當前概率與先驗概率聯系起來。因為 Bayes 理論能夠幫助理解基于概率估計的復雜現況,所以它成為了數據挖掘和概率論的基礎。
1805 年, Adrien-Marie Legendre 和 Carl Friedrich Gauss 使用回歸確定了天體(彗星和行星)繞行太陽的軌道?;貧w分析的目標是估計變量之間的關系,在這個例子中采用的方法是最小二乘法。自此,回歸成為數據挖掘的重要工具之一。
1936 年,計算機時代即將到來,它讓海量數據的收集和處理成為可能。在1936年發表的論文《論可計算數(On Computable Numbers)》中,Alan Turing 介紹了通用機(通用圖靈機)的構想,通用機具有像今天的計算機一般的計算能力?,F代計算機就是在圖靈這一開創性概念上建立起來的。
1943 年,Warren McCullon 和 Walter Pitts 首先構建出神經網絡的概念模型。在名為 《A logical calculus of the ideas immanent in nervous activity》 的論文中,他們闡述了網絡中神經元的概念。每一個神經元可以做三件事情:接受輸入,處理輸入和生成輸出。
1965 年,Lawrence J. Fogel 成立了一個新的公司,名為 Decision Science, Inc,目的是對進化規劃進行應用。這是第一家專門將進化計算應用于解決現實世界問題的公司。
上世紀 70 年代,隨著數據庫管理系統趨于成熟,存儲和查詢百萬兆字節甚至千萬億字節成為可能。而且,數據倉庫允許用戶從面向事物處理的思維方式向更注重數據分析的方式進行轉變。然而,從這些多維模型的數據倉庫中提取復雜深度信息的能力是非常有限的。
1975 年,John Henry Holland 所著的《自然與人工系統中的適應》問世,成為遺傳算法領域具有開創意義的著作。這本書講解了遺傳算法領域中的基本知識,闡述理論基礎,探索其應用。
到了 80 年代,HNC 對“數據挖掘”這個短語注冊了商標。注冊這個商標的目的是為了保護名為“數據挖掘工作站”的產品的知識產權。該工作站是一種構建神經網絡模型的通用工具,不過現在早已銷聲匿跡。也正是在這個時期,出現了一些成熟的算法,能夠“學習”數據間關系,相關領域的專家能夠從中推測出各種數據關系的實際意義。
1989 年,術語“數據庫中的知識發現”(KDD)被Gregory Piatetsky-Shapiro 提出。同樣這個時期,他合作建立起第一個同樣名為KDD的研討會。
到了 90 年代,“數據挖掘”這個術語出現在數據庫社區。零售公司和金融團體使用數據挖掘分析數據和觀察趨勢以擴大客源,預測利率的波動,股票價格以及顧客需求。
1992 年,Berhard E. Boser, Isabelle M. Guyon 和 Vladimir N. Vanik對原始的支持向量機提出了一種改進辦法,新的支持向量機充分考慮到非線性分類器的構建。支持向量機是一種監督學習方法,用分類和回歸分析的方法進行數據分析和模式識別式。
1993 年,Gregory Piatetsky-Shapiro 創立“ Knowledge Discovery Nuggets (KDnuggets) ”通訊。本意是聯系參加KDD研討會的研究者,然而KDnuggets.com的讀者群現在似乎廣泛得多。
2001 年,盡管“數據科學”這個術語在六十年代就已存在,但直至 2001 年,William S. Cleveland 才以一個獨立的概念介紹它。根據《Building Data Science Teams》所著,DJ Patil 和 Jeff Hammerbacher 隨后使用這個術語介紹他們在 LinkedIn 和 Facebook 中承擔的角色 。
2003 年,Micheal Lewis 寫的 《點球成金》 出版,同時它也改變了許多主流聯賽決策層的工作方式。奧克蘭運動家隊(美國職業棒球大聯盟球隊)使用一種統計的,數據驅動的方式針對球員的素質進行篩選,這些球員被低估或者身價更低。以這種方式,他們成功組建了一支打進2002和2003年季后賽的隊伍,而他們的薪金總額只有對手的1/3。
如今(2015年),在 2015 年二月,DJ Patil成為白宮第一位首位數據科學家。今天,數據挖掘已經遍布商業、科學、工程和醫藥,這還只是一小部分。信用卡交易,股票市場流動,國家安全,基因組測序以及臨床試驗方面的挖掘,都只是指數據挖掘應用的冰山一角。隨著數據收集成本變得越來越低,數據收集設備數目激增,像大數據這樣的專有名詞現在已經是隨處可見。
數據挖掘的故事就是這樣,匆匆而過!我是否錯還過了什么值得提及的事情?我是不是對某些事情敘述的還不夠準確?請在下面的評論中讓我知道,或者直接郵件聯系我。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24