熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘歷史中的重要里程碑
數據挖掘歷史中的重要里程碑
2015-09-11
收藏

數據挖掘歷史中的重要里程碑



數據挖掘現在隨處可見,而它的故事在《點球成金》出版和“棱鏡門”事件發生之前就已經開始了。下文敘述的就是數據挖掘的主要里程碑,歷史上的第一次,它是怎樣發展以及怎樣與數據科學和大數據融合。


    數據挖掘是在大數據集(即:大數據)上探索和揭示模式規律的計算過程。它是計算機科學的分支,融合了統計學、數據科學、數據庫理論和機器學習等眾多技術。


    你知道嗎?大數據歷史可以追溯到1887年


    專稿:大數據簡史


    1763 年,Thomas Bayes 的論文在他死后發表,他所提出的 Bayes 理論將當前概率與先驗概率聯系起來。因為 Bayes 理論能夠幫助理解基于概率估計的復雜現況,所以它成為了數據挖掘和概率論的基礎。


    1805 年, Adrien-Marie Legendre 和 Carl Friedrich Gauss 使用回歸確定了天體(彗星和行星)繞行太陽的軌道?;貧w分析的目標是估計變量之間的關系,在這個例子中采用的方法是最小二乘法。自此,回歸成為數據挖掘的重要工具之一。


    1936 年,計算機時代即將到來,它讓海量數據的收集和處理成為可能。在1936年發表的論文《論可計算數(On Computable Numbers)》中,Alan Turing 介紹了通用機(通用圖靈機)的構想,通用機具有像今天的計算機一般的計算能力?,F代計算機就是在圖靈這一開創性概念上建立起來的。


    1943 年,Warren McCullon 和 Walter Pitts 首先構建出神經網絡的概念模型。在名為 《A logical calculus of the ideas immanent in nervous activity》 的論文中,他們闡述了網絡中神經元的概念。每一個神經元可以做三件事情:接受輸入,處理輸入和生成輸出。


    1965 年,Lawrence J. Fogel 成立了一個新的公司,名為 Decision Science, Inc,目的是對進化規劃進行應用。這是第一家專門將進化計算應用于解決現實世界問題的公司。


    上世紀 70 年代,隨著數據庫管理系統趨于成熟,存儲和查詢百萬兆字節甚至千萬億字節成為可能。而且,數據倉庫允許用戶從面向事物處理的思維方式向更注重數據分析的方式進行轉變。然而,從這些多維模型的數據倉庫中提取復雜深度信息的能力是非常有限的。


    1975 年,John Henry Holland 所著的《自然與人工系統中的適應》問世,成為遺傳算法領域具有開創意義的著作。這本書講解了遺傳算法領域中的基本知識,闡述理論基礎,探索其應用。


    到了 80 年代,HNC 對“數據挖掘”這個短語注冊了商標。注冊這個商標的目的是為了保護名為“數據挖掘工作站”的產品的知識產權。該工作站是一種構建神經網絡模型的通用工具,不過現在早已銷聲匿跡。也正是在這個時期,出現了一些成熟的算法,能夠“學習”數據間關系,相關領域的專家能夠從中推測出各種數據關系的實際意義。


    1989 年,術語“數據庫中的知識發現”(KDD)被Gregory Piatetsky-Shapiro 提出。同樣這個時期,他合作建立起第一個同樣名為KDD的研討會。


    到了 90 年代,“數據挖掘”這個術語出現在數據庫社區。零售公司和金融團體使用數據挖掘分析數據和觀察趨勢以擴大客源,預測利率的波動,股票價格以及顧客需求。


    1992 年,Berhard E. Boser, Isabelle M. Guyon 和 Vladimir N. Vanik對原始的支持向量機提出了一種改進辦法,新的支持向量機充分考慮到非線性分類器的構建。支持向量機是一種監督學習方法,用分類和回歸分析的方法進行數據分析和模式識別式。


    1993 年,Gregory Piatetsky-Shapiro 創立“ Knowledge Discovery Nuggets (KDnuggets) ”通訊。本意是聯系參加KDD研討會的研究者,然而KDnuggets.com的讀者群現在似乎廣泛得多。


    2001 年,盡管“數據科學”這個術語在六十年代就已存在,但直至 2001 年,William S. Cleveland 才以一個獨立的概念介紹它。根據《Building Data Science Teams》所著,DJ Patil 和 Jeff Hammerbacher 隨后使用這個術語介紹他們在 LinkedIn 和 Facebook 中承擔的角色 。


    2003 年,Micheal Lewis 寫的 《點球成金》 出版,同時它也改變了許多主流聯賽決策層的工作方式。奧克蘭運動家隊(美國職業棒球大聯盟球隊)使用一種統計的,數據驅動的方式針對球員的素質進行篩選,這些球員被低估或者身價更低。以這種方式,他們成功組建了一支打進2002和2003年季后賽的隊伍,而他們的薪金總額只有對手的1/3。


    如今(2015年),在 2015 年二月,DJ Patil成為白宮第一位首位數據科學家。今天,數據挖掘已經遍布商業、科學、工程和醫藥,這還只是一小部分。信用卡交易,股票市場流動,國家安全,基因組測序以及臨床試驗方面的挖掘,都只是指數據挖掘應用的冰山一角。隨著數據收集成本變得越來越低,數據收集設備數目激增,像大數據這樣的專有名詞現在已經是隨處可見。


    數據挖掘的故事就是這樣,匆匆而過!我是否錯還過了什么值得提及的事情?我是不是對某些事情敘述的還不夠準確?


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢