
數據挖掘研究的機遇及挑戰
隨著計算機的大量應用和數據量的急速增長,數據挖掘發揮著越來越重要的作用.數據挖掘經過近二十年的 發展.取得了很大的突破,包括了數據庫技術、人工智能技術、數理統計、可視化技術等技術熱點.其應用也越來越廣泛,同時。 也面臨著技術上的一些難題,如流數據挖掘、分布式數據挖掘、基因數據挖掘等等.
數據挖掘應用與機遇挑戰 隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應 用,人們積累的數據越來越多.數據呈爆炸性增長。各種數據廣 泛存在,數字。圖形、文字、表格、聲音等都是數據的種種表象,可 謂是數據的海洋.要從這數據的海洋中尋找有用的資料.就要靠 處理數據的手段來挖掘.人類分析數據到現在已經有上千年的 歷史了.從遠古時代人類開始在木頭上計數開始就是一個簡單 的數據分析過程.但是近代數據分析是用統計學的概念去處理 數據.隨著二戰的結束,一些非統計的數據分析工具.如人工智 能方面的技術開始應用到行業經濟中.到了二十世紀九十年代. 美國的一些應用者和學者把在數據海洋中尋找知識的過程叫 做”數據挖掘”.數據挖掘”(Data Mining)是一種新的信息處理技 術,其主要特點是對數據庫中的大量業務數據進行抽取、轉換、 分析和其他模型化處理.從中提取輔助決策的關鍵性數據.數據 挖掘與傳統的數據分析,如查詢、報表、OLAP(聯機應用分析)、 統計分析等數據分析技術的本質區別是數據挖掘是在明確假設 的前提下去挖掘信息、發現知識.
1、數據挖掘研究的起源 Usama Fayyadm是數據挖掘的開山師祖.1987年就讀密西根 大學時參加通用的暑期工作.目的是從數以萬計的維修記錄中 找出規則.協助維修人員迅速發現問題.Fayyad發現的pattern算 法.不但成為他1991年論文的主題,也衍生出后來數據挖掘技 術的發展.離開密西根后.Fayyad加入NASA的噴射推進實驗 室,他的算法在太空探測、地質研究等工作中均展現出了非常驚 人的潛力.數據挖掘最早被應用于天文學.即由機器學習、類型 辯識及統計等技術.在短短4小時內所發現的行星勝過了20多 位天文學家4年的成果.現在連美國軍方也開始應用這樣的技 術增強雷達解讀與辯識數據的能力. 對數據挖掘的定義存在多種說法:Groth啊認為”數據挖掘” 就是”挖掘”出數據中隱藏的模式,趨勢.關系的過程: Beryy&Lino樅為”數據挖掘”是通過自動或半自動的方式在海 量數據中發現有用的模式,規則的過程;Hand,Mannila&Smyth〔田 則認為”數據挖掘”是分析普通的數據(通常是海量的)來發現數 據之間比較穩定地關系.以易于理解的方式將數據總結出來向 數據所有者提供有價值的決策支持:Cabena etalm將”數據挖掘” 定義為從大量的數據庫中抽取出此前還沒發現的有效實用地的 信息,并且此后使用此信息來幫助制定關鍵的商業決策的過程.
綜合來說,數據挖掘就是從大量的、不完全的、有噪聲的、模 糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不 知道的、但又是潛在有用的信息和知識的過程.數據挖掘是一門 交叉學科。其技術歷經了20多年的發展.包括了數據庫技術、人 工智能技術、數理統計、可視化技術、并行計算等技術熱點.
今天,這些成熟的技術。加上高性能的關系數據庫引擎 以及廣泛的數據集成.讓數據挖掘技術在當前的數據倉庫環境 中進入了實用的階段. 在選擇數據挖掘的相關技術以及算法上.數據挖掘的理論 技術可分為傳統技術與改良技術兩類.傳統技術以統計分析為 代表.統計學內所含序列統計、概率論、回歸分析、類別數據分析 等都屬于傳統數據挖掘技術,尤其Data Mining對象多為變量繁 多且樣本數龐大的數據.高等統計學里之多變量分析中用來精 簡變量的因素分析(Factor Analysis)、用來分類的判別分析(D兇 criminant Analysis).以及用來區隔群體的分群分析(Cluster Analysis)等.在Data Mining過程中特別常用.在改良技術方面. 應用較普遍的有決策樹理論(Decision Trees)、類神經網絡(Neu. ral Network)以及規則歸納法(Rules Induction)等. 對數據挖掘而言.研究者必須考慮所要進行挖掘分類領域的 一些相關同題:如研究領域的特性、數據的質量、數據庫的組成是 否能表現這個議題、決策環境、人員因素以及這些因素間的潛在 互動等等.都是需要考慮的因素.可以用圖2來表示這個概念.
2、數據挖掘研究的應用與機遇 作為應用技術.數據挖掘可謂涵蓋廣泛。尤其在發達國 家.數據挖掘技術的觸角已經伸向了各行各業.只要某產業擁有 具分析價值與需求的數據倉儲或數據庫.皆可利用挖掘工具進 行有目的的挖掘分析.一般較常見的應用案例多發生在零售業、 直效行銷界、制造業、財務金融保險、通訊業以及醫療服務等.數 據挖掘的應用領域具體可以分為三類:第一類.商業與電子商務 數據.銀行、管理部門、網絡應用在商業運作過程中產生大量數 據.這些行業需要通過數據分析做出有效的決策.第二類,科學、 工程學和衛生保健數據.工程領域的數據往往比商業數據更復 雜,此外.科學家和工程師越來越多地使用模擬系統.第三類:網 絡數據.網絡上的數據不僅在數量上日益膨脹,在內容上也越來 越復雜.網絡數據已經不僅僅包括圖象、文本,還包括數據流和 數值數據.下面對每一類的具體應用作一介紹.
商業交易:國外的數據挖掘技術主要應用在了銀行業,典型 的例子就是信用卡,用數據挖掘技術來分析銀行客戶的信用等 級和資產發展趨勢,用以規避銀行風險.保險業借以此技術來防 止保險欺詐行為。并慢慢滲透到稅收、零售行業以及國家安全系 統的保障等等.
電子商務:電子商務的發展促使公司內部收集了大量的數 據。并且迫切需要將這些數據轉換成有用的信息和知識,為公司 萬方數據 福建電腦 2009年第3期 創造更多潛在的利潤.數據挖掘在電子商務的應用已進入了實 用階段.并取得了良好的效果.
基因數據:基因組作序和作圖產生大量的數據庫,這些數據 庫絕大部分尚未被挖掘。因為缺少理想的數據挖掘技術,基因挖 掘容易被忽視.
傳感器數據:衛星、浮標、氣球還有許多其他傳感器產生關 于大氣層、海洋、和陸地的大量數據.一個最大的挑戰就是研究 這些變量之間的關系,比如:工業污染影響全球氣候變暖嗎?
模擬系統數據:今天,模擬被認為是繼理論和實驗之后.科 學的第三種模式.模擬系統同實驗一樣產生大量數據.數據挖掘 被認為是理論、模擬和實驗之間一個關鍵的連接.
衛生保健數據:衛生保健日益成為國民生產總值中重要的 組成部分.醫院、衛生組織和保險公司擁有病人的大量信息:病 人的健康問題、醫療程序、成本和收益,理解它們之間的關系相 當重要.數據挖掘的一個獨特的用法就是用來預測手術、用藥、 診斷、或是流程控制的效率. 多媒體文本:文本的數量和使用文本的人日益增加,多媒體 技術也越來越容易接觸到.同時也越來越難以獲取有用的數據. 文本數據挖掘并不是一件容易的事情。尤其是在分析方法方面。 還有很多需要研究的專題.
Web數據:今天.Web主要面向文本和多媒體設備.HTML 雖然已被認為是最強大、最有力的工具。但也受到許多使用者的 批評.未來.Web將是數據處理最重要的工具,以xML為基礎的 新一代WWW環境是直接面對Web數據的.不僅可以很好地兼 容原有的Web應用.而且可以更好地實現Web中的信息共享與 交換.隨著XML的發展.數據挖掘將可成為網絡數據的關鍵技 術. 未來幾年.數據挖掘將是極為重要的成長領域,數據挖掘的 應用越來越廣泛.
研究結果顯示.企業所處理的數據每五年就會 璺現倍數增長.大部分的企業并沒有數據不足的問題.過度的數 據重復與不一致才是大問題.這使得企業無論在使用、有效管 理、以及將這些數據用于決策過程方面都遭遇到了問題.因此市 場需要的是能夠將數據轉變成可靠與可用信息的系統.不同領 域的專家對數據挖掘都表現出了極大的興趣.例如在信息服務 業中出現了一些應用.在Internet之數據倉儲和線上服務中也給 企業增加了許多生機.同時在產學合作下.又發展出了許多實用 的系統.例如MDT、Coverstory and Spotlight、Nieh work visualiza- tion system LBS、FALCON、FAIS、NYNEX、TASA等等.目前已 被許多研究者視為結合數據庫系統和機器學習技術的重要領 域.對于研究者來說.數據挖掘是個充滿潛力和機遇無限的研究 領域.
3.數據挖掘研究面臨的挑戰
目前.數據挖掘算法雖然已經取得了很大的突破,但在實際 應用中.數據挖掘技術還存在相當多的難題和困難,對于研究者 來說.數據挖掘是個充滿挑戰性的領域.
3.1流數據挖掘. 一個重要的問題是挖掘大數據庫(如100 TS)的數據流,這 些數據流廣泛存在互聯網、無線通信網絡、地質測量、氣象、天文 觀測等方面,由于數據流迅速、大量、連續地到達,因此現有的數 據挖掘算法在處理如此大量的數據方面速度太慢了,需要研究 新的算法.與此同時.數據流需要以近實時的方式對更新流進行 復雜分析.這對研究者來說也是一個挑戰.
3.2分布式數據挖掘. 出于對安全性、容錯性、商業競爭以及法律約束等多方面因 素的考慮.在許多情況下,將所有數據集中在一起進行分析往往 是不可行的.隨著各相關學科的飛速發展。各種網絡尤其是In- temet的廣泛使用.同時,實際應用要求數據挖掘系統具有更好 的可擴展性.分布式數據挖掘系統則可以充分利用分布式計算 的能力對相關的數據進行分析與綜合.如研究某種疾病在某地 的發病情況與氣候的關系(疾病控制數據庫+環境數據庫);金融 組織問通過合作防止信用卡欺詐(數據共享);大型跨國公司營 銷策略的制定(銷售點分散.數據倉庫構造十分耗時).分布式數 據挖掘正是在這一背景下產生的.它是數據挖掘技術與分布式 計算的有機結合.主要用于分布式環境下的數據模式發現.分布 式數據挖掘面臨的問題是研究算法.實現對不同數據源、多重數 據庫間的挖掘.
3.3時問序列數據挖掘. 時問序列是數據存在的特殊形式,序列的過去值會影響到 將來值。這種影響的大小以及影響的方式可由時間序列中的趨 勢周期及非平穩等行為來刻畫.一般來講,時間序列數據都具有 噪聲、不穩定、隨機性等特點,這就使得正確進行短期和長期的 預測都非常困難.如何解決時間序列數據的噪聲問題。從而有效 地聚類、分類和預測數據趨勢仍然是個有待解決的問題.對于這 類數據的預測方法目前主要有自動回歸滑動平均(ARMA)和神 經網絡等,但這些方法有一些缺點是很難克服的.ARMA包含的 是線性行為,對于非線性的因素沒有包含;而神經網絡的結構需 要事先指定或應用啟發式算法在訓練過程中修正:同時神經網 絡得到的解是局部最優而非全局最優.例如在金融時間序列預 測中,雖然小波分析可去掉噪聲。但通常會帶來滯后的問題,從 而減低了預測的準確程度.現今的數據挖掘方法在處理噪聲數 據方面仍然有很大的困難.
3.4生物醫學或基因數據挖掘 目前.生物醫學或基因學領域的進步產生了大量的數據.對 于生物信息或基因的數據挖掘和通常的數據挖掘相比.無論在 數據的復雜程度、數據量還有分析和建立模型的算法而言。都要 復雜得多.例如:基因和蛋白質在數量上巨大(DNA分子可以有 上億對),結構非常復雜,彼此之間的作用善未被發現;在生物醫 學的許多方面如進化論、生物數據clean、生物序列分析、生物網 絡分析.生物圖象分析等等.從分析算法上講.更需要一些新的 和好的算法.現在很多廠商正在致力于這方面的研究.但就技術 和軟件而言.還遠沒有達到成熟的地步.
3.5可視化數據挖掘 目前.在可視化工具方面已經有所發展.可視化工具除了較 常見的柱形或條形統計圖表、餅圖、曲線、柱狀圖、箱線圖等等, 還有其他工具如幾何圖形(如平行坐標)、分級技術、圖標技術. 可視化數據挖掘對于研究者是個充滿吸引力的領域.因為可視 化技術可以幫助研究者更好地解釋數據、發現數據的模式.通過 發展技術和系統來尋求數據挖掘過程中的可視化方法.使知識 發現的過程易于被用戶理解和操縱.可使數據挖掘過程成為用 戶業務流程的一部分.也便于在知識發現的過程中進行人機交 互:包括數據用戶化呈現與交互操縱兩部分.
3.6過程數據挖掘 一個重要的問題是如何使數據挖掘過程自動化.在數據挖 掘系統里面建立一種方法來幫助用戶避免許多數據挖掘中的錯 誤.如果我們能夠將各種數據挖掘過程自動化,就可以大大地減 少勞力.莉用目前的技術雖然可以快速地建模和尋找模式.但 90%的成本浪費在預處理上,減少這些成本將極大地降低建模 的成本.另一個重要的問題是如何將可視化和自動化數據挖掘 技術結合在一起,在很多應用上,數據挖掘的目標和任務不太明 確,特別是在實驗性數據分析.可視化可以幫助我們獲取數據的 更多信息和明確數據挖掘的任務.
3.7動態數據、RFID數據和傳感器網絡數據挖掘 隨著傳感器網絡、GPS、手機和其他移動設備和RFID技術 的普遍。大量動態數據需要被分析.在動態數據、RFID數據和傳 感器數據挖掘領域里,還有許多尚未被研究的問題:例如。尋找 關聯和規則性來clean有噪音的傳感器網絡和RnD數據、如何 為這些數據構建數據倉庫、如何對千兆字節的RFID數據進行 挖掘、如何chesty多維軌道數據等等.
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25