
作者 | 陳封能
來源 | 《數據挖掘導論》(原書第2版)
導讀:數據采集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。
然而,數據的數量(體積)、復雜性(多樣性)以及收集和處理的速率(速度)對于人類來說都太大了,無法進行獨立分析。因此,盡管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。
數據挖掘將傳統的數據分析方法與用于處理大量數據的復雜算法相結合,本文將介紹數據挖掘的概況。
1. 商業和工業
借助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智能卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日志、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。
數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分布、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。
數據挖掘還能幫助零售商回答一些重要的商業問題,如:“誰是最有價值的顧客?”“什么產品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數據挖掘技術的發展,比如關聯分析。
隨著互聯網不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發布信息,這為使用Web數據的商務應用提供了機會。
例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基于互聯網的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯系。
互聯網上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。
另一個經歷大數據快速轉型的應用領域是移動傳感器和移動設備的使用,如智能手機和可穿戴計算設備。借助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。
在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分布式的數據,可用于設計方便、安全、節能的家庭系統,以及規劃智能城市。
2. 醫學、科學與工程
醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。
然而,由于這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:“干旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯系?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”
再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。
這種比較有助于確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由于數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。
另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,并提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。
然而,只有患者在看醫生或住院期間才能對他們進行觀察,并且在任何特定訪問期間只能測量關于患者健康的少量細節,因此存在重大挑戰。
目前,EHR分析側重于簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更復雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。
盡管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。
數據挖掘是在大型數據庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。
并非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在數據庫中查找個別記錄,或查找含特定關鍵字的網頁。這是因為這些任務可以通過與數據庫管理系統或信息檢索系統的簡單交互來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理算法,有效地組織和檢索大型數據存儲庫的信息。
盡管如此,數據挖掘技術可以基于搜索結果與輸入查詢的相關性來提高搜索結果的質量,因此被用于提高這些系統的性能。
數據挖掘是數據庫中知識發現(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示。該過程包括一系列轉換步驟,從數據預處理到數據挖掘結果的后處理。
▲圖1 數據庫中知識發現(KDD)過程
輸入數據可以以各種形式存儲(平面文件、電子表格或關系表),并且可以存儲在集中式數據庫中,或分布在多個數據站點上。預處理(preprocessing)的目的是將原始輸入數據轉換為適當的格式,以便進行后續分析。
數據預處理涉及的步驟包括融合來自多個數據源的數據,清洗數據以消除噪聲和重復的觀測值,選擇與當前數據挖掘任務相關的記錄和特征。由于收集和存儲數據的方式多種多樣,數據預處理可能是整個知識發現過程中最費力、最耗時的步驟。
“結束循環”(closing the loop)通常指將數據挖掘結果集成到決策支持系統的過程。例如,在商業應用中,數據挖掘的結果所揭示的規律可以與商業活動管理工具結合,從而開展或測試有效的商品促銷活動。
這樣的結合需要后處理(postprocessing)步驟,確保只將那些有效的和有用的結果集成到決策支持系統中。后處理的一個例子是可視化,它使得數據分析者可以從各種不同的視角探査數據和數據挖掘結果。在后處理階段,還能使用統計度量或假設檢驗,刪除虛假的數據挖掘結果。
前面提到,面臨大數據應用帶來的挑戰時,傳統的數據分析技術經常遇到實際困難。下面是一些具體的問題,它們引發了人們對數據挖掘的研究。
1. 可伸縮
由于數據產生和采集技術的進步,數太字節(TB)、數拍字節(PB)甚至數艾字節(EB)的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。許多數據挖掘算法采用特殊的搜索策略來處理指數級的搜索問題。為實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。
例如,當要處理的數據不能放進內存時,可能需要核外算法。使用抽樣技術或開發并行和分布式算法也可以提高可伸縮程度。
2. 高維性
現在,常常會遇到具有成百上千屬性的數據集,而不是幾十年前常見的只具有少量屬性的數據集。在生物信息學領域,微陣列技術的進步已經產生了涉及數千特征的基因表達數據。具有時間分量或空間分量的數據集也通常具有很高的維度。
例如,考慮包含不同地區的溫度測量結果的數據集,如果在一個相當長的時間周期內反復地測量,則維數(特征數)的增長正比于測量的次數。為低維數據開發的傳統數據分析技術通常不能很好地處理這類高維數據,如維災難問題。此外,對于某些數據分析算法,隨著維數(特征數)的增加,計算復雜度會迅速增加。
3. 異構數據和復雜數據
通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,或者是連續的,或者是分類的。隨著數據挖掘在商務、科學、醫學和其他領域的作用越來越大,越來越需要能夠處理異構屬性的技術。
近年來,出現了更復雜的數據對象。這種非傳統類型的數據如:含有文本、超鏈接、圖像、音頻和視頻的Web和社交媒體數據,具有序列和三維結構的DNA數據,由地球表面不同位置、不同時間的測量值(溫度、壓力等)構成的氣候數據。
為挖掘這種復雜對象而開發的技術應當考慮數據中的聯系,如時間和空間的自相關性、圖的連通性、半結構化文本和XML文檔中元素之間的父子關系。
4. 數據的所有權與分布
有時,需要分析的數據不會只存儲在一個站點,或歸屬于一個機構,而是地理上分布在屬于多個機構的數據源中。這就需要開發分布式數據挖掘技術。分布式數據挖掘算法面臨的主要挑戰包括:
5. 非傳統分析
傳統的統計方法基于一種假設檢驗模式,即提出一種假設,設計實驗來收集數據,然后針對假設分析數據。但是,這一過程勞力費神。當前的數據分析任務常常需要產生和評估數千種假設,因此需要自動地產生和評估假設,這促使人們開發了一些數據挖掘技術。
此外,數據挖掘所分析的數據集通常不是精心設計的實驗的結果,并且它們通常代表數據的時機性樣本(opportunistic sample),而不是隨機樣本(random sample)。
一些其他領域也起到重要的支撐作用。特別是,需要數據庫系統提供高效的存儲、索引和查詢處理。源于高性能(并行)計算的技術在處理海量數據集方面常常是非常重要的。分布式技術還可以幫助處理海量數據,并且當數據不能集中到一起處理時顯得尤為重要。圖2顯示了數據挖掘與其他領域之間的聯系。
▲圖2 數據挖掘匯集了許多學科的知識
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25