
從數據分析的角度來看,數據挖掘與機器學習有很多相似之處,但不同之處也十分明顯,例如,數據挖掘并沒有機器學習探索人的學習機制這一科學發現任務,數據挖掘中的數據分析是針對海量數據進行的,等等。從某種意義上說,機器學習的科學成分更重一些,而數據挖掘的技術成分更重一些。
機器學習(Machine Learning,ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。其專門研究計算機是怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構,使之不斷改善自身的性能。
數據挖掘是從海量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘中用到了大量的機器學習界提供的數據分析技術和數據庫界提供的數據管理技術。
學習能力是智能行為的一個非常重要的特征,不具有學習能力的系統很難稱之為一個真正的智能系統,而機器學習則希望(計算機)系統能夠利用經驗來改善自身的性能,因此該領域一直是人工智能的核心研究領域之一。在計算機系統中,“經驗”通常是以數據的形式存在的,因此,機器學習不僅涉及對人的認知學習過程的探索,還涉及對數據的分析處理。實際上,機器學習已經成為計算機數據分析技術的創新源頭之一。由于幾乎所有的學科都要面對數據分析任務,因此機器學習已經開始影響到計算機科學的眾多領域,甚至影響到計算機科學之外的很多學科。機器學習是數據挖掘中的一種重要工具。然而數據挖掘不僅僅要研究、拓展、應用一些機器學習方法,還要通過許多非機器學習技術解決數據倉儲、大規模數據、數據噪聲等實踐問題。機器學習的涉及面也很寬,常用在數據挖掘上的方法通常只是“從數據學習”。然而機器學習不僅僅可以用在數據挖掘上,一些機器學習的子領域甚至與數據挖掘關系不大,如增強學習與自動控制等。所以筆者認為,數據挖掘是從目的而言的,機器學習是從方法而言的,兩個領域有相當大的交集,但不能等同。
下圖是一個典型的推薦類應用,需要找到“符合條件的”潛在人員。要從用戶數據中得出這張列表,首先需要挖掘出客戶特征,然后選擇一個合適的模型來進行預測,最后從用戶數據中得出結果。
把上述例子中的用戶列表獲取過程進行細分,有如下幾個部分。
業務理解:理解業務本身,其本質是什么?是分類問題還是回歸問題?數據怎么獲取?應用哪些模型才能解決?
數據理解:獲取數據之后,分析數據里面有什么內容、數據是否準確,為下一步的預處理做準備。
數據預處理:原始數據會有噪聲,格式化也不好,所以為了保證預測的準確性,需要進行數據的預處理。
特征提?。?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征提取是機器學習最重要、最耗時的一個階段。
模型構建:使用適當的算法,獲取預期準確的值。
模型評估:根據測試集來評估模型的準確度。
模型應用:將模型部署、應用到實際生產環境中。
應用效果評估:根據最終的業務,評估最終的應用效果。
整個過程會不斷反復,模型也會不斷調整,直至達到理想效果。
1 尿布和啤酒的故事
先來看一則有關數據挖掘的故事——“尿布與啤酒”。
總部位于美國阿肯色州的世界著名商業零售連鎖企業沃爾瑪擁有世界上最大的數據倉庫系統。為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據,在這些原始交易數據的基礎上,沃爾瑪利用NCR數據挖掘工具對這些數據進行分析和挖掘。一個意外的發現是:跟尿布一起購買最多的商品竟然是啤酒!這是數據挖掘技術對歷史數據進行分析的結果,反映了數據的內在規律。那么,這個結果符合現實情況嗎?是否有利用價值?
于是,沃爾瑪派出市場調查人員和分析師對這一數據挖掘結果進行調查分析,從而揭示出隱藏在“尿布與啤酒”背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買完尿布后又隨手帶回了他們喜歡的啤酒。
既然尿布與啤酒一起被購買的機會很多,于是沃爾瑪就在其各家門店將尿布與啤酒擺放在一起,結果是尿布與啤酒的銷售量雙雙增長。
2 決策樹用于電信領域故障快速定位
電信領域比較常見的應用場景是決策樹,利用決策樹來進行故障定位。比如,用戶投訴上網慢,其中就有很多種原因,有可能是網絡的問題,也有可能是用戶手機的問題,還有可能是用戶自身感受的問題。怎樣快速分析和定位出問題,給用戶
一個滿意的答復?這就需要用到決策樹。
下圖就是一個典型的用戶投訴上網慢的決策樹的樣例。
3 圖像識別領域
百度的百度識圖能夠有效地處理特定物體的檢測識別(如人臉、文字或商品)、通用圖像的分類標注。
來自Google研究院的科學家發表了一篇博文,展示了Google在圖形識別領域的最新研究進展?;蛟S未來Google的圖形識別引擎不僅能夠識別出圖片中的對象,還能夠對整個場景進行簡短而準確的描述。這種突破性的概念來自機器語言翻譯方面的研究成果:通過一種遞歸神經網絡(RNN)將一種語言的語句轉換成向量表達,并采用第二種RNN將向量表達轉換成目標語言的語句。
而Google將以上過程中的第一種RNN用深度卷積神經網絡CNN替代,這種網絡可以用來識別圖像中的物體。通過這種方法可以實現將圖像中的對象轉換成語句,對圖像場景進行描述。概念雖然簡單,但實現起來十分復雜,科學家表示目前實驗產生的語句合理性不錯,但距離完美仍有差距,這項研究目前僅處于早期階段。下圖展示了通過此方法識別圖像對象并產生描述的過程。
4 自然語言識別
自然語言識別一直是一個非常熱門的領域,最有名的是蘋果的Siri,支持資源輸入,調用手機自帶的天氣預報、日常安排、搜索資料等應用,還能夠不斷學習新的聲音和語調,提供對話式的應答。
微軟的Skype Translator可以實現中英文之間的實時語音翻譯功能,將使得英文和中文普通話之間的實時語音對話成為現實。
Skype Translator的運作機制如圖。
在準備好的數據被錄入機器學習系統后,機器學習軟件會在這些對話和環境涉及的單詞中搭建一個統計模型。當用戶說話時,軟件會在該統計模型中尋找相似的內容,然后應用到預先“學到”的轉換程序中,將音頻轉換為文本,再將文本轉換成另一種語言。
雖然語音識別一直是近幾十年來的重要研究課題,但是該技術的發展普遍受到錯誤率高、麥克風敏感度差異、噪聲環境等因素的阻礙。將深層神經網絡(DNNs)技術引入語音識別,極大地降低了錯誤率、提高了可靠性,最終使這項語音翻譯技術得以廣泛應用。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24