
數據挖掘又譯為數據采礦,它是數據庫知識發現中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性的信息的過程。如今,“數據挖掘”被到處亂用,從業務人員用一個現代的模式識別方法到數據庫分析員用SQL做查詢。
最近,我看到不少關于挖掘九律的帖子和討論,但他們并沒有提到其創始人,那個將數據挖掘簡潔地描述出來并在整個社區流傳開來的人。這令人遺憾,因為我們可以從挖掘九律中受益良多,并且Khabaza本身就是個你該知道的創造者。他是最早的數據挖掘專家,任職于克萊門汀數據挖掘工作組的開發者之一。當你聽說數據挖掘已廣泛應用于電信和執法之中時,你該知道其奠基人就是是Khabaza。
下面是Tom Khabaza的“挖掘九律”介紹
挖掘九律之一,“業務目標律”:業務目標是所有數據挖掘解決方案的本源
我們探索數據,發掘信息,來幫助我們更好的處理業務。 這難道不是所有業務分析的圣歌嗎?很明確,這就該是第一律。每個人都該理解數據挖掘是一個有目標的流程。真的挖掘人員不會在泥沼里打滾,他們有條不紊的按照流程來將有價值的東西暴露出來。數據挖掘人員也是要有條不紊地尋找對他們有價值的信息。
引用Tom Khabaza的話:“數據挖掘,首先它不是技術,而是流程,其中有著一個或多個業務目標。沒有業務目標的話……就沒有數據挖掘?!?br />
挖掘九律之二,“業務知識律”:業務知識是數據挖掘每一步的核心
我們周圍有著一個普遍且嚴重的誤解——數據挖掘不需要 研究人員了解任何事。這是對真正的數據挖掘理論的誤讀,即從數據中發掘有用的模式,能夠也應該交由沒有經過正規統計學訓練的業務人員。數據挖掘是要讓人 ——應用業務知識、經驗和洞察力,并依靠數據挖掘方法的業務人員——變得強大,來找到隱含于數據中的意義。
挖掘九律之三,“數據準備律”:數據準備能讓數據挖掘流程事半功倍
這一點對于那些和數據打過交道的人來說毫無意外,無論你是數據挖掘專家,分析人員或者其他職位。然而,還有其他的神話圍繞著數據挖掘,說數據挖掘會克服數據質量和完整性的問題。這一神話被那些長期被遺忘的數據挖掘產品供應商所傳播,但數據挖掘社區依然努力讓數據記錄更加正常,數據挖掘需要良好的數據。
當然,僅僅有良好的數據是不夠的。對數據的操作是挖掘過程的重要環節,Tom Khabaza解釋道:
“原理要比數據的狀態更深入:隨著數據的準備,數據挖掘人員要定義問題空間。有兩個關于“問題空間”的觀點。第一個是數據挖掘人員將數據轉換成適合于算法應用的形式就夠了——對于絕大多數算法來說,這意味著一個樣本一行記錄。第二個是數據挖掘人員要通過利用有用的信息來優化數據或者將信息轉化為更有效的形式,從而易于讓算法找到解決方案。如樣本包含了計算項,分級,和計算日期時間差?!?br />
挖掘 九律之四,“天下沒有免費的午餐”:只有通過實驗才能發現給定應用的正確模型
(NFL-DM = “There is No Free Lunch for the Data Miner”)
現在我們可以開始些有趣的討論。在本文的最后,我將指導你到那些可以讀到、參與到的相關討論中?,F在,最重要的是,你要認識到實驗是數據挖掘理論和實踐的核心。
挖掘九律之五,“沃特金斯定律”:總會有模式存在
數據挖掘人員的實踐經驗就是,當探索數據的時候,總能發現有用的模式。
(沃特金斯,Watkins,即David Watkins,也是克萊門汀的知名數據挖掘開發者。)
挖掘九律之六: 數據挖掘將業務領域的感知放大
這一條的意思是,得益于數據挖掘算法和流程——是它們照亮了數據中的那些可能會被埋沒的模式。
挖掘九律之七,“預測定律”:預測將信息從局部擴散到整體
這是我最難在腦海中理清的一條,但它意味著:
數據挖掘提供給我們一種途徑,來看到那些未知的結果,并找到那些已知的相似情況(原文:Data mining offers us ways to look at a case whose outcome is unknown, and find similarities to past cases where the outcome is known)。通過理解這些相似性,我們獲得了推測未來的信息。
挖掘九律之八,“價值定律”:數據挖掘的結果的價值并不取決于預測模型的精度和穩定性
流程的真正價值在于滿足了業務需要,當然,模型的精度和穩定是好的,但較之于業務預測的價值,有意義的洞察力之價值,或者應用預測于實際的價值來講要小得多。
挖掘九律之九,“變化律” :所有的模式都會受到變化
今天還能帶來業務價值的模型,可能明天就過時了。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25