熱線電話:13121318867

登錄
首頁精彩閱讀走出數據挖掘的誤區
走出數據挖掘的誤區
2016-07-10
收藏

走出數據挖掘的誤區

數據挖掘是從數據集中識別出有效的、新穎的、潛在并有用的、最終可理解的模式的非平凡過程。它綜合使用統計分析、數據倉庫、人工智能、信息科學等多個學科的技術,從海量的客戶數據中找出傳統經營分析方法難以洞察的客戶行為模式,給出客戶的詳細描述,并可以有效預測客戶的行為傾向。目前,數據挖掘在電信運營企業中的應用越來越廣。但隨著應用的深入,偏差和誤區也頻繁出現,包括操作、流程、思路、方法、工具等。筆者試圖從經典的數據挖掘理論和電信企業數據挖掘實踐出發,找出常見的一些技術和業務問題,并給出避免或者解決這些問題的方法。

數據挖掘萬能論:身邊的永動機

我們身邊有永動機么?沒有,但是如果這樣講:“數據挖掘是萬能的,它可以計算出你想要的任何東西,只要有數據?!薄@句話就是永動機的理論。在數據挖掘的經典理論中,模式并非一定存在,模式不明顯到與隨機分布差不多的時候,就根本沒有模式。翻譯成電信語言就是:如果流失客戶在系統中的數據與未流失客戶的特征沒有任何差別,那么流失是不可預測的。避免這類錯誤的方法只有一個:了解數據挖掘的經典理論和基本概念。

◆命中率神話:揭開效果之謎

用分類技術(決策樹、神經網絡)作流失預測的時候,很多工程師會跟甲方承諾一個命中率。命中率的概念是工程師給出的流失客戶的名單中下個月真正流失客戶的占比。這個值好像越高越好,其實不然。這是因為數據挖掘軟件作的預測實際上是一種概率的判決,必然存在錯誤的判斷。精確的說法應該是在一定比例內的命中率。比如本地網有10萬個客戶,則3000人名單的準確率、5000人名單的準確率、1萬人名單的準確率的說法才是科學的。企業需要實事求是,根據自己的業務需求確定一個綜合考慮覆蓋率的準確率期望。

◆軟件工具必須買:造中國自己的原子彈

有些企業經理認為,軟件工具必須購買大公司開發的,其復雜、專業、有權威的示范性。但它是否適應企業或者適應研究的業務并不在經理們重點考慮的范圍內。如果我們經常穿梭于專業的數據挖掘工作組,就會發現真正的高手是不使用商業數據挖掘軟件的,即使使用,也用SASEM這樣的可以寫代碼的軟件。他們的工作方法是:探索數據、找合適的算法、簡單編碼實現、跑數據和寫報告,因為應用的層次深化和效果提升才是最重要的。中國可以造自己的原子彈,運營商呢?

◆工程師的水平標桿:智慧庫與會說話的工具

企業招聘數據挖掘工程師時,應聘者眾多,有人自稱從事數據挖掘工作已20年,但事實上,國內人士研究數據挖掘才不過十年。很多人認為統計也是數據挖掘,那么,如何去衡量數據挖掘工程師的真實實力與水平呢?第一,看他理論基礎。第二,看他掌握方法。沒有足夠的數學模型能力、統計分析能力、邏輯分析能力的工程師是不合格的。第三,看他創新能力。一句話,好的數據挖掘工程師是可以依靠的智慧庫,不那么優秀的數據挖掘工程師只是會說話的工具。

◆模型不用更新:流水不腐,戶樞不蠹

有人說,模型做好了就不用更新了。中國古諺“流水不腐,戶樞不蠹”,用在數據挖掘上再合適不過??蛻羰橇鲃拥?、業務是變化的、政策是滾動的、對手是狡猾的、經濟是波動的,那么模型是固定的嗎?不是,一系列的變化使得客戶的行為模式發生變化,模型也要適時更新,否則商機若失,必成庸碌之輩。

◆算法都一樣:西裝穿球鞋

有不少僅僅懂得數據挖掘技術皮毛的人會大手一揮:算法都是一樣的,不就是聚個類、預個測嗎?我們都知道穿西裝是不可以穿球鞋的,因為不匹配,在數據挖掘實踐中,算法是死板的,沒有一種算法可以一統江湖,算法的適用性非常重要,對噪聲點多而且多為奇異點的數據,最好不用K-means這樣的算法,而要采用DBSCAN;反之遇到數據為球狀簇分布而且呈啞鈴狀的粘連簇,K-means的表現要遠好于DBSCAN。

數據挖掘就是軟件:腦指揮手還是手指揮腦

有人可能說,數據挖掘不就是一個軟件嗎?管理科學一直是先進技術與理念的最佳試驗場,從ERP、MRPII、OLAP、CRM(客戶關系管理)到DM(數據挖掘),我們都會有這樣一個經驗,管理不是一個軟件,系統更不僅僅是一個軟件。上了CRM軟件不見得就搞好了客戶關系,數據挖掘軟件一裝,模型一跑,也并不是一個真正的數據挖掘系統。軟件工具是手,而工程師是大腦,我們需要的是智慧的人腦指揮能干的手,而不是不動腦地動手或者手指揮腦。數據挖掘軟件的戰斗力體現在使用者的智慧上。

◆會統計就會挖掘:老虎不會上樹

有人說,統計很牛,挖掘就很牛。首先,我們承認統計學與數據挖掘存在較為密切的關系。但是兩者并無特別聯系,在數據挖掘的各個發展階段,只有一個子方向的開拓可以算在統計學的功勞上,那就是貝葉斯網絡。我們希望統計回歸本位,既不托得太高,也不能看得太低:數據挖掘工程師都是具有統計分析能力的,統計分析數據挖掘的基礎能力和基本步驟之一。貓和老虎長得真像,可是老虎不會上樹啊。

◆業務重于挖掘結果:用人莫疑,疑人莫用

有這樣的本地網,挖掘結果出來以后,與業務經驗有些偏差,比如在模式的理解上有矛盾,業務人員認為結果不對,仍然按照業務經驗修訂結果。

俗語云:用人莫疑,疑人莫用。既然花了成本做了數據挖掘,就要尊重客觀的挖掘結果,如果與業務經驗矛盾,需要檢查挖掘的各個步驟,找出問題在哪里;如果沒有問題,那么就是過去的業務理解錯了,敢于面對現實,糾正以往的偏差,不失為一種風度和智慧。

數據挖掘沒有用:淮南淮北,橘枳相異

有的本地網做完了數據挖掘項目,發現效果不好,于是得出結論:數據挖掘沒有用。其實,橘生淮南則為橘,生淮北則為枳。一水之隔,本質區別,如同考試的時候59分與60分就差1分,但是兩種結果。數據挖掘的成功需要很多條件,缺一不可:第一,良好的數據環境;第二,優秀的工程師;第三,適應目標數據集的軟件工具;第四,分析目標數據集存在可被挖掘的非隨機的模式信息。解決數據挖掘有效性問題的方法就是檢查數據挖掘的各個步驟。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢