熱線電話:13121318867

登錄
首頁精彩閱讀一小時了解數據挖掘④:商務智能原理解讀の數據挖掘九大定律---數據分析師
一小時了解數據挖掘④:商務智能原理解讀の數據挖掘九大定律---數據分析師
2014-12-11
收藏

馬云在2012年網商大會上的演講中說過:“假如我們有了一個數據預報臺,就像為企業裝上了一個GPS和雷達,企業的出海將會更有把握?!?。這里的數據預報臺就是下文所述的商業智能。

什么是商業智能(Business Intelligence)

數據挖掘的最終目的是要實現數據的價值,而商業智能是在企業中實現數據價值的最佳方式之一。商業智能(Business Intelligence,簡 稱BI)的概念最早是Gartner公司于1996年提出來的。當時將商業智能定義為一類由數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的,以幫助企業決策為目的技術及其應用。Gartner 公司的Howard Dressner把商業智能定義成為把數據轉化成信息,并通過迭代發現(Iterative Discoveries)把信息轉化成商業上可用的知識。

在我們看來,商業智能就是能夠從(海量)業務和相關數據中提取有用的信息,把信息轉化成知識,然后根據這些知識采用正確的商務行為的工具。在本書的范疇內,我們提到的BI(商業智能)工具都是指在數據挖掘基礎上的工具。


現在數據挖掘技術在商業應用中已經相當廣泛,因為對數據挖掘技術進行支持的三種基礎技術已經發展成熟,這三種基礎技術是:

商業數據庫現在正在以一個空前的速度增長,并且數據倉庫正在廣泛地應用于各種行業。對計算機硬件性能越來越高的要求,也可以用現在已經成熟的并行多處理機的技術來滿足。另外數據挖掘算法經過了這10多年的發展也已經成為一種成熟、穩定,且易于理解和操作的技術。

現在面臨的尷尬的境地是數據豐富,信息匱乏(Data Rich But Information Poor)??焖僭鲩L的海量數據,已經遠遠地超過了人們的理解能力,如果不借助強有力的工具,很難弄清大堆數據中所蘊含的知識。結果,重要決策只是基于制定決策者的個人經驗,而不是基于信息豐富的數據。數據挖掘就這樣應運而生,數據挖掘填補了數據和信息之間的鴻溝。Erik Brynjolfsson曾經說過:有數據支持的(商業)決定總是更好的決定。數據在商業運營上要能起到作用,我們必須要做到:

  • 理解數據的上下文,明白數據到底支持商業運營的什么過程。
  • 簡化過程,使得數據更加便于管理。
  • 在不同的渠道、應用和設備上整合數據。
  • 豐富、匹配和清理數據,提高數據質量。
  • 充分利用數據,比如整合關于消費者、市場和機會的數據。
  • 選擇合適的存儲介質,比如私有云、公有云還是專門設計的云存儲。
  • 獲取最終結果數據并在各種終端上用可視化方式展示(包括移動終端)。

在最開始制定商業智能數據戰略時,考慮的不應該是技術,而是從商業角度出發,看到底需要完成怎樣的商業目標,再來制定數據挖掘過程。

比如在商業銀行信用卡部門,我們需要做信用卡欺詐監測。商業目的很明確,就是要以最快的速度發現90%以上的欺詐交易,而可以提供的數據就是之前所有的交易記錄。那么如何判別某一個交易可能是欺詐行為呢?常用的數據挖掘方式是通過神經網絡。我們通過正面和負面的實例訓練這個神經網絡,然后給每個交易打分,如果低于某個數值,那么就判定這條交易是正常的,否則就判定它為欺詐交易。

商業智能還有一個重要的原因是競爭?,F在的企業競爭對象不一定來自身邊,甚至不一定來自于同一個國家,商業競爭的全球化導致了中國企業必須提高對商業智能的重視,因為商業智能在歐美的企業中正相當普及。

當我們已經建立了一套完整的商業智能系統之后,可以通過看趨勢——尋扎變異——分析原因——制定對策的流程來定期做數據分析。


看趨勢:即觀察關鍵考核指標KPI數據的日、周、月、季度、年的圖表曲線趨勢。KPI數據是上升了還是下降了。關聯的其他相關KPI曲線,是否呈現了應該有的關聯性。環比同比的百分比如何等。

尋找變異:即找到單一KPI數據中的異常值,或者關聯數據中非關聯的異常部分。

分析原因:當我們找到了異常值,就需要分析造成這一異常的原因??串惓0l生的時間節點,看內部和外部的關聯活動,看問題發生原因的構成,并把原因分解成獨立的元素一一列出,標出權重,哪些是相對影響較大的,哪些又是可能的原因等。

制定對策:在正確的分析了相關原因后,就需要給出解決方法和策略。一般來說,一個原因對應一個解決策略。當然也可能有多個解決策略對應于同一個原因。我們選擇最切合實際,最可執行的對策和行動策略。

數據挖掘的九大定律

數據挖掘通用流程CRISP-DM的締造者之一Tom Khabaza曾總結了在數據挖掘上的九大定律,如下所示。

(1)Business Goals Law:每個數據挖掘解決方案的根源都是有商業目的的。

(2)Business Knowledge Law數據挖掘過程的每一步都需要以商業信息為中心。

(3)Data Preparation Law數據挖掘過程前期的數據準備工作要超過整個過程的一半。

(4)NFL Law:NFL(沒有免費午餐,No Free Lunch)。 對于數據挖掘者來說沒有免費的午餐,數據挖掘的任何一個過程都是來之不易的。

(5)Watkins’ Law:此定律以此命名是因為David Watkins首次提出這個概念。這個定律說的是在數據的世界里,總是有模式可循的。您找不到規律不是因為規律不存在,而是因為您還沒有發現它。

(6)Insight Law:數據挖掘可以把商業領域的信息放大。

(7)Prediction Law:預測可以為我們增加信息。

(8)Value Law:數據挖掘模式的精準和穩定并不決定數據挖掘過程的價值,換句話說技術手段再精妙,沒有商業意義和合適的商業應用是沒有價值的。

(9)Law of Change:所有的模式都會變化。

上面這九條其實歸根到底就是一條,商業決定數據挖掘。數據挖掘各類技術和算法的飛速發展不能讓我們偏離以商業行為為核心的方向,只是純粹為了追求高深的技術而忽略或損害到商業目的就本末倒置了。

數據挖掘很糾結

數據挖掘的世界既是地雷陣,同時又是金礦。大量的數據沒能被及時處理,稱得上是暴殄天物。雖然通過保存相關數據,我們可以保證以后對數據信息的方便使用,但是對于工作量日趨繁
重的數據保存工作,很多企業可能還是選擇荒廢部分數據。大數據時代已經來臨,不管有多大困難,我們從現在開始都需要考慮評估和集成數據挖掘應用。即使不能找到合適的數據挖掘方法來處理數據,至少我們需要用數據倉庫把原始數據保留起來,以供將來使用。

下面列舉一些我們在給企業做數據挖掘時看到的問題:

對于數據挖掘需要解決的問題,很少有現成的解決方案,而且于某個問題,可能有多種數據挖掘算法可以使用,但通常只有一個最好的算法。當我們選擇了一個數據挖掘算法時,首先要弄清楚它是否適合想解決的問題。如果本身方法選擇不合適,那么再好的執行也沒有用。

從市場角度來看,數據挖掘依舊面臨其他因素的挑戰。數據挖掘非常有前景,但是市場中數據噪聲太多,會導致數據價值大大降低。以無線營銷為例,大量的虛假應用下載和使用以及虛假好評差評等數據嚴重干擾了數據的準確性,大大降低了數據的價值。

在中國,數據挖掘市場整體來說還不成熟。首先在意識上,一些商業領袖們對數據挖掘將信將疑,不愿意做投入;另一方面,采用了數據挖掘的公司只追求最后的結果,而對數據挖掘過程、數據的存儲、數據挖掘結果的知識積累和呈現不重視。

數據挖掘有時導出的結果是不完善的,每次導出的結果和應用的數據集直接相關。如果數據集發生變化,就需要重新進行挖掘。如果沒有考慮數據變化而盲目采用數據變化之前的策略,那么結果是不可預料的。

這些問題都是確實存在的,其中關于市場的問題在一定時間之后會有好轉,而數據挖掘過程中的這些問題就需要數據分析師和數據應用使用者提高自己的經驗來解決了。



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢