熱線電話:13121318867

登錄
首頁精彩閱讀統計分析和數據挖掘
統計分析和數據挖掘
2015-12-24
收藏

統計分析數據挖掘

在企業管理信息化的大背景下,數據分析技術已經成為企業應用關注的一個焦點,但由于歷史原因,大部分人對傳統的統計分析和新起的數據挖掘都不太了解,存在著許多模糊認識。這里先談談對統計方法的兩種常見的誤解。 

  對統計分析的兩種誤解 

  統計學有很強的數學背景,所以常見的誤解是:統計學家約等于數學家,數學家約等于陳景潤,陳景潤約等于歌德巴赫,于是統計學家約等于歌德巴赫。問題來了,歌德巴赫和企業的數據管理有什么關系呢?對于統計學來說,這種誤解實在是極大的不幸。著名統計學家George Box有句名言:所有的模型都是錯誤的,而其中有些模型是有用的。這種話表面上看來是很放肆的,但統計學家們在處理實際問題的時候,所采取的就是這種實用主義態度。統計學家是一群跟數據打交道的工程師,工程師們也要使用大量的數學公式和計算,但決不是坐在屋子里證明高深的數學定理或者哥德巴赫猜想的怪才。 

  還有一種誤解是:統計好象和會計連在一起。說這種話的人其本意是指企業里統計員的工作和會計的工作差不多,統計員和會計的工作為統計分析提供了數據基礎。但我們一般說到的統計分析卻是指基于數理統計發展起來的諸多方法。這樣看來,把統計和會計混為一談是有些低估統計分析的難度和潛力了。簡單說來,會計系統把營業活動轉化為數據,在數據編碼和標準化方面都有獨到之處,它為企業管理提供了大量的基礎數據,會計系統構成了定量管理的基礎設施;統計方法如果要在企業的管理實踐中發揮更大的作用,就應該學習會計的這種標準化思路,讓自己更便于使用,更加貼近用戶的理解,一句話,變得更加“傻瓜化”。   

再看企業決策支持系統   

從企業決策支持系統的角度來評估各種量化管理方法的意義,這時實施一種具體的統計方法或者數據挖掘技術,實際上就相當于實施一個項目。量化管理方法很多,而統計方法是一個大類,尤其適用于在不確定環境和信息不充分下的決策。       

企業在選用系統的時候,該怎么辦?一個通用的問題處理模型就能夠說明,通用的問題處理模型包括:問題、可用的資源和技術、成本,綜合考慮這三個方面的作用就能夠達成一個相對合理的解決方案。這個通用的問題處理模型當然適用于企業尋找信息化途徑的努力。

   從一個統一的角度來看,企業定量管理的基礎是數據的收集和處理系統,一般叫作決策支持系統。用這個金字塔圖可以清楚地看到逐級提煉的過程(從噪音到數據、信息、知識和智慧)的提煉過程。決策所依賴的,至少是知識這個層次的加工結果,而未加工的原材料就是所謂的噪音。從這個廣義的模型出發,我們可以把會計看作一個信息系統,各個層次之間的交界處需要采用特定的方法來完成提煉,而每個界面上可以運用的技術都是不一樣的。 

  一個信息系統可以包括會計系統、數據庫體系和數據分析體系,有一種常見的誤解認為統計方法只涉及從數據以后開始的分析工作。其實,巧婦難為無米之炊,統計方法的運用效果取決于基礎數據,而收集何種基礎數據,怎樣節省收集數據的成本,如何降低數據收集過程中的誤差,都需要一定的理論指導,統計學為回答這些問題提供了許多很有效的解決方案。

   和實際的礦山一樣,開掘銀礦、煤礦和金礦所用的技術是完全不一樣的。完成從噪音到智慧的過程包括其中的中間產物,也有一個對癥下藥的問題,再考慮到實施的成本和數據分析的難度(比如數據量,數據維數等等),數據處理很容易被人理解為一種藝術。說統計分析數據挖掘帶有藝術色彩應該基本正確,這就象淘金和看病一樣,不一定最貴的藥就最好。比如對統計方法和統計軟件的選用,就是有區別的。小型企業的信息化,基本上依賴ACCESS數據庫和EXCEL界面就可以完成;大型企業的信息化則需要和專業的管理軟件公司合作才能完成。早期信息化的成本和失敗率往往都比較高,這和病急亂投醫的情形差不多。 

  有些人生富貴病,典型癥狀就是一定要吃貴重的藥,否則病好不了,這種現象在企業信息化中也能看到。打個比方,美國企業的信息化接近于堅持鍛煉,中國企業的信息化則更像病后康復――有了健康人的示范效應,中國的企業就特別著急,不注意信息系統和自身管理實踐的融合,只買貴的、不買對的,結果是交了不少學費。筆者希望對數據分析的運用不要陷入同樣的誤區。 

  計算機扮演的角色

   從以往的情況來看,統計方法的大規模推廣依賴于計算能力的不斷增強或者說計算成本的大幅下降。芯片制造技術和軟件工程的迅猛發展給人們留下了深刻印象,但是數據量的增長卻始終走在計算機的增長前面。這種力不從心的感覺是歷史上的常態。完全手工計算的時候,人們會認為多元線性回歸的計算是很恐怖的;有手搖計算機的時候,作主成分分析是非??植赖?;現在,海量數據來了,雖然擁有20年前無法想象的計算能力,有關的分析工作還是讓人頭痛不已。但是,計算機還是讓統計學跟在后面,不斷開拓自己的領地。所以,統計學應該感謝計算機,是計算機讓統計學變成了真正的實用學科。

   另一方面,計算機學科又在不斷侵入統計的領域,模糊統計學的邊界。很多人都在比較自由地利用計算機,“自以為是”地進行數據分析或者所謂的、不嚴密的統計分析,他們往往不把“統計專家”的意見放在眼里。有很多大量使用統計方法來分析問題的人甚至沒有接受過足夠的統計學科訓練。對于許多計算數學方面的專家來說,統計學家的權威地位是比較古怪的東西。

   偏偏還有許多統計方法的發展歷程是這樣的:實際應用部門的人提出了一種經驗方法,然后其他非統計專業的人開始模仿并推廣,最后統計學家跟在后面,努力說明這種方法在統計意義下的合理性并把這種方法整理得更符合學院派的需要。得到廣泛應用的方法就會進入統計教科書,成為統計學的組成部分。有些時候,統計學落在了應用的后面。

   現在,依賴嚴格數學假設和推理的統計分析方法依然是統計學的主流。但是面對外行們的自由行動,統計學家比較無奈。數據挖掘正在充當新的入侵者甚至是競爭者,統計學家應該區分自己的理論和實際應用,結果統計學家內部開始分化,放下架子的人越來越多,這是好事。但是,許多來自計算科學的數據挖掘專家為了凸顯自己的革命者形象,會宣稱自己并非統計學家,甚至強調無須懂得統計學,這就有些虛無主義,做過了頭。

   結語 

  我們可以把眼光放得遠一點,從數據轉化來看,會計做得很好;從對數據質量的描述和要求來看,也是會計做得更規范,那么各種數據分析方法都可以從中吸取經驗。而分析數據的經驗是統計方法更加豐富,新起的數據分析方法一定要劃清界線的話,就不能充分利用已有的經驗,顯然會付出更多的不必要的成本。而從企業信息化的需求來看,將企業的決策支持系統看作一個整體,然后盡量從企業的一體化視圖出發來選擇和運用已有的各種量化管理方法。一句話,就是不要神化任何量化管理方法才是正途。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢