熱線電話:13121318867

登錄
首頁精彩閱讀NO.2數據倉庫和數據挖掘的關系為何?
NO.2數據倉庫和數據挖掘的關系為何?
2014-12-10
收藏

若將Data Warehousing(數據倉庫)比喻作礦坑,Data Mining就是深入礦坑采 礦的工作。畢竟Data Mining不是一種無中生有的魔術,也不是點石成金的煉金術,若沒有夠豐富完整的數據,是很難期待Data Mining能挖掘出什么有意義的信息的。

要將龐大的數據轉換成為有用的信息,必須先有效率地收集信息。隨著科技的進步,功能完善的數據庫系統就成了最好的收集數據的工具。數據倉庫,簡單地說,就是搜集來自其它系統的有用數據,存放在一整合的儲存區內。所以其實就是一個經過處理整合,且容量特別大的關系型數據庫,用以儲存決策支持系統(Decision Support System)所需的數據,供決策支持或數據分析使用。從信息技術的角度來看,數據倉庫的目標是在組織中,在正確的時間,將正確的數據交給正確的人。

許多人對于Data Warehousing和Data Mining時?;煜?,不知如何分辨。其實,數據倉庫數據庫技術的一個新主題,利用計算機系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟著改變。

數據倉庫本身是一個非常大的數據庫,它儲存著由組織作業數據庫中整合而來的數據,特別 是指事務處理系統OLTP(On-Line Transactional Processing)所得來的數據。將這些整合過的數據置放于數據倉庫中,而公司的決策者則利用這些數據作決策;但是,這個轉換及整合數據的過程,是建立一個數據倉庫最大的挑戰。因為將作業中的數據轉換成有用的的策略性信息是整個數據倉庫的重點。綜上所述,數據倉庫應該具有這些數據:整合性數據(integrated data)、詳細和匯總性的數據(detailed and summarized data)、歷史數據、解釋數據的數據。從數據倉庫挖掘出對決策有用的信息與知識,是建立數據倉庫與使用Data Mining的最大目的,兩者的本質與過程是兩回事。換句話說,數據倉庫應先行建立完成,Data mining才能有效率的進行,因為數據倉庫本身所含數據是干凈(不會有錯誤的數據參雜其中)、完備,且經過整合的。因此兩者關系或許可解讀為Data Mining是從巨大數據倉庫中找出有用信息的一種過程與技術。大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中。

數據倉庫中直接得到進行數據挖掘的數據有許多好處。就如我們后面會講到的,數據倉庫的數據清理和數據挖掘的數據清理差不多,如果數據在導入數據倉庫時已經清理過,那很可能在做數據挖掘時就沒必要在清理一次了,而且所有的數據不一致的問題都已經被你解決了。

數據挖掘庫可能是你的數據倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數據庫。但如果你的數據倉庫的計算資源已經很緊張,那你最好還是建立一個單獨的數據挖掘庫。

當然為了數據挖掘你也不必非得建立一個數據倉庫,數據倉庫不是必需的。建立一個巨大的數據倉庫,把各個不同源的數據統一在一起,解決所有的數據沖突問題,然后把所有的數據導到一個數據倉庫內,是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數據挖掘,你可以把一個或幾個事務數據庫導到一個只讀的數據庫中,就把它當作數據集市,然后在他上面進行數據挖掘。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢