熱線電話:13121318867

登錄
首頁精彩閱讀一個數據倉庫轉型者眼中的數據挖掘
一個數據倉庫轉型者眼中的數據挖掘
2016-05-15
收藏

一個數據倉庫轉型者眼中的數據挖掘

對于大多數非從業者或者初學者來說,數據倉庫(Data Warehousing)與數據挖掘(Data Mining)是很容易混淆的兩個概念。有個形象的比喻說:如果把數據倉庫比做一個大型的礦坑,那么數據挖掘就是入坑采礦的工作,數據挖掘需要有非常好的數據基礎,沒有豐富完整的數據,是挖掘不出好內容的。數據倉庫可以說是數據挖掘最理想的地基。

筆者從事數據倉庫BI行業多年,先給各位簡單介紹一下什么是數據倉庫。
數據倉庫
要將非常龐大又復雜的數據轉化成有用的信息,首先需要做的是有效率地收集數據,于是數據倉庫應運而生。數據倉庫是一個環境,而不是一件產品;數據倉庫是面向主題的、集成的、相對穩定的、隨時間不斷變化(不同時間)的數據集合,提供用戶用于決策支持的當前和歷史數據。數據倉庫技術是為了有效的把操作型數據集成到統一的環境中,以提供決策型數據訪問的各種技術和模塊的總稱。
數據倉庫的數據全部來源于外部,它本身并不“生產”任何數據,同時自身也不需要“消費”任何數據。在數據架構上面,數據倉庫通常采用層次化的模型架構,這種模式成本最低,基礎數據和應用指標的一致性最好,以某銀行數據倉庫邏輯架構設計為代表:

第一層為貼源/標準數據層:這一層為“數據緩沖層”,在這一層中主要保存最原始的貼源數據,有些設計會將數據的清洗及標準化操作也放到這一層中,用以保證不同系統的數據在數據結構標準方面保持統一,如性別、日期、行業代碼等。另一些設計則不在這一層對數據進行哪怕最基礎的清洗及格式化等工作,確保數據的貼源一致性,由后面的數據需求方自己處理。
第二層為主題數據層:這一層為數據倉庫的核心層,涵蓋內容包括多個數據來源的數據整合、分類體系和業務實體的統一、不同系統數據關聯關系搭建等,形成客戶、機構、協議、事件、產品等不同的主題,為后續的數據使用奠定基礎。建設數據倉庫主題區對于提高競爭力、提高服務性收入并有效規避各種風險有其重要意義。例如:基于客戶主題可快速、準確尋找出潛在客戶及各類型、資產規模、年齡段客戶的資產狀況和偏好,從而有效制定營銷策略吸引更多客戶在銀行開辦更多的業務,提高營業收入和服務收入;基于機構主題勾勒出我行賬務機構及管理機構之間的層級關系,便于內部管理,可從不同角度、不同層級查看機構架設是否合理,查看機構變遷歷史;基于協議主題能更清晰明了看出客戶的資產變化情況和當前存貸款規模、現狀,能更有效規避風險等。
第三層為數據匯總層/數據集市層,在這一層中通常會建立針對某些業務領域作更深層次的指標體系分析。數據集市以主題數據層為基礎,但不再面向全行數據,而主要面向部門級業務,并且只面向某個特定的主題,如建設對公數據集市,是為滿足對公業務管理需要,支持最新的對公業務管理方針,通過整合對公客戶的數據信息,進一步分析對公客戶的價值信息,更好的支持公司業務客戶營銷、管理分析工作的開展。
總而言之數據倉庫可以看做一個非常大的數據庫,它存儲著由各個源頭數據庫中抽取過來的數據,然后利用這些數據更有效率的給公司的決策者提供決策支持。其中,轉換及整合數據的過程是整個數據倉庫建立遇到的最大挑戰,需要將雜亂的數據按照各主題轉換成有用的策略數據是數據倉庫的重點。數據倉庫通過把所有的數據放在一個地方,方便存取的同時,極大的減少了重復的數據處理和分析,實現數據文件統一出口。
當筆者轉型、真正來到一個數據挖掘的團隊,在一大堆統計學碩博身邊熏陶了一段時間后,我理解的數據挖掘是這個樣子的:
數據挖掘
數據挖掘是綜合了統計分析、人工智能、機器學習、數據庫等諸多方面的研究成果而成,用一個人大統計碩士同事的說法:從某方面來講其實數據挖掘是從大量的數據中提取隱含在其中的、人們事先未知但又是潛在有用的信息和知識的過程。
數據挖掘的結果是事先未知的,這與固定報表有著本質的區別,雖然固定報表應用模式已經存在很多年,由于其非常簡單明了直觀的特點,現在依然是各行業內部各級管理人員分析數據應用形態的主力,但固定報表首先得知道報表的樣式,這是一個查證假設的過程,而數據挖掘是用來幫助使用者產生假設,用工具幫助使用者做探索。
數據挖掘是一個過程,而不是一個技術,它更偏重于實際應用,所以數據挖掘不能只是知道挖掘算法等技術,更需要實現具體的業務目標,只有落地到現實的業務中才能體現數據挖掘的價值,因此業務目標是數據挖掘的核心。在數據挖掘項目的實現過程中,挖掘出來的數據僅能表示現實世界的一部分,數據和現實世界之間是有差距的,只有業務知識可以彌補這一差距,從業者需要豐富的業務知識才能夠解釋數據中發現的相關結論,業務知識是數據挖掘的基礎,好的數據挖掘者需要有深厚的行業業務功底。
數據挖掘有一個著名的格言論調,我的博士領導也經常提到這段話,數據挖掘項目中最費力的是數據的獲取與預處理,其占用整個項目的時間高達60%-80%。在筆者了解的幾個項目中實際情況也確實如此。數據預處理的目的是把數據挖掘問題轉化為格式化的數據,使各項分析技術挖掘算法更容易去使用它。一般的數據處理有兩種辦法,一種是將數據轉化成完全結構化的基礎分析數據,根據對應算法可能需要的數據形式,將數據轉化成合格的格式。第二種是將盡可能多的業務問題涉及的數據都涵蓋進來,然后找到合適的技術解決方案來實現挖掘的結果。但數據會隨著清洗、轉換、數據量變化而相應發生變化,這種分析只能是探索性的。因此,即使有一個非常成熟的數據倉庫,但數據預處理仍然是必不可少的,它仍然要占用數據挖掘項目一半以上的時間。
數據挖掘的過程同樣也是一個不斷試驗、不斷試錯的過程,一個正確的模型只有通過不斷的試驗才能被發現,在數據挖掘的過程中會經常發現一個算法對某一個數據集是合適的,但是對另一個數據集又是不利的,沒有一個算法是適合每一個問題的。因此數據挖掘就是一個方法不合適再試用其他方法的過程,但是在有條件的限制約束下,比如業務目標比較穩定、數據變化相對規律的情況下,一個可接受的算法或算法組合是可以解決問題的。
數據挖掘數據倉庫之間的關系
數據挖掘可以說是從數據倉庫中發現并提取隱藏在其中有用信息的一種過程。數據挖掘就是從大量數據中挖取數據的過程,而數據倉庫就是匯集所有相關數據的一個過程,數據倉庫數據挖掘提供了更好的、更廣泛的數據源。當然,在有些情況下,數據倉庫并沒有建立起來,但是數據挖掘工作還是可以依托業務源數據先行的,只是在挖掘數據預處理階段去整合多個源系統的數據源時可能工作量會增大,效率也肯定不如從數據倉庫中取數要高,因為數據倉庫中的數據是經過預處理的結構化數據,能夠為數據挖掘提供非常好的支持平臺,同樣數據挖掘也對數據倉庫的構建提出了更高的要求,兩者是互相促進的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢