熱線電話:13121318867

登錄
首頁精彩閱讀如何對數據源進行分析
如何對數據源進行分析
2016-11-27
收藏

如何對數據源進行分析

一位同事正在做數據探索,我問他“數據探索有什么開發方法?”他回答道,“沒有固定的開發方法 ,就是看看數據,做做簡單的統計?!?

至此,先解釋一下,什么是數據探索,數據探索是對數據進行初步研究處理,目的是為了更好的理解其特殊性質,以便后來選擇合適的數據預處理和數據分析技術。包括匯總統計、可視化、OLAP和多維數據分析等等。

有過數據分析基礎的同學可能會笑話我這位同事菜鳥。其實并不是沒有開發方法,只是沒有形成模式。如果一位即將進行此項工作的人,面對一堆數據,他該怎么辦?我想第一個需要弄清楚的是“這樣做的目的是什么”。如果他對數據不熟悉,答案可能是"搞清楚這些數據結構和關系"。如果他要做的是數據挖掘工作中的一部分工作,這個答案可能是,"哪些客戶群是需要關注的?考慮哪些因素?"而對于后者,如果他對于數據還不是非常熟悉的話,恐怕還是得像前者一樣,搞清楚數據結構。

曾經做過一些數據源分析的工作,是為了定義生產系統開發和經營分析系統開發之間的接口,工作的目的就是搞清楚數據結構。這種目的不算非常強,所以采取的方式是首先確定大范圍,再逐個表分析,給出表的定義,約束關系以及和其他表的關系。例如需要分析客戶、帳務、業務使用的數據,而資源、數據業務的先不管,縮小范圍。一般來說,這個范圍可以縮到很小,數量級在20以內是個不錯的選擇。如果太多數據只會讓人產生恐懼,難以入手。但其實最終需要分析的表肯定超出20個,因為沿著表之間的關系,能夠引出一些新的需要分析的表。

雖然一般都會有數據字典幫助你理解數據,可幾乎這些文檔都只是記錄了表結構,表名、主鍵、外鍵參照等,而字段之間的邏輯關系,表的概念定義很少見到。例如對于一個用戶表,到底這個表里面存放的數據表示什么業務含義呢?找不到這樣的信息,如果說這張表中存放了所有的用戶(假設我們已經給用戶一個定義,客戶定購某種產品的契約關系),那么這個“所有”是指歷史上所有出現過的用戶?或是當前活動的用戶?

要是對業務熟悉,腦中已經有個概念模型,很快就可以切入重點,三戶關系如何設計的?銷帳流程是怎樣在數據中體現的?預存、托收、贈送費用都如何體現的?帶著這些問題去探索數據,當然是事半功倍,可以將這些問題看作為更進一步的探索目的。


說了這么多,探索數據分析就是一個三步曲:

1、明確目的——探索數據為了什么?能不能帶著問題進去???

2、分門別類——根據主題縮小范圍,對字段進行分組

3、去蕪存菁——挑選重點的字段,用樣本觀察

上面都是在說如何理解數據結構和含義,也將它叫做"數據探索"的一部分了,當然如果是數據挖掘,其數據探索步驟還有更強的目的性,這個不做細談。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢