熱線電話:13121318867

登錄
首頁精彩閱讀如何做一名“稱職”的數據專家
如何做一名“稱職”的數據專家
2017-01-31
收藏

如何做一名“稱職”的數據專家

眾所周知,在數據挖掘課題中,很大比重的工作量集中在數據信息收集、整合和探索階段,挖掘模型的穩定性和提升度很大程度上依賴于大寬表的數據質量。

我們數據專家的作用就是要確保大寬表的數據完備性和數據準確性。

那么,什么樣的人才能稱為數據專家?

我的理解是:

1、熟悉行內常用業務系統的功能;

2、了解行內指標體系的業務定義和業務口徑;

3、熟悉行內數據平臺的架構及數據分層方式;

4、能從數據角度加以分析解釋任何業務問題;

5、技術能力不可或缺。

下面,我從挖掘課題的前期數據準備階段入手,介紹一下如何更好發揮一個數據專業人士的作用。

第一,理解需求,達成共識

在項目組接收業務需求、明確業務目標后,挖掘領域專家、業務領域專家、數據領域專家會一同討論研究以下相關問題:

1、所有干系人討論并熟悉挖掘主題相關的業務流程和業務知識;

2、為了實現業務需求,可能應用的算法理論和模型設計、開發;

3、基于對模型算法和業務目標的理解,確定應該準備的數據集合。

第二,數據信息收集

數據專家根據達成的共識,去分析可能獲取目標數據的業務系統,對照數倉映射文檔,查詢和確認目標數據是否已經入倉、在倉庫的存儲位置、是否需要獲取第三方數據等數據來源問題。

數據專家在收集到這些信息后,結合對業務目標的理解,再次組織相關干系人溝通和確認數據情況,討論數據是否完備,對部分缺失數據提出可選的解決方案。

第三,數據整合

在確定數據信息后,數據專家開始著手對數據進行合并整合。

前幾年,我曾接觸到一個挖掘課題,數據專家在準備好大寬表后,并沒有對數據質量進行充分的校驗就交給了挖掘專家,后續的結果可想而知:模型結果的穩定性和提升度無法讓客戶滿意,導致項目合作并不愉快。

因此,我在進行數據整合的過程中,始終帶著辯證的思想去驗證數據質量,在確?;A表數據準確的情況下,每拼接一張表,我都會從以下角度來檢查:

1、數據記錄條數。比如在做內關聯時,如兩個表的主鍵不匹配,則很可能導致關聯結果表的數據記錄有誤;

2、關鍵指標合計值。對合并后的寬表與源表進行指標合計值比較,個人認為這是檢查多表合并后數據質量最好的辦法之一;

3、指標間勾稽關系。對于原表有勾稽關系的指標,抽樣檢查是否繼續滿足勾稽關系;

4、關鍵維度取值校驗。在維度取值代碼重定義后,需全樣本分析檢查是否與設想一致,包括代碼取值、頻數分布等。

第四,數據探索

此處數據探索的目的是為了再次確保移交給挖掘專家的大寬表的數據完備性。

在多次與相關干系人討論后,各領域專家依據長期的經驗積累,判定出某些變量可能會起到決定性作用,由于系統歷史原因,此時數據專家需要去驗證這些變量取值缺失是否嚴重、分布是否合理,在提出可替代的解決方案并獲得認可后重新進行數據整合。

總的來說,萬丈高樓平地起,作為一個被認可的數據專家,我們需要做好挖掘項目的基石,讓挖掘專家對從我們這接收的大寬表不要有任何數據顧慮,集中精力做大樓的修葺美化。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢