
從零開始數據分析:一個數據分析師的數據分析流程
數據分析百科給出準確定義:指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
簡而言之就是有目的的收集數據、分析數據,使之成為信息的過程。
數據分析過程1、探索性數據分析
初步獲取的數據是雜亂無章的,通過圖表形式對數據進行整合,找尋數據之間存在的關系。
2、模型選定分析
通過探索性數據分析,歸納出一類甚至是多類數據模型,通過對模型再次整合,進一步分析出一定的模型。
3、推斷分析
通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。
數據分析流程
完整數據分析流程圖
1. 識別信息需求
識別信息需求是確保數據分析過程有效性的首要條件,可以為收集數據、分析數據提供清晰的目標。
2.數據采集
了解數據采集的意義在于真正了解數據的原始面貌,包括數據產生的時間、條件、格式、內容、長度、限制條件等。幫助數據分析師更有針對性的控制數據生產和采集過程,避免由于違反數據采集規則導致的數據問題;同時對數據采集邏輯的認識增加了數據分析師對數據的理解程度,尤其是數據中的異常變化。
在數據采集階段,數據分析師需要更多的了解數據生產和采集過程中的異常情況,能很大程度上避免“垃圾數據進導致垃圾數據出”的問題。
2.數據存儲
在數據存儲階段,數據分析師需要了解數據存儲內部的工作機制和流程,最核心的因素是在原始數據基礎上經過哪些加工處理,最后得到了怎樣的數據。由于數據在存儲階段是不斷動態變化和迭代更新的,其及時性、完整性、有效性、一致性、準確性很多時候由于軟硬件、內外部環境問題無法保證,這些都會導致后期數據應用問題。
3.數據提取
數據提取是將數據取出的過程,數據提取的核心環節是從哪取、何時取、如何取。
在數據提取階段,數據分析師首先需要具備數據提取能力。常用的Select From語句是SQL查詢和提取的必備技能,但即使是簡單的取數工作也有不同層次。
第一層是從單張數據庫中按條件提取數據的能力,where是基本的條件語句;
第二層是掌握跨庫表提取數據的能力,不同的join有不同的用法;
第三層是優化SQL語句,通過優化嵌套、篩選的邏輯層次和遍歷次數等,減少個人時間浪費和系統資源消耗。
4.數據挖掘
數據挖掘是面對海量數據時進行數據價值提煉的關鍵,以下是算法選擇的基本原則:
沒有最好的算法,只有最適合的算法,算法選擇的原則是兼具準確性、可操作性、可理解性、可應用性。
沒有一種算法能解決所有問題,但精通一門算法可以解決很多問題。
挖掘算法最難的是算法調優,同一種算法在不同場景下的參數設定相同,實踐是獲得調優經驗的重要途徑。
在數據挖掘階段,數據分析師要掌握數據挖掘相關能力:一是數據挖掘、統計學、數學基本原理和常識;二是熟練使用一門數據挖掘工具,Clementine、SAS或R都是可選項,如果是程序出身也可以選擇編程實現;三是需要了解常用的數據挖掘算法以及每種算法的應用場景和優劣差異點。
5.數據分析
分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常所用的方法有:
老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖;
新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖;
數據分析相對于數據挖掘更多的是偏向業務應用和解讀,當數據挖掘算法得出結論后,如何解釋算法在結果、可信度、顯著程度等方面對于業務的實際意義,如何將挖掘結果反饋到業務操作過程中便于業務理解和實施是關鍵。
6.數據可視化
數據分析界有一句經典名言,字不如表,表不如圖。別說平常人,數據分析師自己看數據也頭大。這時就得靠數據可視化的神奇魔力了。除掉數據挖掘這類高級分析,不少數據分析師的平常工作之一就是監控數據觀察數據。
7.數據應用
數據應用是數據具有落地價值的直接體現,這個過程需要數據分析師具備數據溝通能力、業務推動能力和項目工作能力。
數據溝通能力。深入淺出的數據報告、言簡意賅的數據結論更利于業務理解和接受。
業務推動能力。在業務理解數據的基礎上,推動業務落地實現數據建議。
項目工作能力。數據項目工作是循序漸進的過程,無論是一個數據分析項目還是數據產品項目,都需要數據分析師具備計劃、領導、組織、控制的項目工作能力。
附:數據分析常用方法
1、描述性統計分析
包括樣本基本資料的描述,作各變量的次數分配及百分比分析,以了解樣本的分布情況。
此外,以平均數和標準差來描述市場導向、競爭優勢、組織績效等各個構面,以了解樣本企業的管理人員對這些相關變量的感知,并利用t檢驗及相關分析對背景變量所造成的影響做檢驗。
2、Cronbach’a信度系數分析
信度是指測驗結果的一致性、穩定性及可靠性,一般多以內部一致性(consistency)來加以表示該測驗信度的高低,信度系數愈高即表示該測驗的結果愈一致、穩定與可靠。
針對各研究變量的衡量題項進行Cronbach’a信度分析,以了解衡量構面的內部一致性。一般來說,Cronbach’a僅大于0.7為高信度,低于0.35為低信度(Cuieford,1965),0.5為最低可以接受的信度水準(Nunnally,1978)。
3、探索性因素分析(exploratory factor analysis)和驗證性因素分析(confirmatory factor analysis)
用以測試各構面衡量題項的聚合效度(convergent validity)與區別效度(discriminant validity),因為僅有信度是不夠的,可信度高的測量,可能是完全無效或是某些程度上無效,所以我們必須對效度進行檢驗。
效度是指工具是否能測出在設計時想測出的結果,收斂效度的檢驗根據各個項目和所衡量的概念的因素的負荷量來決定,而區別效度的檢驗是根據檢驗性因素分析計算理論上相關概念的相關系數,檢定相關系數的95%信賴區間是否包含1.0,若不包含1.0,則可確認為具有區別效度(Anderson,1987)。
4、結構方程模型分析(structural equations modeling)
由于結構方程模型結合了因素分析(factor analysis)和路徑分析(path analysis),并納入計量經濟學的聯立方程式,可同時處理多個因變量,容許自變量和因變量含測量誤差,可同時估計因子結構和因子關系,容許更大彈性的測量模型,可估計整個模型的擬合程度(Bollen和Long,1993),因而適用于整體模型的因果關系。
在模型參數的估計上,采用最大似然估計法(Maximum Likelihood,ML);在模型的適合度檢驗上,以基本的擬合標準(preliminary fit criteria)、整體模型擬合優度(overall model fit)以及模型內在結構擬合優度(fit of internal structure of model)(Bagozzi和Yi,1988)三個方面的各項指標作為判定的標準。
在評價整體模式適配標準方面,本研究采用x2(卡方)/df(自由度)值、擬合優度指數(goodness.of.f:iJt.in.dex,GFI)、平均殘差平方根(root—mean.square:residual,RMSR)、近似誤差均方根(root-mean—square-error-of-approximation,RMSEA)等指標;模型內在結構擬合優度則參考Bagozzi和Yi(1988)的標準,考察所估計的參數是否都到達顯著水平。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25