
數據分析方法論是什么
數據分析方法論重點包括兩塊,一塊是統計分析方法論:描述統計、假設檢驗、相關分析、方差分析、回歸分析、聚類分析、判別分析、主成分與因子分析、時間序列分析、決策樹等;
一塊是營銷管理常用分析方法論:SWOT、4P、PEST、SMART、5W2H、User behavior等。
一、統計分析方法論:
1. 描述統計(Descriptive statistics):描述統計是通過圖表或數學方法,對數據資料進行整理、分析,并對數據的分布狀態、數字特征和隨機變量之間關系進行估計和描述的方 法。目的是描述數據特征,找出數據的基本規律。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。
(1)數據的頻數分析:在數據的預處理部分,我們曾經提到利用頻數分析和交叉頻數分析來檢驗異常值。此外,頻數分析也可以發現一些統計規律。比如說,收入低的被調查者用戶滿意度比收入高的被調查者高,或者女性的用戶滿意度比男性低等。不過這些規律只是表面的特征,在后面的分析中還要經過檢驗。
(2)數據的集中趨勢分析:數據的集中趨勢分析是用來反映數據的一般水平,常用的指標有平均值、中位數和眾數等。各指標的具體意義如下:
平均值:是衡量數據的中心位置的重要指標,反映了一些數據必然性的特點,包括算術平均值、加權算術平均值、調和平均值和幾何平均值。
中位數:是另外一種反映數據的中心位置的指標,其確定方法是將所有數據以由小到大的順序排列,位于中央的數據值就是中位數。
眾數:是指在數據中發生頻率最高的數據值。
如果各個數據之間的差異程度較小,用平均值就有較好的代表性;而如果數據之間的差異程度較大,特別是有個別的極端值的情況,用中位數或眾數有較好的代表性。
(3)數據的離散程度分析:數據的離散程度分析主要是用來反映數據之間的差異程度,常用的指標有方差和標準差。方差是標準差的平方,根據不同的數據類型有不同的計算方法。
(4)數據的分布:在 統計分析中,通常要假設樣本的分布屬于正態分布,數據的正態性離群值檢驗,已知標準差Nair檢驗,未知標準差時,有Grubbs檢驗,Dixon檢驗, 偏度-峰度法等。其中常用偏度-峰度法需要用偏度和峰度兩個指標來檢查樣本是否符合正態分布。偏度衡量的是樣本分布的偏斜方向和程度;而峰度衡量的是樣本 分布曲線的尖峰程度。一般情況下,如果樣本的偏度接近于0,而峰度接近于3,就可以判斷總體的分布接近于正態分布。
(5)繪制統計圖:用圖形的形式來表達數據,比用文字表達更清晰、更簡明。在SPSS軟件里,可以很容易的繪制各個變量的統計圖形,包括條形圖、餅圖和折線圖等。
2. 假設檢驗:是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。具體作法是:根據問題的需要對所研究的總體作某種假設,記作H0;選取合適的統計 量,這個統計量的選取要使得在假設H0成立時,其分布為已知;由實測的樣本,計算出統計量的值,并根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設 H0的判斷。常用的假設檢驗方法有u—檢驗法、t檢驗法、χ2檢驗法(卡方檢驗)、F—檢驗法,秩和檢驗等。
3.相關分析:相關分析是研究 現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度,是研究隨機變量之間的相關關系的一種統計方法。常見的有線性相關分 析、偏相關分析和距離分析。相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中,所關心的是一個隨機變量Y對另一個(或一組)隨機變量X的依賴 關系的函數形式。而在相關分析中 ,所討論的變量的地位一樣,分析側重于隨機變量之間的種種相關特征。例如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關系如何,而不在于由 X去預測Y。
4.方差分析(Analysis of Variance,簡稱ANOVA):又稱“變異數分析”或“F檢驗”,是R.A.Fisher發明的,用于兩個及兩個以上樣本均數差別的顯著性檢驗。 由于各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。
方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
5.回歸分析:回歸主要的種類有:線性回歸,曲線回歸,二元logistic回歸,多元logistic回歸?;貧w分析的應用是非常廣泛的,統計軟件包使各種回歸方法計算十分方便。
一般來說,回歸分析是通過規定因變量和自變量來確定變量之間的因果關系,建立回歸模型,并根據實測數據來求解模型的各個參數,然后評價回歸模型是否能夠很好的擬合實測數據;如果能夠很好的擬合,則可以根據自變量作進一步預測。
6.聚類分析:聚類主要解決的是在“物以類聚、人以群分”,比如以收入分群,高富帥VS矮丑窮;比如按職場分群,職場精英VS職場小白等等。
聚 類的方法層出不窮,基于用戶間彼此距離的長短來對用戶進行聚類劃分的方法依然是當前最流行的方法。大致的思路是這樣的:首先確定選擇哪些指標對用戶進行聚 類;然后在選擇的指標上計算用戶彼此間的距離,距離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、用戶在每個指標下都有相應的取值,可以 看作多維空間中的一個點,用戶彼此間的距離就可理解為兩者之間的直線距離。);最后聚類方法把彼此距離比較短的用戶聚為一類,類與類之間的距離相對比較 長。
常用的算法k-means、分層、FCM等。
7.判別分析:從已知的各種分類情況中總結規律(訓練出判別函數),當新樣品進入時,判斷其與判別函數之間的相似程度(概率最大,距離最近,離差最小等判別準則)。
常用判別方法:最大似然法,距離判別法,Fisher判別法,Bayes判別法,逐步判別法等。
注意事項:
a. 判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測的;
b. 每個解釋變量不能是其它解釋變量的線性組合(比如出現多重共線性情況時,判別權重會出現問題);
c. 各解釋變量之間服從多元正態分布(不符合時,可使用Logistic回歸替代),且各組解釋變量的協方差矩陣相等(各組協方方差矩陣有顯著差異時,判別函數不相同)。
相對而言,即使判別函數違反上述適用條件,也很穩健,對結果影響不大。
應用領域:對客戶進行信用預測,尋找潛在客戶(是否為消費者,公司是否成功,學生是否被錄用等等),臨床上用于鑒別診斷。
8.主成分與因子分析: 主成分分析基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標轉化為幾個綜合指標(主成分),即每個主成分都是原始變量的線性組 合,且各個主成分之間互不相關,使得主成分比原始變量具有某些更優越的性能(主成分必須保留原始變量90%以上的信息),從而達到簡化系統結構,抓住問題 實質的目的。
因子分析基本原理:利用降維的思想,由研究原始變量相關矩陣內部的依賴關系出發,將變量表示成為各因子的線性組合,從而把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子。(因子分析是主成分的推廣,相對于主成分分析,更傾向于描述原始變量之間的相關關系)。
9.時間序列分析: 經典的統計分析都假定數據序列具有獨立性,而時間序列分析則側重研究數據序列的互相依賴關系。后者實際上是對離散指標的隨機過程的統計分析,所以又可看作 是隨機過程統計的一個組成部分。例如,記錄了某地區第一個月,第二個月,……,第N個月的降雨量,利用時間序列分析方法,可以對未來各月的雨量進行預報。
10.決策樹(Decision Tree):是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直 觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值 之間的一種映射關系。Entropy = 系統的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學理論中熵的概念。
常見的數據分析方法論大體的就是這些,結合案例多練習下基本上就明白是什么回事。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23