
R語言統計與分布的相關知識
變量
變量按變量值是否連續可分為連續變量與離散變量兩種。 連續變量(continuous variable)與離散變量(discrete variable)
連續變量
在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。
離散變量
離散變量是指其數值只能用自然數或整數單位計算的則為離散變量.例如,企業個數,職工人數,設備臺數等,只能按計量單位數計數,這種變量的數值一般用計數方法取得.
在R語言中的Data.Frame中的每一列可以表示一個變量;
變量關注點:1取值,2概率
得到了變量的取值及概率就獲得了數據的分布
數據分布
數據分布的特征
集中趨勢(位置)
離中趨勢(分散程度)
偏態和峰態(形態)
一、集中趨勢的度量
分類數據:眾數
順序數據:眾數、中位數、分位數
數值型數據:眾數、中位數、分位數、平均數
概念:
o
中位數(median):排序后處于中間位置上的值。如有5個數,排序后第3個數為中位數,如果為6個數,則對中間兩個數求平均結果為中位數。M e四分位數(quartile): 排序后處于25%和75%位置上的值。
平均數(mean): 也稱為期望
簡單算數平均:
加權平均:
幾何平均:
幾何平均主要用于計算平均增長率;
特點:
1. 眾數
不受極端值影響
具有不惟一性
數據分布偏斜程度較大時應用
2. 中位數
不受極端值影響
數據分布偏斜程度較大時應用
3. 平均數
易受極端值影響
數學性質優良
數據對稱分布或接近對稱分布時應用
關系:
均值在中位數左邊為左偏,均值在中位數右邊為右偏。
二、離散程度的度量
反映各變量值遠離其中心值的程度(離散程度)
分類數據:異眾比率
順序數據:四分位差
相對位置的度量:標準分數
相對離散程度:離散系數
概念:
異眾比率(variation ratio): 非眾數組的頻數占總頻數的比例。
例子:
四分位差(quartile deviation):上四分位數與下四分位數之差。反應了中間50%數據的離散程度。
例子:
極差(range):數據中最大值與最小值之差。
方差(variance): 是各個數據分別與其平均數之差的平方的和的平均數; 反映了各變量值與均值的平均差異.
E{x}表示平均數
樣本方差:
在統計學中樣本的均差多是除以自由度(n-1),它是意思是樣本能自由選擇的程度。當選到只剩一個時,它不可能再有自由了,所以自由度是n-1。
標準差(standard deviation): 是各個數據分別與其平均數之差的平方的和的平均數的平方根;反映了各變量值與均值的平均差異. 反應了數據集的離散程度.
對方差進行開方
標準分數(standard score):也叫z分數(z-score) 是一個分數與平均數的差再除以標準差的過程。用公式表示為z=(x-μ)/σ。其中x為某一具體分數,分數即為值。
例子:
離散系數:又稱為變異系數,常用的是標準差系數,用CV(Coefficient of Variance)表示。標準差與均值的比率。 用公式表示為:CV=σ/μ
離散系數反映單位均值上的離散程度,常用在兩個總體均值不等的離散程度的比較上。若兩個總體的均值相等,則比較標準差系數與比較標準差是等價的。在對比情況下,離散系數較大的其分布情況差異也大。
協方差:在概率論和統計學中,協方差用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
期望值分別為E[X]與E[Y]的兩個實隨機變量X與Y之間的協方差Cov(X,Y)定義為:
從直觀上來看,協方差表示的是兩個變量總體誤差的期望。
如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值時另外一個也大于自身的期望值,那么兩個變量之間的協方差就是正值;
如果兩個變量的變化趨勢相反,即其中一個變量大于自身的期望值時另外一個卻小于自身的期望值,那么兩個變量之間的協方差就是負值。
結果值范圍為-∞~+∞,不同協方差之間是不能比較的
相關系數:
分布
離散變量的分布
1.兩點分布 又稱為伯努利分布
P(n) = p n (1-p) 1-n (n=1,或 n=0) 1表示成功,0表示失敗
成功的概率為p,失敗的概率為1-p;
2.二項分布 Binomial Distribution
即重復n次的伯努利試驗(Bernoulli Experiment),用X表示隨機試驗的結果。
如果事件發生的概率是p,則不發生的概率q=1-p,N次獨立重復試驗中發生K次的概率是:
其中組合的計算公式為:
期望E(X)=np
方差D(X)=npq
例子:張三參加雅思考試,每次通過的概率假設為1/3,不通過的概率為2/3。如果他連續參加4次考試,那么恰好通過2次的概率是多少?
p=1/3, n=4, k=2 代入公式:結果為8/27
3.泊松分布 Poisson
泊松分布適用于描述單位時間內隨機事件發生的次數。
泊松分布的概率函數:
期望和方差都為:λ
λ是單位時間內隨機事件的平均發生率,k是指事件發生的次數。
當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧10,p≦0.1時,二項分布就可以用泊松公式近似得計算。
在實際事例中,當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發射出的粒子、顯微鏡下某區域中的白血球等等,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現時,那么這個事件在單位時間(面積或體積)內出現的次數或個數就近似地服從泊松分布P(λ)。因此,泊松分布在管理科學、運籌學以及自然科學的某些問題中都占有重要的地位。
觀察事物平均發生m次的條件下,實際發生x次的概率P(x)可用下式表示:
P(x)=m x *e -m /x!
例子:假設在一個公共汽車站上有許多不同線路的公交車,平均每5分鐘會來2輛公交車。求5分鐘內來5輛公交車的概率有多大。
k=5, λ=2 代入公式:
P(X=k=5)= 2 5 *2.71828 -2 /5*4*3*2*1 = 0.361
例子:已知某家小雜貨店,平均每周售出4個水果罐頭。請問該店水果罐頭的每周最佳庫存量是多少?
庫存量越多浪費空間及金錢,庫存量過少,無法滿足用戶的需求,減少銷售量。
這里通過 累計概率 來計算,
P(X=k=0) 沒有庫存的概率
P(X=k=1) 庫存為1的概率
P(X=k=2) 庫存為2的概率
...
計算到k=7時,將這些概率進行相加,結果為92.98%,如果庫存為7,說明有7.02%的概率會供不應求。這個k值根據實際應用場景進行調整。
連續變量的分布
1.均勻分布
2.指數分布
3.正態分布 Normal distribution 也叫高??分布(Gaussian distribution)
若隨機變量X服從一個位置參數為μ、尺度參數為σ 的概率分布,且其概率密度函數為
μ是均值,σ 是標準差
則這個隨機變量就稱為正態隨機變量,正態隨機變量服從的分布就稱為正態分布,記作X~N(μ,σ 2 ), 讀作X服從正態分布。
期望E(X)=μ
方差D(X)=σ 2
期望E(X)=0
方差D(X)=1
μ變大,函數圖像中軸向右移動
μ變小,函數圖像中軸向左移動
σ變大,函數圖像坡度變平緩
σ變小,函數圖像坡度變陡
經驗法則:
正態分布距離均值的左右各一個標準差的概率分布為68%,距離左右兩邊各兩個標準差的概率分布為95%,三個標準差的概率分布式99.7%;
中心極限定理 central limit theorem:
在樣本數據中隨機抽取一部分數據,這部分數據的分布漸近與正態分布
概率密度函數PDF probability density function ;是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。
正態分布的概率密度函數
累計密度函數CDF cumulative distribution function; 是概率密度函數的積分。f(x)當x=k,表示小于k值的所有概率之和。單調遞增曲線,無線接近于1.
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24