熱線電話:13121318867

登錄
首頁精彩閱讀建立數據感性認識
建立數據感性認識
2018-02-27
收藏

建立數據感性認識

變量類型和數據分布

變量類型

連續變量

離散變量(名義變量-有序,分類變量-無序)

數據分布
分布就是概率,研究變量無外乎就是看變量的值以及其取值的概率。此事數據由一大堆數變為一小堆數

分布函數

概率密度函數(PDF)

累計密度函數(CDF)

連續變量的典型分布

能給套上數學公式的分布,就是典型分布

正態分布 ,高斯分布,鐘型分布

##畫一個標準正態分布的圖f1<-function(x){dnorm(x,mean=0,sd=1) } curve(f1,-4,4)

中心極限定理,將正態分布發揚光大!對于一個變量不論服從什么分布,從整體中抽取一部分樣本,從樣本得到的統計量是正態分布。一萬個均值或一萬個標準差是服從正態分布的。

經驗法則,即3倍方差法則

切比雪夫定理,普世版的經驗法則,K代表這個統計量離均值有幾個標準差,曲線下的面積,均值左右~

冪率分布

指數分布

離散變量的典型分布

0-1分布,只做一次實驗

二項分布,把0-1實驗做很n次

結果為1的概率, q結果為0的概率

二項展開和一項就是其中一個k的概率

-泊松分布,其實就是二項分布,當二項分布很難或者最終的值的時候,我們就不計算其精確的值而是用泊松分布來預估;對n很大,p很小的二項分布的估計

λ=np,相當于一個均值

一小賣部,平均每周售出2個水果罐頭,問水果店最佳庫存是多少?
P(X=0)=
P(X=1)=
相加大于99%的那個X

單變量的集中趨勢

得不到數據分布,退而求其次不求每個值的分布,而是找一些關鍵的值

單變量的離散程度

雙變量的統計描述

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢