熱線電話:13121318867

登錄
首頁精彩閱讀統計分析學習之數值分析方法
統計分析學習之數值分析方法
2018-02-24
收藏

統計分析學習之數值分析方法

最近補了一些統計學的知識,大多都在這些年的學習中接觸過,這里做個總結,以便回頭方便看。

從以下幾個方面對數值進行分析:

數值的位置

平均數與中位數

這個最常見的就是平均值和中位數了,平均值指的是數據在數值上的中心位置,是所有數和的平均,而中位數是一個樣本序列在數值上的中間,序列長度為奇數是,中位數就是最中間的那個。我們可以吧平均數理解為樣本序列在數學上的中間位置,把中位數理解為樣本序列在物理上的中間位置。

加權平均數

權值對于學過算法或者圖論的小伙伴都不陌生,權值不同則認為每個數據的權值(可以簡單理解為重要性)不同,在上邊提到的平均數中是認為每個數的權值相同。那加權平均數就是求平均時對每個數值乘上了他的權值。

ps,加權的樣本序列就比普通的樣本序列多了一維的信息量。

幾何平均數

這是個很有意思的平均數,在之前并沒有接觸過,它是n個數值乘積的n次方根,既然是幾何平均數,那小伙伴們可以把它放在歐幾里得空間來理解它的意義。

眾數

樣本序列中出現次數最多的數,這個在一些基本算法的面試題中經常出現,比如怎么在海量數據中找出重復次數最多的一個?(這個主要是采用分而治之的思想,外加hash等方法,有興趣的可以百度一下)

四分位數

四分位數是百分位數的一種特殊情況,但是這個數值的位置具有比較高的工程使用價值,在統計分析中出現頻率很高,比如后邊用到的箱形分析法等跟此關系很大。

數值的離散程度

數據的離散程度也可以成為數據的變異程度,學過聚類算法的小伙伴說離散程度應該比變異程度更容易理解一些。有極差、四分位數間距、方差、標準差等指標(MAE、MSE等指標對機器學習的小伙伴應該都不陌生)。這個變異程度可以放在歐幾里得幾何空間來理解,都是描述數值之間分散的程度。
注意:1.極值是最容易計算的,但是它比較容易受到異常值影響,單獨計算時的工程意義并不大。
2.四分位數間距能很好的避免異常值影響,甚至能進一步的檢測異常值。(箱形法)

3.樣本方差是總體方差的無偏估計,標準差方差的正平方根。

分布形態和相對位置

偏度

偏度是分布形態的最常用度量。偏度的計算公式這里就不貼出來了,也可以通過平均數和中位數的關系來判斷偏度。其關系如下所示:
偏度為正值 = 數據右偏 = (平均數>中位數)
偏度為0 = 數據對稱 = (平均數=中位數)

偏度為負值 = 數據左偏 = (平均數<中位數)

切比雪夫定理

概率論的時候都接觸過這個,這里就不做過多解釋。他能幫我們指出與平均數的距離在某個特定個數的標準差之內的數據值所占的比例。(與平均數的距離在z個標準差之內的數據項所占比例至少為(1-1/z^2),其中z是大于1的任何實數)。

異常點的檢測

異常點也成為離群點(outlier),對于機器學習的小伙伴也不陌生,在統計工程上常用的方法有簡單的統計量分析,比如最大值最小值是否超出合理的范圍,還有就是比較經典的箱形法。

以上方法是基于統計的方法,其在多維數據上表現的很無力。除此之外還有基于位置,基于偏差和基于密度的方法。還有一些比較新的論文,是基于信息熵(Correntropy)和深度學習的異常點檢測算法。有興趣的小伙伴可以下一些論文看看。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢