熱線電話:13121318867

登錄
首頁大數據時代信息熵與方差-聯系與區別
信息熵與方差-聯系與區別
2016-04-05
收藏
    熵的概念很早就在物理學中出現,熱力學中的熵用于衡量物質狀態的混亂程度?;艚鹪凇稌r間簡歷》中也對熵有著有趣的表述:一個常有人打掃清潔的屋子,熵值低,一個不打掃的屋子,熵值就高,自然界的物質都傾向于向熵值高的方向運動…顯然熵就是混亂程度的指標。
    信息熵來源于香農的信息論,其含義與物理學的熵是近似的,也就是衡量信息的混亂程度,也是度量信息含量多少的重要指標。例如,北京動物園里有馬、牛、蛇、羊四種動物,而上海動物園則只有馬和牛兩種動物,此時顯然北京動物園動物品種更多,信息熵大,信息含量就比上海動物園大。下面是信息熵的計算公式:
     
    方差來源于統計學家對于數據分布的研究,發現方差能夠衡量一個隨機變量的離散程度與信息量的多少。例如,北京人民身高的方差比全國人民小,說明同樣是身高,全國人民比北京人民差異性更大,離散程度更高,當然信息量也就比北京人民大。下面是方差的計算公式:

    這里,兩個概念在信息量多少的表達上有著重疊的地方,而且在機器學習、數據挖掘的一些算法中,兩者都有很多的運用。例如決策樹算法使用信息熵之差信息增益來衡量自變量對于因變量的重要程度,文本挖掘中信息熵用來衡量單詞是否具有代表性,主成份分析中協方差矩陣的特征根表達了信息量的大小,回歸分析中(協)方差作為衡量變量間信息重疊的重要指標…貌似都是在說信息量…
    那么兩者到底是一回事還是有很大區別呢?這里,講理論沒有太好的效果,必須要動手算算才能理解兩者的區別與聯系。
    這里在python中產生了三組服從正態分布隨機變量,樣本含量都為10000,其標準差依次為15,20,25,30,35均值都為100,此時再計算這三組隨機變量的信息熵,結果是此時信息熵和方差大小無關,這里說明了方差與信息熵在表達信息量大小時不能混用,有意思的是,在固定方差的情況下,信息熵卻與樣本含量有關,這里分樣本量分別為2500,5000,7500,10000,12500:

 

    究其原因,信息熵強調隨機變量中元素類別的不一致性,而方差強調隨機變量中元素取值的不一致性。在以上示例中,計算機隨機生成的隨機變量是一個連續變量,取值各不相同,在樣本量一定的情況下,無論隨機如何變化,方差如何變化,其類別均是一定的,每一個元素出現的概率都是一定的,即1/樣本量,所以信息熵此時永遠不變,但是樣本量變化時(取值也各不一樣),類別也跟著變化,元素出現的概率跟著變化(1/樣本量會變化),最終導致信息熵變化。
    既然信息熵強調隨機變量的類別,那么在分類型的隨機變量中與方差有什么區別與連續呢?下面在python中生成了五組隨機變量x1-x5,變量類型為二元型,具體取值見下圖:

    從X1到X5分別計算它們的信息熵和方差,結果如下:
    信息熵與方差
    將信息熵與方差綜合繪制到一張散點圖上:

    此時信息熵與方差呈現正向高度相關,此時,信息熵與方差在衡量隨機變量信息量大小時,可以起到相同的作用。這時因為此時隨機變量中,各個元素的取值與類別是一致的,取值大小和類別多少在這里是高度統一的,所以兩者都可適用。
    但是,需要特別注意的是,在很多二元乃至更多分類隨機變量中,類別本身擁有現實意義,但是類別的取值大小并沒有現實意義。比如人口統計學指標中的性別,男和女抽象為0和1,僅僅是一種指代的符號,數值本身沒有意義,類似的還有民族、居住地等,商業數據中,也有很多的例子,比如貸款類型、市場大區等。所以此時方差雖然可以計算,但無意義,衡量信息量大小只能用信息熵。
    那么,有沒有這么一種情況,隨機變量本身既強調類別的含義,同時也強調類別本身取值的大小呢?當然有,最典型的例子就是對連續變量離散化(分箱),在很多數據分析的情景中,需要對連續變量離散化以滿足后續要求,比如年齡,在進行醫學統計(藥品療效檢驗、病因分析)、商業統計(用戶畫像、客戶細分)的研究中,一般會將年齡離散化為幾個大類,比如18-24歲(0),24-30歲(1),30-40歲(2),40-50歲(3),50歲以上(4)等等,此時,不同的年齡聚集到相應的大類中,而年齡類別的取值越高,代表年齡越大。此時,方差便有了實際含義。

    綜上所述,信息熵與方差有著很大的區別,但是又有著一定的聯系。在使用這兩個概念時,需要對數據本身和兩者區別有著深入的了解,否則會出現錯誤。

    致敬知乎上的大神們的理解:http://www.zhihu.com/question/36481348,這篇文章是在他們的啟發下創作。

推薦學習書籍

《CDA一級教材》適合CDA一級考生備考,也適合業務及數據分析崗位的從業者提升自我。完整電子版已上線CDA網校,累計已有10萬+在讀~

免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢