熱線電話:13121318867

登錄
首頁精彩閱讀數據科學家的武器庫(數理統計技術)
數據科學家的武器庫(數理統計技術)
2021-09-06
收藏

數理統計博大精深,分為頻率和貝葉斯兩大學派。不過作為面向商業運用的數據科學家,對入門級選手的數理統計要求并不高,只要具備文科高等數理統計的基礎足矣,比如被廣泛采用的《經濟數學第三冊》,或者任何一本商業統計學、社會統計學,教育統計學等教程。

1.2.1描述性統計分析

描述性分析是每個人都會使用的方法。比如新聞聯播中每次提及人民的收入情況,報告的永遠是均值,而不是一一念出每個人的收入。企業財務年報中經常提及的是年收入、利潤總額,而不是每一筆交易的數據。這些平均數、總和就是統計量。描述性分析就是從總體數據中提煉變量的主要信息,即統計量。日常的業務分析報告就是通過標準的描述性分析方法完成的,其套路性很強。做這類分析只要明確分析的主題和可能的影響因素,確定可量化主題和影響因素的指標。根據這些指標的度量類型選擇適用的統計表和統計圖進行信息呈現即可。下圖展現了統計表的類型和對應的柱形圖。

數據科學家的武器庫(數理統計技術)

圖1-4描述性統計分析方法

關于描述性統計分析詳細的內容,大家可以閱讀第4.2節的制作報表與統計制圖的內容。這些內容看上去枯燥也沒什么用處,那我們以一個例子表現其用途。目前商業智能的概念比較流行,圖1-5 是某知名商業智能軟件的截圖,看上去高大上,其實就是圖1-4中方法的運用。比如最下面的“普通小學基本情況”報表就是“匯總表”的直接運用。比如左下角的“普通小學專任教師數”是柱形圖的變體,使用博士帽的數量替代柱高;右下角的“各省份小學學校數量占比”中,使用起泡的大小代表各省小學數量的占比情況。

數據科學家的武器庫(數理統計技術)

圖1-5 某商業智能軟件的截圖

學習描述性統計分析很簡單,一上午就可以學完這些知識,并可以勝任95%以上的業務分析報告編寫工作。剩下的難點完全是對業務理解和尋找數據了,要靠多讀分析報告積累業務經驗。

1.2.2統計推斷統計建模

統計推斷統計建模,含義是建立解釋變量與被解釋變量之間可解釋的、穩定的,最好是具有因果關系的表達式。在模型運用時,將解釋變量帶入該表達式,用于預測每個個體被解釋變量的均值。目前針對統計推斷,廣泛存在兩個誤解:

1、統計推斷無用論:認為大數據時代只作描述性分析即可,不需要統計推斷。由于總體有時間和空間兩個維度的,即使通過大容量與高速并行處理可以得到空間上的總體。但是永遠無法獲取時間上的總體,因為需要預測的總是新的客戶或新的需求。而且更為重要的是,在數據科學體系中,統計推斷的算法往往是復雜的數據挖掘與人工智能算法的基礎。比如特征工程中大量使用統計推斷算法進行特征創造與特征提取。

2、學習統計推斷的產出/投入比低:深度學習大行其道的關鍵點是產出/投入比高。實踐表明,具有高等數學基礎的學生可以通過兩個月的強化訓練掌握深度學習算法,并投入生產。而培養同樣基礎的人開發可商業落地的統計模型的培訓時間至少半年。原因在于統計推斷的算法是根據分析變量的度量類型定制開發的,這需要分析人員對各類指標的分布類型有所認識,合理選擇算法。而深度學習算法是通用的,可以在一個框架下完成所有任務。聽上去當然后者的產出/投入比更高。但是效率與風險往往是共存的,目前來自于頂尖IA公司的模型開發人員已經發現一個問題:解決同樣問題,統計模型開發周期長而更新頻次低;深度學習算法開發周期短而優化頻次高。過去深度學習所鼓吹的實時優化給企業造成了過度的人員投入。因此深度學習的綜合受益不一定高,而本書的目的之一就在于降低統計推斷學習的成本。讀者將來只要按照下表根據分析數據按圖索驥即可,大大縮減學習時間。

表1-2統計推斷與建模方法

被預測變量Y

預測變量X

分類(二分)

連續

單個變量

分類(二分)

列聯表分析|卡方檢驗

雙樣本t檢驗

分類(多個分類)

列聯表分析|卡方檢驗

單因素方差分析

連續

雙樣本t檢驗

相關分析

多個變量

分類

邏輯回歸

多因素方差分析|線性回歸

連續

邏輯回歸

線性回歸

數據資管出品

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢