
數據挖掘實戰訓練
問題:如果研究的變量為連續變量,且多種因素對它有影響,本研究共分為四組,并且組間AGE、BMI、BP等差異均具有統計學意義,應該如何校正AGE、BMI、BP等?
這里:
Y是連續性變量,我們假定基本符合正態分布。
X是四個組別,設X=0、1、2、3,分別表示四組。
目的是要比較四組之間有沒有差異,但要考慮到組間AGE、BMI、BP等不同對Y的影響。
做數據分析好比打乒乓球,多數人是自己摸索,沒有專業教練指導,接發球等動作是自己摸索出來一套野路子,常常一個球打好了,也不知道是怎么打好的,下一個就打不出來了,不能重復,因為不知道什么是規范的動作要領,打到一定水平后也無法再提高。而那些從小就經過專業訓練出來的則完全不一樣,因為動作規范,所以技術水平提高快。
象上面這個問題,就有業余選手與專業選手兩種打法。先看看業余選手的通常打法:
1)先做方差分析看四組之間差別有沒有顯著性,如果有顯著性,考慮組間比較,看是哪兩組間有顯著差別。
2)考慮其它因素的影響,用逐步回歸的方法建立一個多元模型,初始模型為:Y=X+AGE+BMI+BP+…,最后出來一個最終模型,如Y=X+BMI,最后結論是X的組間差別有意義,另外BMI也是Y的一個危險因素。
3)業余段位高一點的會把X生成4個指示變量,用X0表示X=0,X1表示X=1, X2表示X=2, X1表示X=3,然后以X=0組為參照,把X1、X2、X3放入模型中,這樣初始模型變為:Y=X1+X2+X3+AGE+BMI+BP+…,最后出來一個模型可能是Y=X2+X3+BMI。結論是X=2與X=3組與X=0組差別有意義,另外BMI也是Y的一個危險因素。
專業的打法路子是什么樣的呢?
首先專業選手使用的球拍就比較講究。雖然鄧亞萍可以用木鍋鏟當球拍與人打球,但那是打著玩的,正式上場比賽(發論文)必會拿著她最好用的球拍。這里對我來說最好用的球拍是EmpowerStats(易侕統計)軟件,下面我就用易侕軟件演示一下對這個問題的分析思路與操作規范:
第一步
先把數據整理好,這個就不多說了,變量名要用英文的,數據要數字化,如X編碼成0、1、2、3,性別可以是0、1(分別表示男、女),數據最好存成制表符分隔的文本文件。
第二步
打開易侕統計,給出數據文件名,易侕讀取數據文件后自動給出變量清單與每個變量的分布,如下圖示,這時候你就可以非常方便地查看每個變量的分布了,如Y、AGE、BMI、BP等連續性變量的分布形狀、最大值、最小值、百分位數、均數、標準差等,X等分類型變量每組的觀察數及其百分比,這些基本信息一下子就盡收眼底了。
可以看出“易侕”自動識別變量類型(分類型或連續性),根據變量類型做相應的統計描述,并將其分布用非常簡明的方式呈現出來。也就是說“易侕”這個球拍可以自動發出各種旋球,一個回合下來,對方吃不吃旋球,吃什么樣的旋球,你一下就摸清了。
第三步
用“數據分析”菜單下的“掃描關聯關系”模塊,把Y拖入(或雙擊)結果變量框內,如圖所示:
易侕自動掃描數據中哪些變量與Y有關,給出如下圖的圖表結果。
這個時候做的是單因素分析,看每個變量與Y的關系,沒有考慮其它因素的影響,如果你確定哪個(或幾個)變量,如AGE,對Y有影響,你可以把AGE放到調整變量里,這樣看的就是看在調整了AGE的情況下,其余每個變量對Y有沒有影響。
易侕在分析連續性變量如BMI與Y有沒有關系時,會自動考慮到BMI與Y的關系可能不是線性的變化關系,因此在做了直線回歸分析的同時,還會自動做平滑曲線擬合,以展現Y隨BMI的變化曲線,幫助我們判斷兩者之間是什么樣的關系。
在分析分類變量如X與Y的關系時,自動生成指示變量放入模型,把X=1、2、3組與0組比較,呈現三個回歸系數(分別表示每組與X=0組相比Y的差值)及其95%可信區間與P值。這個回歸系數的大小很重要,可以幫助我們判斷是否可以進行組間合并,X=0組是參照組,相當于其回歸系數是0,如果X=1的回歸系數與0接近且不顯著,也就是說X=1組與X=0組沒有差別,后面的分析就可以考慮把這兩組合并為一組,同理如果X2與X3組回歸系數接近,也可以考慮把它們合并,這樣一來原來四組之間的比較,就可能合并成兩組(或三組)之間的比較,合并的目的是使比較組的樣本量增加,提高檢驗效率,原來只是接近顯著的差別就可能變得顯著了。如果不能合并,看X1、X2、X3的回歸系數的相對大小,如果有等級關系,就可以考慮把X當成等級變量,直接把X放入模型。必要時要對X進行重新編碼,如回歸系數是X1<X3<X2,相鄰的差值基本相等,就可以把原來的X=3與X=2互換一下,用易侕的“變量操作”菜單下的“分類變量取值重編碼”功能很容易實現。把X直接放入模型得出的回歸系數就表示X每增加一個等級Y變化多少,這樣模型用到的參數少了2個,檢驗效率也就提高了。
這下我們可以看到“易侕”這個球拍還會自動拉出弧圈來。這個回合下來,你對數據內部的關聯關系就有了一個輪廓性的了解。至少你知道了X與Y表面上看有沒有關系? 是什么樣的關系? 還有哪些因素與Y有什么樣的關系了?
也許你會問,這個過程只是單因素的分析,沒有考慮組間諸如AGE、BMI、BP的影響,得出來的X1、X2、X3的回歸系數不一定可靠,這時候根據它們的大小決定合并分組(或按等級變量來處理)是否過早,因為以后在調整了AGE、BMI、BP這些因素的影響后,它們可能就不是現在這樣的相對大小了,可能要重新合并。這個考慮完全正確,這相當于你拉出了一個弧圈,對方又拉回來了,你就多拉幾個回合(調整其它可能的影響因素)看看,再不行就改著削回去,保持用原來的三個指示變量。
順便提一句:如果X是個連續性的變量,Y是否隨X直線變化呢?有沒有閾值效應或飽和效應呢?閾值效應即當X達到某點后,X增加Y開始發生變化;飽和效應指當X達到某點后,X增加Y不再發生變化。這種現象在生物醫學領域里是很常見的,找到這種關系,就是發現了一個亮點,能提高論文的檔次。怎么找呢?用“數據分析”菜單下的“平滑曲線擬合模塊”,結合“閾值效應與飽和效應分析”模塊很容易發現。
第一步是準備,第二步、第三步是摸底,下面該進入主題了,也就是要確定攻擊的主要目標與次要目標是什么?當然最主要的目標是X,次要目標是可能的混雜因素,在次要目標里又有相對重要的目標。如何確定呢?根據第二步得出了還有哪些因素與Y有什么樣的關系,再結合文獻上已經報道的與Y有關的因素,不難列出這篇分析里需要考慮哪些可能的混雜因素(用Zs表示)及如何控制這些混雜因素。
如何有效控制混雜因素呢?
(1)假設AGE與Y有關系,如果是線性的關系,調整時就可以把AGE直接放入模型;如果是曲線性的關系,可以根據曲線形狀考慮:(a)調整時放入AGE與AGE的平方;(b)把AGE分成四等分或三等分,按分類變量處理;(c)根據曲線上的節點把AGE分組,按分類變量處理。
(2)假設文化程度(EDU)與Y有關,EDU本來也分成4組,有3個指示變量,根據這3個指示變量的回歸系數,考慮是否可以合并成三組或兩組,或按等級變量來處理,以減少模型的自由度。
(3)假設職業(OCCU)與Y有關系,OCCU本來分成四組,有三個指示變量,根據這三個指示變量的回歸系數,考慮是否可以合并成三組或兩組,以減少模型的自由度。注意職業不是等級變量,如果有三個或以上的分類,就不宜把OCCU直接放入模型。
易侕“變量操作”菜單下有相應的“連續性變量分組”、“分類變量取值重編碼”與“按連續性變量處理”分類變量,等等,很容易實現上述變量操作。
確定了Y、X、Zs(進行了必要的處理,如合并,分組)后,現在開始實施系統性的“攻城計劃”了。
第四步
調用“數據分析”菜單下的“研究人群描述”模塊,把X作用列分組變量,把Y及Zs拖入要描述的變量,如圖示,點擊查看結果。首先得出一個如下圖的研究人群描述表,讓我們看看四個(或合并后的兩個或三個)比較組人群有什么差異,這個表通常就是文章的表一。
第五步
調用“數據分析”菜單下的“單因素分析”模塊,把Y作為結果變量,把X及Zs拖入危險因素變量框內,如圖例,點擊查看結果。得出一個如下圖的單因素分析結果,讓我們看看這些因素與Y有沒有關系,這個表通常就是文章的表二。這里需要注意的是要根據上述第三步的結果決定如何放入X或和Z到模型中,如AGE與Y不是直線性的關系,就需要把AGE先分組,然后按分類變量進行單因素分析。
第六步
調用“數據分析”菜單下的“快速掃描交互作用”模塊,把Y作為結果變量,把X作為危險因素,把Zs拖入篩查交互作用變量框內,如圖例,點擊查看結果。得出一個如下圖的交互作用篩查結果,讓我們看看哪些因素影響(增強或減弱)X對Y的作用。
何為交互作用呢?如Zi與X有交互作用,指的是Zi不同的情況下X的回歸系數不同(有顯著差異),這個時候最好X分組不能太多,最好是兩組或是連續性變量。如果Zi是連續性變量,如AGE,易侕會自動對AGE進行等分組,看AGE低、中、高不同的情況下X的回歸系數有沒有顯著差異。
這個模塊只是快速篩查交互作用,如果發現某個Zi如EDU與X交互作用顯著或接近顯著,就需要用“數據分析”菜單下“交互作用檢驗模塊”分析,這個模塊中同時輸出未調整的與調整其它因素的模型,輸出論文中常用的表格模式。下一步詳述。
如果Zi是連續性變量,如AGE,上面這個“篩查交互作用模塊”是自動把AGE分組,然后分析AGE分組與X的交互作用。對這種連續性變量,如果它對Y的作用是線性的,而X是分組變量,交互作用還可以反過來作,即把AGE當成危險因素,分析X不同AGE對Y的作用(回歸系數)是否有顯著性差異。這個時候,你可以先用“數據分析”菜單下的“變量圖示與統計檢驗”模塊,把Y放入分析變量(Y)框內,把連續性的Zs放入變量(X)框內,選X(分組變量)為“分層變量”,點擊查看結果。結果如下圖所示。自動得出X與每個Z的交互作用。如果這個模塊出來的交互作用顯著或接近顯著,再用“交互作用檢驗”模塊分不調整與調整其它因素模型,作交互作用檢驗。如果X與AGE有顯著的交互作用,說明Y隨AGE的變化受X影響,如X=1時Y隨AGE變化顯著大于X=0時,這就很有意義。
如果不調整其它因素,交互作用顯著,而調整了其它因素后,交互作用就不顯著了,怎么解釋呢?首先要比較按Zi分層的X的回歸系數,并與未調整的模型比較,如果調整后按Zi分層的回歸系數差別仍然存在,與未調整的模型相比變化也不大(說明其它因素的混雜作用小),只是交互作用的P值不顯著了,這可能就是因為模型增加了調整因素,自由度增加了,檢驗效率低了,增加樣本量就可能顯著, 不等于沒有交互作用。這是為什么要同時呈現未調整與調整的模型。
尋找交互作用就象尋找最佳組合?!耙讈酢边@個球拍可以讓你輕松變招,你很容易就能發現哪兩招組合(如發什么樣的球,結合發球后如何搶攻)就能一下擊垮對方。交互作用是論文的亮點,它能讓你的論文價值一下子上升兩個檔次。這也是為什么這第六步花了這么大的篇幅。
第七步
這就要根據第六步的結果決定下一步如何走了。如果發現某因素(如SEX)與X有交互作用,那接下來就是:
(1)決定哪些因素要調整,調用“數據分析”菜單下的“協變量檢查與篩選”模塊,Y作為結果變量,X作為危險因素,把固定要調整的(可無)與要檢查與篩選的協變量(不包括SEX)放入相應的框內,把SEX作為分層變量,點擊查看結果。得出要調整的協變量有哪些,當然這個結果只是從現有數據中得來的,可能有些變量根據文獻需要調整但這里卻被篩出去了,可以把它們召回來,也可以在調用模塊時把這些變量作為固定要調整的變量。
(2)確定了要調整的協變量后,就用交互作用檢驗模塊,運行不調整的模型與調整的模型,呈現按SEX分層分析的結果與交互作用檢驗的P值。如果有幾個Zi與X都有交互作用,那就運行幾次這個模塊,最后把結果合并到一起即可。如果X(分組變量)與幾個連續性的Z都有交互作用,你在調用交互作用檢驗模塊時,還可以把這些Z作為危險因素,把X作用效應修飾因子,運行模型,結果直接呈現在一個表中。
這里的要點是當發現有交互作用時,就應該用分層的分析結果,來呈現X對Y有沒有獨立作用?獨立作用大小是多少?因為這時候獨立作用的大小因交互作用因素不同而不同,就不能用一個值來表達,否則你的論文就可能前后矛盾。
如果沒有發現交互作用,那接下來呢:
(1)第六步交互作用檢驗里做了很多分層的分析,比較一下(按Zi)分層的X的回歸系數與單因素分析時得出來的X的回歸系數,如果差別比較大,說明這個分層因素(Zi)就是個混雜因素?;祀s的結果是雙向的,如果單因素分析X的回歸系數大,P值顯著,按Zi分層,每層內X的回歸系數小,都不顯著,這樣你單因素分析發現的X與Y有關可能就是個表象,是由Zi的混雜造成的。如果單因素分析X的回歸系數小,P值不顯著,按Zi分層,每層內X的回歸系數都大,都顯著或接近顯著,這樣你很幸運,單因素分析發現的X與Y無關也可能是個表象,是由Zi的混雜造成的,實際上它們之間是有關系的。
有時候你需要呈現分層分析的結果,以說明你發現的X與Y的關系不是由這些分層因素的混雜造成的,增加說服力,如下圖所示,作者按不同因素分層以說明吃豆腐量與血鉛有關。調用“數據分析”菜單下的“分層分析”模塊,把Y放入結果變量,X作為危險因素,把分層變量放入相應的框中,模塊自動按每個分層變量分層,分析X與Y的關系,直接輸出論文常見的表格格式。這個時候看分層分析結果時,P值是否顯著不是那么重要,當然顯著會更好,分層后因為每層內的樣本量減少了,P值不一定顯著,關鍵是看每層內X與Y的關系的趨勢是否仍然存在,回歸系數有多大改變。
(2)接下來是要評價X對Y獨立作用的大小。同上面所述,先調用“數據分析”菜單下的“協變量檢查與篩選”模塊,Y作為結果變量,X作為危險因素,把固定要調整的與要檢查與篩選的協變量放入相應的框內,點擊查看結果。
確定了要調整的變量后,就調用“數據分析”菜單下的“多個回歸方程”模塊,Y作為結果變量,X作為危險因素,運行兩個模型(模型I不調整任何因素,模型II調整上面得出的要調整的因素)或三個模型(模型I不調整任何因素,模型II調整固定要調整的因素,模型III調整上面得出的要調整的因素;或模型II調整上面得出的要調整的因素,模型III調整所有可能的混雜因素),對輸出表格可以進行相應的行列設計(或用默認的格式),點擊查看結果即得出論文常見的多個模型輸出的結果,如下圖例所示。
上述的這些動作要領雖然很多,但經過幾次練習后,不難掌握,而且一旦掌握了,把規范變成習慣,以后用起來就自然了。到那時,你上場(打乒乓球)就可以隨意發揮了,而且失誤少,命中率高,就鮮有對手了。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25