數據挖掘實戰訓練-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀數據挖掘實戰訓練

數據挖掘實戰訓練

2016-03-08

收藏

數據挖掘實戰訓練

問題：如果研究的變量為連續變量，且多種因素對它有影響，本研究共分為四組，并且組間AGE、BMI、BP等差異均具有統計學意義，應該如何校正AGE、BMI、BP等？

這里：

Y是連續性變量，我們假定基本符合正態分布。

X是四個組別，設X=0、1、2、3，分別表示四組。

目的是要比較四組之間有沒有差異，但要考慮到組間AGE、BMI、BP等不同對Y的影響。

做數據分析好比打乒乓球，多數人是自己摸索，沒有專業教練指導，接發球等動作是自己摸索出來一套野路子，常常一個球打好了，也不知道是怎么打好的，下一個就打不出來了，不能重復，因為不知道什么是規范的動作要領，打到一定水平后也無法再提高。而那些從小就經過專業訓練出來的則完全不一樣，因為動作規范，所以技術水平提高快。

象上面這個問題，就有業余選手與專業選手兩種打法。先看看業余選手的通常打法：

1）先做方差分析看四組之間差別有沒有顯著性，如果有顯著性，考慮組間比較，看是哪兩組間有顯著差別。

2）考慮其它因素的影響，用逐步回歸的方法建立一個多元模型，初始模型為：Y=X+AGE+BMI+BP+…，最后出來一個最終模型，如Y=X+BMI，最后結論是X的組間差別有意義，另外BMI也是Y的一個危險因素。

3）業余段位高一點的會把X生成4個指示變量，用X0表示X=0，X1表示X=1, X2表示X=2, X1表示X=3,然后以X=0組為參照，把X1、X2、X3放入模型中，這樣初始模型變為：Y=X1+X2+X3+AGE+BMI+BP+…，最后出來一個模型可能是Y=X2+X3+BMI。結論是X=2與X=3組與X=0組差別有意義，另外BMI也是Y的一個危險因素。

專業的打法路子是什么樣的呢？

首先專業選手使用的球拍就比較講究。雖然鄧亞萍可以用木鍋鏟當球拍與人打球，但那是打著玩的，正式上場比賽（發論文）必會拿著她最好用的球拍。這里對我來說最好用的球拍是EmpowerStats(易侕統計)軟件，下面我就用易侕軟件演示一下對這個問題的分析思路與操作規范：

第一步

先把數據整理好，這個就不多說了，變量名要用英文的，數據要數字化，如X編碼成0、1、2、3，性別可以是0、1（分別表示男、女），數據最好存成制表符分隔的文本文件。

第二步

打開易侕統計，給出數據文件名，易侕讀取數據文件后自動給出變量清單與每個變量的分布，如下圖示，這時候你就可以非常方便地查看每個變量的分布了，如Y、AGE、BMI、BP等連續性變量的分布形狀、最大值、最小值、百分位數、均數、標準差等，X等分類型變量每組的觀察數及其百分比，這些基本信息一下子就盡收眼底了。

可以看出“易侕”自動識別變量類型（分類型或連續性），根據變量類型做相應的統計描述，并將其分布用非常簡明的方式呈現出來。也就是說“易侕”這個球拍可以自動發出各種旋球，一個回合下來，對方吃不吃旋球，吃什么樣的旋球，你一下就摸清了。

第三步

用“數據分析”菜單下的“掃描關聯關系”模塊，把Y拖入（或雙擊）結果變量框內，如圖所示:

易侕自動掃描數據中哪些變量與Y有關，給出如下圖的圖表結果。

這個時候做的是單因素分析，看每個變量與Y的關系，沒有考慮其它因素的影響，如果你確定哪個（或幾個）變量，如AGE，對Y有影響，你可以把AGE放到調整變量里，這樣看的就是看在調整了AGE的情況下，其余每個變量對Y有沒有影響。

易侕在分析連續性變量如BMI與Y有沒有關系時，會自動考慮到BMI與Y的關系可能不是線性的變化關系，因此在做了直線回歸分析的同時，還會自動做平滑曲線擬合，以展現Y隨BMI的變化曲線，幫助我們判斷兩者之間是什么樣的關系。

在分析分類變量如X與Y的關系時，自動生成指示變量放入模型，把X=1、2、3組與0組比較，呈現三個回歸系數（分別表示每組與X=0組相比Y的差值）及其95%可信區間與P值。這個回歸系數的大小很重要，可以幫助我們判斷是否可以進行組間合并，X=0組是參照組，相當于其回歸系數是0，如果X=1的回歸系數與0接近且不顯著，也就是說X=1組與X=0組沒有差別，后面的分析就可以考慮把這兩組合并為一組，同理如果X2與X3組回歸系數接近，也可以考慮把它們合并，這樣一來原來四組之間的比較，就可能合并成兩組（或三組）之間的比較，合并的目的是使比較組的樣本量增加，提高檢驗效率，原來只是接近顯著的差別就可能變得顯著了。如果不能合并，看X1、X2、X3的回歸系數的相對大小，如果有等級關系，就可以考慮把X當成等級變量，直接把X放入模型。必要時要對X進行重新編碼，如回歸系數是X1<X3<X2，相鄰的差值基本相等，就可以把原來的X=3與X=2互換一下，用易侕的“變量操作”菜單下的“分類變量取值重編碼”功能很容易實現。把X直接放入模型得出的回歸系數就表示X每增加一個等級Y變化多少，這樣模型用到的參數少了2個，檢驗效率也就提高了。

這下我們可以看到“易侕”這個球拍還會自動拉出弧圈來。這個回合下來，你對數據內部的關聯關系就有了一個輪廓性的了解。至少你知道了X與Y表面上看有沒有關系? 是什么樣的關系? 還有哪些因素與Y有什么樣的關系了？

也許你會問，這個過程只是單因素的分析，沒有考慮組間諸如AGE、BMI、BP的影響，得出來的X1、X2、X3的回歸系數不一定可靠，這時候根據它們的大小決定合并分組（或按等級變量來處理）是否過早，因為以后在調整了AGE、BMI、BP這些因素的影響后，它們可能就不是現在這樣的相對大小了，可能要重新合并。這個考慮完全正確，這相當于你拉出了一個弧圈，對方又拉回來了，你就多拉幾個回合（調整其它可能的影響因素）看看，再不行就改著削回去，保持用原來的三個指示變量。

順便提一句：如果X是個連續性的變量，Y是否隨X直線變化呢？有沒有閾值效應或飽和效應呢？閾值效應即當X達到某點后，X增加Y開始發生變化；飽和效應指當X達到某點后,X增加Y不再發生變化。這種現象在生物醫學領域里是很常見的，找到這種關系，就是發現了一個亮點，能提高論文的檔次。怎么找呢？用“數據分析”菜單下的“平滑曲線擬合模塊”，結合“閾值效應與飽和效應分析”模塊很容易發現。

第一步是準備，第二步、第三步是摸底，下面該進入主題了，也就是要確定攻擊的主要目標與次要目標是什么？當然最主要的目標是X，次要目標是可能的混雜因素，在次要目標里又有相對重要的目標。如何確定呢？根據第二步得出了還有哪些因素與Y有什么樣的關系，再結合文獻上已經報道的與Y有關的因素，不難列出這篇分析里需要考慮哪些可能的混雜因素（用Zs表示）及如何控制這些混雜因素。

如何有效控制混雜因素呢？

（1）假設AGE與Y有關系，如果是線性的關系，調整時就可以把AGE直接放入模型；如果是曲線性的關系，可以根據曲線形狀考慮：（a）調整時放入AGE與AGE的平方；（b）把AGE分成四等分或三等分，按分類變量處理；（c）根據曲線上的節點把AGE分組，按分類變量處理。

（2）假設文化程度（EDU）與Y有關，EDU本來也分成4組，有3個指示變量，根據這3個指示變量的回歸系數，考慮是否可以合并成三組或兩組，或按等級變量來處理，以減少模型的自由度。

（3）假設職業（OCCU）與Y有關系，OCCU本來分成四組，有三個指示變量，根據這三個指示變量的回歸系數，考慮是否可以合并成三組或兩組，以減少模型的自由度。注意職業不是等級變量，如果有三個或以上的分類，就不宜把OCCU直接放入模型。

易侕“變量操作”菜單下有相應的“連續性變量分組”、“分類變量取值重編碼”與“按連續性變量處理”分類變量，等等，很容易實現上述變量操作。

確定了Y、X、Zs(進行了必要的處理，如合并，分組）后，現在開始實施系統性的“攻城計劃”了。

第四步

調用“數據分析”菜單下的“研究人群描述”模塊，把X作用列分組變量，把Y及Zs拖入要描述的變量，如圖示，點擊查看結果。首先得出一個如下圖的研究人群描述表，讓我們看看四個（或合并后的兩個或三個）比較組人群有什么差異，這個表通常就是文章的表一。

第五步

調用“數據分析”菜單下的“單因素分析”模塊，把Y作為結果變量，把X及Zs拖入危險因素變量框內，如圖例，點擊查看結果。得出一個如下圖的單因素分析結果，讓我們看看這些因素與Y有沒有關系，這個表通常就是文章的表二。這里需要注意的是要根據上述第三步的結果決定如何放入X或和Z到模型中，如AGE與Y不是直線性的關系，就需要把AGE先分組，然后按分類變量進行單因素分析。

第六步

調用“數據分析”菜單下的“快速掃描交互作用”模塊，把Y作為結果變量，把X作為危險因素，把Zs拖入篩查交互作用變量框內，如圖例，點擊查看結果。得出一個如下圖的交互作用篩查結果，讓我們看看哪些因素影響(增強或減弱)X對Y的作用。

何為交互作用呢？如Zi與X有交互作用，指的是Zi不同的情況下X的回歸系數不同（有顯著差異），這個時候最好X分組不能太多，最好是兩組或是連續性變量。如果Zi是連續性變量，如AGE，易侕會自動對AGE進行等分組，看AGE低、中、高不同的情況下X的回歸系數有沒有顯著差異。

這個模塊只是快速篩查交互作用，如果發現某個Zi如EDU與X交互作用顯著或接近顯著，就需要用“數據分析”菜單下“交互作用檢驗模塊”分析，這個模塊中同時輸出未調整的與調整其它因素的模型，輸出論文中常用的表格模式。下一步詳述。

如果Zi是連續性變量，如AGE，上面這個“篩查交互作用模塊”是自動把AGE分組，然后分析AGE分組與X的交互作用。對這種連續性變量，如果它對Y的作用是線性的，而X是分組變量，交互作用還可以反過來作，即把AGE當成危險因素，分析X不同AGE對Y的作用（回歸系數）是否有顯著性差異。這個時候，你可以先用“數據分析”菜單下的“變量圖示與統計檢驗”模塊，把Y放入分析變量（Y）框內，把連續性的Zs放入變量（X）框內，選X（分組變量）為“分層變量”，點擊查看結果。結果如下圖所示。自動得出X與每個Z的交互作用。如果這個模塊出來的交互作用顯著或接近顯著，再用“交互作用檢驗”模塊分不調整與調整其它因素模型，作交互作用檢驗。如果X與AGE有顯著的交互作用，說明Y隨AGE的變化受X影響，如X=1時Y隨AGE變化顯著大于X=0時，這就很有意義。

如果不調整其它因素，交互作用顯著，而調整了其它因素后，交互作用就不顯著了，怎么解釋呢？首先要比較按Zi分層的X的回歸系數，并與未調整的模型比較，如果調整后按Zi分層的回歸系數差別仍然存在，與未調整的模型相比變化也不大(說明其它因素的混雜作用小)，只是交互作用的P值不顯著了，這可能就是因為模型增加了調整因素，自由度增加了，檢驗效率低了，增加樣本量就可能顯著, 不等于沒有交互作用。這是為什么要同時呈現未調整與調整的模型。

尋找交互作用就象尋找最佳組合?！耙讈酢边@個球拍可以讓你輕松變招，你很容易就能發現哪兩招組合（如發什么樣的球，結合發球后如何搶攻）就能一下擊垮對方。交互作用是論文的亮點，它能讓你的論文價值一下子上升兩個檔次。這也是為什么這第六步花了這么大的篇幅。

第七步

這就要根據第六步的結果決定下一步如何走了。如果發現某因素(如SEX)與X有交互作用，那接下來就是：

（1）決定哪些因素要調整，調用“數據分析”菜單下的“協變量檢查與篩選”模塊，Y作為結果變量，X作為危險因素，把固定要調整的（可無）與要檢查與篩選的協變量（不包括SEX）放入相應的框內，把SEX作為分層變量，點擊查看結果。得出要調整的協變量有哪些，當然這個結果只是從現有數據中得來的，可能有些變量根據文獻需要調整但這里卻被篩出去了，可以把它們召回來，也可以在調用模塊時把這些變量作為固定要調整的變量。

（2）確定了要調整的協變量后，就用交互作用檢驗模塊，運行不調整的模型與調整的模型，呈現按SEX分層分析的結果與交互作用檢驗的P值。如果有幾個Zi與X都有交互作用，那就運行幾次這個模塊，最后把結果合并到一起即可。如果X（分組變量）與幾個連續性的Z都有交互作用，你在調用交互作用檢驗模塊時，還可以把這些Z作為危險因素，把X作用效應修飾因子，運行模型，結果直接呈現在一個表中。

這里的要點是當發現有交互作用時，就應該用分層的分析結果，來呈現X對Y有沒有獨立作用？獨立作用大小是多少？因為這時候獨立作用的大小因交互作用因素不同而不同，就不能用一個值來表達，否則你的論文就可能前后矛盾。

如果沒有發現交互作用，那接下來呢：

(1)第六步交互作用檢驗里做了很多分層的分析，比較一下（按Zi）分層的X的回歸系數與單因素分析時得出來的X的回歸系數，如果差別比較大，說明這個分層因素（Zi）就是個混雜因素?；祀s的結果是雙向的，如果單因素分析X的回歸系數大，P值顯著，按Zi分層，每層內X的回歸系數小，都不顯著，這樣你單因素分析發現的X與Y有關可能就是個表象，是由Zi的混雜造成的。如果單因素分析X的回歸系數小，P值不顯著，按Zi分層，每層內X的回歸系數都大，都顯著或接近顯著，這樣你很幸運，單因素分析發現的X與Y無關也可能是個表象，是由Zi的混雜造成的，實際上它們之間是有關系的。

有時候你需要呈現分層分析的結果，以說明你發現的X與Y的關系不是由這些分層因素的混雜造成的，增加說服力，如下圖所示，作者按不同因素分層以說明吃豆腐量與血鉛有關。調用“數據分析”菜單下的“分層分析”模塊，把Y放入結果變量，X作為危險因素，把分層變量放入相應的框中，模塊自動按每個分層變量分層，分析X與Y的關系，直接輸出論文常見的表格格式。這個時候看分層分析結果時，P值是否顯著不是那么重要，當然顯著會更好，分層后因為每層內的樣本量減少了，P值不一定顯著，關鍵是看每層內X與Y的關系的趨勢是否仍然存在，回歸系數有多大改變。

(2)接下來是要評價X對Y獨立作用的大小。同上面所述，先調用“數據分析”菜單下的“協變量檢查與篩選”模塊，Y作為結果變量，X作為危險因素，把固定要調整的與要檢查與篩選的協變量放入相應的框內，點擊查看結果。

確定了要調整的變量后，就調用“數據分析”菜單下的“多個回歸方程”模塊，Y作為結果變量，X作為危險因素，運行兩個模型（模型I不調整任何因素，模型II調整上面得出的要調整的因素）或三個模型（模型I不調整任何因素，模型II調整固定要調整的因素，模型III調整上面得出的要調整的因素；或模型II調整上面得出的要調整的因素，模型III調整所有可能的混雜因素），對輸出表格可以進行相應的行列設計（或用默認的格式），點擊查看結果即得出論文常見的多個模型輸出的結果，如下圖例所示。

上述的這些動作要領雖然很多，但經過幾次練習后，不難掌握，而且一旦掌握了，把規范變成習慣，以后用起來就自然了。到那時，你上場（打乒乓球）就可以隨意發揮了，而且失誤少，命中率高，就鮮有對手了。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

數據分析正態分布方差分析數據挖掘

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數據分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數據人才培養標準教育事業！

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊