關于SPSS數據預處理-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀關于SPSS數據預處理

關于SPSS數據預處理

2015-09-12

收藏

關于SPSS數據預處理

關于SPSS數據預處理

拿到一份數據，或者在看到國內外某個學者的文章有想法而自己手里的數據剛好符合這個想法可以做時，在整理好數據后不要急于建模。一定要對數據做缺失值處理、異常值處理。在數據預處理的基礎上再進一步建模，否則可能得到錯誤的結果。

心得1：數據預處理怎么做。

一是缺失值的處理。我個人有幾個看法：

數據樣本量足夠大，在刪除缺失值樣本的情況下不影響估計總體情況，可考慮刪除缺失值；

二是數據樣本量本身不大的情況下，可從以下兩點考慮：1是采用缺失值替換，SPSS中具體操作為“轉換”菜單下的“替換缺失值”功能，里面有5種替換的方法。若數據樣本量不大，同質性比較強，可考慮總體均值替換方法，如數據來自不同的總體（如我做農戶調研不同村的數據），可考慮以一個小總體的均值作為替換（如我以一個村的均值替換缺失值）。2是根據原始問卷結合客觀實際自行推斷估計一個缺失值的樣本值，或者以一個類似家庭的值補充缺失值。

心得2：數據預處理第二點異常值的處理。

我大概學了兩門統計軟件SPSS和Stata，SPSS用的時間久些，熟悉一下，Stata最近才學，不是太熟。關于這點我結合著來說。關于異常值的處理可分為兩點，一是怎么判定一個值是異常值，二是怎么去處理。

判定異常值的方法我個人認為常用的有兩點：1是描述性統計分析，看均值、標準差和最大最小值。一般情況下，若標準差遠遠大于均值，可粗略判定數據存在異常值。2是通過做指標的箱圖判定，箱圖上加“*”的個案即為異常個案。

發現了異常值，接下來說怎么處理的問題。大概有三種方法：

1是正偏態分布數據取對數處理。我做農戶微觀實證研究，很多時候得到的數據（如收入）都有很大的異常值，數據呈正偏態分布，這種我一般是取對數處理數據。若原始數據中還有0，取對數ln(0)沒意義，我就取ln(x+1)處理；

2是樣本量足夠大刪除異常值樣本；

3是從stata里學到的，對數據做結尾或者縮尾處理。這里的結尾處理其實就是同第二個方法，在樣本量足夠大的情況下刪除首尾1%-5%的樣本?？s尾指的是人為改變異常值大小。如有一組數據，均值為50，存在幾個異常值，都是500多（我這么說有點夸張，大概是這個意思），縮尾處理就是將這幾個500多的數據人為改為均值+3標準差左右數據大小，如改為100。

總結而言，我個人認為做數據變換的方式比較好，數據變換后再做圖或描述性統計看數據分布情況，再剔除個別極端異常值。CDA數據分析師培訓官網

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

異常值處理缺失值處理統計分析數據分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數據分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數據人才培養標準教育事業！

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊