熱線電話:13121318867

登錄
首頁精彩閱讀關于數據處理的幾個踩過坑的案例
關于數據處理的幾個踩過坑的案例
2018-08-15
收藏

關于數據處理的幾個踩過坑的案例

因為這段時間好忙,好久沒有更新,我怕失去你們,所以就寫了幾個我在數據處理中碰到的坑,就是分享給你們看下是不是你們也有這種情況,但是我寫到一般,腦子短路了,寫不出來了,只能寫了三種情況,后續想起來,我就來補。

1

空值的區別

這個問題,是針對大部分剛開始做數據分析的新手來說的,就是一定要注意,無論你的數據是為建模還是做數據分析。我說下這個情況是什么出現的,就是你現在有兩張表,然后你要用主表連另外一張表,另外一張表呢,假設只有一個變量以及一個主鍵,那么這個變量可以是字符也可以是數值,然后這個變量本來就有了非空,那么這時候假設你的主表有部分主鍵是不在這張表,那就意味著主表中的部分主鍵會在這張表中匹配不到,那么這時候你的主表是left join的情況下的話,你去練這張表,這時候你的變量空值其實是包含兩種情況:1、在變量中為空,2、這張表沒有主表的主鍵。實際上是這兩種情況,但是如果你這時候不做任何處理,那就數據分析,就會把這兩部分的缺失,變成同一類的客戶,但是你在業務上解釋是不一樣的。

2

處理客戶多條數據的情況

第一個例子:我們在日常進件中,其實往往一個客戶在公司都是有多條記錄,你要取那一條這個問題這個之前講過,這是我實際中遇到的一個例子,我想統計一個客戶他從注冊到申請這段時間登錄次數,這時候其實有個問題,有些客戶是注冊了很長時間,并且也有完成好幾筆單子,但是有些客戶他是剛注冊,然后申請,這時候你不論情況,就直接算客戶的登錄次數,這就就會有誤差,那么現在從業務出發,你需要規定的是,如果客戶只有一筆單,那么就只接算他的登錄次數,那么如果客戶是以前是完成好幾筆單,你就應該取上一筆單結束之后,到下一筆單申請之間申請的次數,這樣子才能把全部的客戶拉到同一個標準去衡量登錄次數這個變量的特征。

第二個例子:假設你現在是想做一個客戶近6個月的通話次數穩定性,那么這時候你拿到數據,直接懟代碼,你會發現其實有些客戶根本就沒有6個月的通話記錄,有些客戶不止6個月的通話記錄,那么這時你應該處理這種沒有6個月通話記錄,這里假設客戶手機在網時長不足6個月,那么這時候你可以先把這部分沒有6個月的客戶先置空,或者打一個特殊的標簽,你知道他們就是不足6個月的,另外那些多于6個月的可以取在申請時間往后的6個月,那么這時候你算出來的穩定性指標才是把客戶基本拉到一個水平面比較的。這個穩定性并不一定是psi,也可以是標準差,方差,這個衍生變量有說,這里就不說了。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢