python中常用的九種預處理方法分享-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀python中常用的九種預處理方法分享

python中常用的九種預處理方法分享

2018-07-20

收藏

python中常用的九種預處理方法分享

本文總結的是我們大家在python中常見的數據預處理方法，以下通過sklearn的preprocessing模塊來介紹;
1. 標準化（Standardization or Mean Removal and Variance Scaling)
變換后各維特征有0均值，單位方差。也叫z-score規范化（零均值規范化）。計算方式是將特征值減去均值，除以標準差。
sklearn.preprocessing.scale(X)
一般會把train和test集放在一起做標準化，或者在train集上做標準化后，用同樣的標準化器去標準化test集，此時可以用scaler
scaler = sklearn.preprocessing.StandardScaler().fit(train)
scaler.transform(train)
scaler.transform(test)
實際應用中，需要做特征標準化的常見情景：SVM
2. 最小-最大規范化
最小-最大規范化對原始數據進行線性變換，變換到[0,1]區間（也可以是其他固定最小最大值的區間）
min_max_scaler = sklearn.preprocessing.MinMaxScaler()
min_max_scaler.fit_transform(X_train)
3.規范化（Normalization）
規范化是將不同變化范圍的值映射到相同的固定范圍，常見的是[0,1]，此時也稱為歸一化。
將每個樣本變換成unit norm。
X = [[ 1, -1, 2],[ 2, 0, 0], [ 0, 1, -1]]
sklearn.preprocessing.normalize(X, norm='l2')
得到：
array([[ 0.40, -0.40, 0.81], [ 1, 0, 0], [ 0, 0.70, -0.70]])
可以發現對于每一個樣本都有，0.4^2+0.4^2+0.81^2=1,這就是L2 norm，變換后每個樣本的各維特征的平方和為1。類似地，L1 norm則是變換后每個樣本的各維特征的絕對值和為1。還有max norm，則是將每個樣本的各維特征除以該樣本各維特征的最大值。
在度量樣本之間相似性時，如果使用的是二次型kernel，需要做Normalization
4. 特征二值化（Binarization）
給定閾值，將特征轉換為0/1
binarizer = sklearn.preprocessing.Binarizer(threshold=1.1)
binarizer.transform(X)
5. 標簽二值化（Label binarization）
lb = sklearn.preprocessing.LabelBinarizer()
6. 類別特征編碼
有時候特征是類別型的，而一些算法的輸入必須是數值型，此時需要對其編碼。
enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
enc.transform([[0, 1, 3]]).toarray() #array([[ 1., 0., 0., 1., 0., 0., 0., 0., 1.]])
上面這個例子，第一維特征有兩種值0和1，用兩位去編碼。第二維用三位，第三維用四位。
另一種編碼方式
newdf=pd.get_dummies(df,columns=["gender","title"],dummy_na=True)
7.標簽編碼（Label encoding）
le = sklearn.preprocessing.LabelEncoder()
le.fit([1, 2, 2, 6])
le.transform([1, 1, 2, 6]) #array([0, 0, 1, 2])
#非數值型轉化為數值型
le.fit(["paris", "paris", "tokyo", "amsterdam"])
le.transform(["tokyo", "tokyo", "paris"]) #array([2, 2, 1])
8.特征中含異常值時
sklearn.preprocessing.robust_scale
9.生成多項式特征
這個其實涉及到特征工程了，多項式特征/交叉特征。
poly = sklearn.preprocessing.PolynomialFeatures(2)

poly.fit_transform(X)

總結

以上就是為大家總結的python中常用的九種預處理方法分享，希望這篇文章對大家學習或者使用python能有一定的幫助

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

特征 python 標準差特征轉換特征工程數據預處理方差 SVM

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統競選大戲開鑼，川普當選的奇跡會再發生嗎？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊