機器學習中常用的數據集處理方法-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀機器學習中常用的數據集處理方法

機器學習中常用的數據集處理方法

2018-03-25

收藏

機器學習中常用的數據集處理方法

1.離散值的處理：因為離散值的差值是沒有實際意義的。比如如果用0,1,2代表紅黃藍，1-0的差值代表黃-紅，是沒有意義的。因此，我們往往會把擁有d個取值的離散值變為d個取值為0,1的離散值或者將

其映射為多維向量。

2.屬性歸一化：歸一化的目標是把各位屬性的取值范圍放縮到差不多的區間，例如[-0.5,0.5]。這里我們使用一種很常見的操作方法：減掉均值，然

后除以原取值范圍。做歸一化至少有以下3個理由： - 過大或過小的數值范圍會導致計算時的浮點上溢或下溢。 - 不同的數值范圍會導致不同屬性對模型的重要性不同（至少在訓練的初始階段如此），而這個隱含的假設常常是不合理的。這會對優化的過程造成困難，使訓練時間大大的加長。 - 很多的機器學習技巧/模型（例如L1，L2正則項，向量空間模型-Vector Space Model）都基于這樣的假設：所有的屬性取值都差不多是以0為均值

且取值范圍相近的

。 3.分割數據集一般把數據集分為兩部分，一部分為訓練集，用于訓練數據，一部分為測試集，用于測試訓練的數據，測試集不應過多或過少，數據較少時訓練集：測試集可以為8:2，較多時比

例可以達到9:1 。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

機器學習

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統競選大戲開鑼，川普當選的奇跡會再發生嗎？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊