熱線電話:13121318867

登錄
首頁精彩閱讀機器學習的數據清理以及數據標準化!
機器學習的數據清理以及數據標準化!
2020-05-29
收藏

沒有干凈的原始數據,為了滿足機器學習懟數據的要求,必須過濾數據。例如,

  • 1、查看數據,并排除所有缺少大量數據的列。
  • 2、再次查看數據,然后選擇要用于預測的列(特征選擇)。進行迭代時,可能需要更改此內容。
  • 在其余列中排除仍缺少數據的任何行。
  • 3、糾正明顯的錯別字并合并等效答案。
  • 4、排除數據超出范圍的行。例如,如果您要分析紐約市內的出租車行程,則需要過濾出市區外邊界以外的上,下緯度和經度行。

還可以做更多的事情,但這取決于收集的數據。這可能很乏味,但是如果在機器學習過程中設置了數據清理步驟,則可以隨意修改并重復進行。

機器學習的數據編碼和規范化

要將分類數據用于機器分類,需要將文本標簽編碼為另一種形式。有兩種常見的編碼。

一種是標簽編碼,這意味著每個文本標簽值都用數字代替。另一種是一鍵編碼,這意味著每個文本標簽值都將變成具有二進制值(1或0)的列。大多數機器學習框架都具有進行轉換的功能。通常,獨熱編碼是首選,因為標簽編碼有時會使機器學習算法混淆,以為編碼列應該是有序列表。

要將數字數據用于機器回歸,通常需要將數據標準化。否則,具有較大范圍的數字可能傾向于主導特征向量之間的歐幾里得距離,其影響可能會以其他場為代價而被放大,并且最陡的下降優化可能會難以收斂。有多種方法可以對數據進行標準化和標準化以進行機器學習,包括最小-最大標準化,均值標準化,標準化以及按比例縮放到單位長度。此過程通常稱為特征縮放。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢