
作者 | Nandhini TS
編譯 | CDA數據分析師
Data Preparation for Machine learning : Why it’s important and how to do it
編碼是成功的業務模型的前提。
建立成功的AI / ML模型有3個方面:算法,數據和計算。
雖然建立準確的算法和計算技能的應用是過程的一部分,但這是什么基礎呢?
使用正確的數據奠定基礎
從自動駕駛汽車等基于AI的大規模技術革命到構建非常簡單的算法,您都需要正確格式的數據。實際上,特斯拉和福特一直在通過行車記錄儀,傳感器和倒車攝像頭收集數據,并對其進行分析以制造出無人駕駛和全自動汽車,以確保安全的道路。
收集數據之后的下一步是準備數據的過程,這將成為本文的重點,并將在后續部分中詳細討論。在深入研究數據準備過程的概念之前,讓我們首先了解其含義。作為基于AI創新的大腦的數據科學家,您需要了解數據準備的重要性,以實現模型所需的認知能力。
什么是數據準備?
數據是每個組織的寶貴資源。但是,如果我們不進一步分析該聲明,它可能會否定自己。 企業將數據用于各種目的。從廣義上講,它用于制定明智的業務決策,執行成功的銷售和營銷活動等。但是,這些不能僅用原始數據來實現。
數據只有經過清洗,貼標簽,注釋和準備后,才能成為寶貴的資源。數據經過適應性測試的各個階段后,便最終具備進行進一步處理的資格。處理可以采用多種方法-將數據提取到BI工具,CRM數據庫,開發用于分析模型的算法,數據管理工具等。
現在,重要的是您從此信息的分析中收集的見解是準確且值得信賴的。實現此輸出的基礎在于數據的健康狀況。此外,無論您是構建自己的模型還是從第三方那里獲得模型,都必須確保標記,擴充,干凈,結構化的整個過程背后的數據都經過標記,概括,即數據準備。
正如Wikipedia所定義的,數據準備是將原始數據(可能來自不同的數據源)操縱(或預處理)為可以方便,準確地進行分析的形式的行為,例如出于商業目的。數據準備是數據分析項目的第一步,可以包括許多離散任務,例如加載數據或數據攝取,數據融合,數據清理,數據擴充和數據交付。
機器學習數據準備的重要性
根據Cognilytica的最新研究,其中記錄并分析了組織,機構和最終用戶企業的響應,以識別在標記,注釋,清理,擴充和豐富機器學習模型的數據上花費了大量時間。
數據科學家80%以上的時間都花在準備數據上。盡管這是一個好兆頭,但考慮到隨著良好的數據進入建立分析模型,準確的人會得到輸出。但是,理想情況下,數據科學家應該將更多的時間花在與數據交互,高級分析,培訓和評估模型以及部署到生產上。
只有20%的時間進入流程的主要部分。為了克服時間限制,組織需要利用用于數據工程,標記和準備的專家解決方案來減少在清理,擴充,標記和豐富數據上花費的時間(取決于項目的復雜性)。
這將我們帶入了“ 垃圾中的垃圾 ”概念,即輸出的質量取決于輸入的質量。
數據準備過程
以下是針對機器學習模型的數據準備過程的簡要介紹:
數據提取數據工作流程的第一階段是提取過程,通常是從非結構化源(如網頁,PDF文檔,假脫機文件,電子郵件等)中檢索數據。部署從網絡中提取信息的過程稱為網絡刮。
數據概要分析是檢查現有數據以提高質量并通過格式帶來結構的過程。這有助于評估質量和對特定標準的一致性。當數據集不平衡且配置不當時,大多數機器學習模型將無法正常工作。
數據清理可確保數據干凈,全面,無錯誤,并提供準確的信息,因為它不僅可以檢測文本和數字的異常值,還可以檢測圖像中無關的像素。您可以消除偏見和過時的信息,以確保您的數據是干凈的。
數據轉換是對數據進行轉換以使其均勻。地址,名稱和其他字段類型之類的數據以不同的格式表示,數據轉換有助于對此進行標準化和規范化。
數據匿名化是從數據集中刪除或加密個人信息以保護隱私的過程。
數據擴充用于使可用于訓練模型的數據多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓練神經網絡。
數據采樣識別大型數據集中的代表性子集,以分析和處理數據。
特征工程是將機器學習模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準確性,您可以將數據集合并以將其合并為一個。
這是一個例子:
假設有兩列,一列是收入,另一列是輸出分類(A,B,C)。輸出A,B,C取決于收入范圍$ 2k-$ 3K,$ 4k-$ 5K和$ 6K-$ 7K。新功能是在收入范圍內分配數值1,2和3?,F在,這些數值被映射到我們最初創建的3個數據集。
在這里,收入范圍是要素工程。
數據準備過程的另一個重要部分是標記。為了使這個概念易于理解,讓我以熱飲料(例如茶)為例。
現在,該項目的目標是確定特定類型茶中所含咖啡因的百分比或數量。
紅茶含咖啡因20 毫克 茶+牛奶含咖啡因11 毫克 草 茶含咖啡因0毫克伯爵灰茶咖啡因40毫克
注意:(咖啡因百分比以100克茶計算)
因此,ML模型將為咖啡因含量最高的伯爵茶分配一個數值,例如1,為紅茶分配2,依此類推。這將我們帶入有助于識別數據集的標簽概念。
數據標記-數據準備必不可少的組成部分
標記只是將標簽分配給一組未標記的數據,以使其更易于識別以進行預測分析。
這些標簽表明照片中的動物是狗還是狐貍(請參見下圖)。
通過向模型提供數百萬個標記數據,標記可以幫助機器學習模型猜測和預測一條未標記數據。
數據標記的一些用例:
標簽是文本還是圖像,以了解內容的情感,例如在推文中。
語音和文本NLP
是音頻和文本源的標簽。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25