從小數據到大數據分析應用-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀從小數據到大數據分析應用

從小數據到大數據分析應用

2016-01-04

收藏

從小數據到大數據分析應用

數據整理是數據分析過程中最重要的環節，在大數據分析過程中也是如此。在小數據時代，數據整理包括數據的清洗、數據轉換、歸類編碼和數字編碼等過程，其中數據清洗占據最重要的位置，就是檢查數據一致性，處理無效值和缺失值等操作。在大數據時代，這些工作被弱化了，在有些大數據的算法和應用中，基本不再進行數據清洗了，因為大數據的多樣化使得其數據具有一定的不精確性。但數據轉換和編碼過程還是需要的。下面以大數據分析中文本分類的例子，來分析大數據整理的過程。

在本例中，以mahout為大數據分析軟件，文本分類算法選用樸素貝葉斯算法(new bayes)，分類對象是來自不同類別的新聞數據。

當我們使用網頁爬蟲，每小時源源不斷的從多個不同類別的新聞網站上取得數據時，取得的這些數據都是文本數據，也就是非結構化數據，這些數據是不需要進行數據清洗過程，但它們在進入到mahout實現的樸素貝葉斯算法時，需要進行必要的數據轉換。該轉換主要分兩個步驟：

1.數據系列化

由于取得的大量的文本數據集中，每個新聞占一個文檔，共有無數個小的文件，由于Mahout運行在Hadoop的HDFS上，HDFS是為大文件設計的。如果我們把這些無窮多個小文件都拷貝上去，這樣是非常不合適。試想：假設對1000萬篇新聞進行分類，難道要拷貝1000w個文件么？這樣會使HDFS中運行name node節點的終端崩潰掉。

因此，Mahout采用SequenceFile作為其基本的數據交換格式。其思路是：通過調用mahout內置的解析器，掃描所有目錄和文件，并把每個文件都轉成單行文本，以目錄名開頭，跟著是文檔出現的所有單詞，這樣就把無窮多個小文件，轉換成一個系列化的大文件。然后把這個大文件，再上傳到HDFS上，就可以充分發揮HDFS分布式文件系統的優勢。當然，這個轉換過程由mahout的內置工具完成，而大數據分析師這個時候只需要把所有的新聞按文件夾分好類放置好，同時運行mahout內置的解析器命令就可以了。

2.文本內容向量化

簡單地說就是把文本內容中的每個單詞（去除一些連接詞后）轉換成數據，復雜地說就是進行向量空間模型化（VSM）。該過程使每個單詞都有一個編號，這個編號是就它在文檔向量所擁有的維度。這個工作在mahout中實現時，大數據分析師也只需要執行其中的一個命令，就可以輕松地實現文本內容的向量化。

有了這些被向量化的數據，再通過mahout的樸素貝葉斯算法，我們就可以對計算機訓練出一套規則，根據這個規則，機器就可以對后續收集的新聞數據進行自動的分類了。

從上述文本分類的大數據整理過程可以看出，大數據時代的數據整理過程不再強調數據的精確性，而強調的是對非結構化數據的數量化。當然，不同的大數據分析應用使用的算法也不一樣，其數據整理過程也不太一樣，但從總體上看，大數據分析的數據整理區別于小數據時代的精確性，而變得更粗放一些。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

大數據數據分析 HDFS 樸素貝葉斯文本分類數據清洗 Hadoop

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統競選大戲開鑼，川普當選的奇跡會再發生嗎？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊