
大數據從無人談及,到現在的大肆炒作,到底什么才是大數據,對于數據分析師,它有意味著什么?本文將為您解答。
以下為譯文:
我用Google搜索了一下“Big Data”,得到了19,600,000個結果……而使用同樣的詞語,在兩年前你幾乎搜索不到什么內容,而現在大數據的內容被大肆炒作,內容多得讓人眼花繚亂。而這些內容主要是來自IBM、麥肯錫和O’Reilly ,大多數文章都是基于營銷目的的夸夸其談,對真實的情況并不了解,有些觀點甚至是完全錯誤的。我問自己…… 大數據之于數據分析師,它意味著什么呢?
如下圖所示,谷歌趨勢顯示,與“網站分析”(web analytics)和”商業智能”(business intelligence)較為平穩的搜索曲線相比,“大數據”(big data)的搜索量迎來了火箭式的大幅度增長。
大數據 – 炒作
Gartner把“大數據”的發展階段定位在“社交電視”和“移動機器人”之間,正向著中部期望的高峰點邁進,而現在是達到較為成熟的階段前的二至五年。這種定位有著其合理性。各種奏唱著“大數據”頌歌的產品數量正在迅速增長,大眾媒體也進入了“大數據”主題的論辯中,比如紐約時報的“大數據的時代“,以及一系列在福布斯上發布的題為” 大數據技術評估檢查表“的文章。
進步的一面體現在,大數據的概念正在促使內部組織的文化發生轉變,對過時的“商務智能”形成挑戰,并促進了“分析”意識的提升。
基于大數據的創新技術可以很容易地被應用到類似數據分析的各種環境中。值得一提的是,企業組織通過應用先進的業務分析,業務將變得更廣泛、更復雜,價值也更高,而傳統的網站分析受到的關注將會有所減弱。
大數據 – 定義
什么是“大數據”,目前并沒有統一的定義。維基百科提供的定義有些拙劣,也不完整:“ 大數據,指的是所涉及的數據量規模巨大到無法通過主流的工具,在合理的時間內擷取、管理、處理、并整理成為人們所能解讀的信息 “。
IBM 提供了一個充分的簡單易懂的概述:
大數據有以下三個特點:大批量(Volume)、高速度(Velocity)和多樣化(Variety) 。
大批量 – 大數據體積龐大。企業里到處充斥著數據,信息動不動就達到了TB級,甚至是PB級。
高速度 – 大數據通常對時間敏感。為了最大限度地發揮其業務價值,大數據必須及時使用起來。
多樣化 – 大數據超越了結構化數據,它包括所有種類的非結構化數據,如文本、音頻、視頻、點擊流、日志文件等等都可以是大數據的組成部分。
MSDN的布萊恩·史密斯在IBM的基礎上增加了第四點:
變異性 – 數據可以使用不同的定義方式來進行解釋。不同的問題需要不同的闡釋。
大數據 – 技術角度
大數據包括了以下幾個方面:數據采集、存儲、搜索、共享、分析和可視化,而這些步驟在商務智能中也可以找到。在皮特·沃登的“ 大數據詞匯表 “中,囊括了60種創新技術,并提供了相關的大數據技術概念的簡要概述。
獲取 :數據的獲取包括了各種數據源、內部或外部的、結構化或非結構化的數據?!按蠖鄶倒矓祿吹慕Y構都不清晰,充滿了噪音,而且還很難獲得?!?技術: Google Refine、Needlebase、ScraperWiki、BloomReach 。
序列化 :“你在努力把你的數據變成有用的東西,而這些數據會在不同的系統間傳遞,并可能存儲在不同節點的文件中。這些操作都需要某種序列化,因為數據處理的不同階段可能需要不同的語言和API。當你在處理非常大量的記錄時,該如何表示和存儲數據,你所做的選擇對你的存儲要求和性能將產生巨大影響。 技術: JSON、BSON、Thrift、Avro、Google Protocol Buffers 。
存儲 :“大規模的數據處理操作使用了全新的方式來訪問數據,而傳統的文件系統并不適用。它要求數據能即時大批量的讀取和寫入。效率優先,而那些有助于組織信息的易于用戶使用的目錄功能可能就顯得沒那么重要。因為數據的規模巨大,這也意味著它需要被存儲在多臺分布式計算機上?!?技術: Amazon S3、Hadoop分布式文件系統 。
服務器 :“云”是一個非常模糊的術語,我們可能對它所表示的內容并不很了解,但目前在計算資源的可用性方面已有了真正突破性的發展。以前我們都習慣于購買或長期租賃實體機器,而現在更常見的情況是直接租用正運行著虛擬實例的計算機來作為服務器。這樣供應商可以以較為經濟的價格為用戶提供一些短期的靈活的機器租賃服務,這對于很多數據處理應用程序來說這是再理想不過的事情。因為有了能夠快速啟動的大型集群,這樣使用非常小的預算處理非常大的數據問題就可能成為現實?!?技術: Amazon EC2、Google App Engine、Amazon Elastic Beanstalk、Heroku 。
NoSQL :在IT行為中,NoSQL(實際上意味著“不只是SQL”)是一類廣泛的數據庫管理系統,它與關系型數據庫管理系統(RDBMS)的傳統模型有著一些顯著不同,而最重要的是,它們并不使用SQL作為其主要的查詢語言。這些數據存儲可能并不需要固定的表格模式,通常不支持連接操作,也可能無法提供完整的ACID(原子性—Atomicity、一致性—Consistency、隔離性—Isolation、持久性—Durability)的保證,而且通常從水平方向擴展(即通過添加新的服務器以分攤工作量,而不是升級現有的服務器)。 技術: Apache Hadoop、Apache Casandra、MongoDB、Apache CouchDB、Redis、BigTable、HBase、Hypertable、Voldemort 。
MapReduce :“在傳統的關系數據庫的世界里,在信息被加載到存儲器后,所有的數據處理工作才能開始,使用的是一門專用的基于高度結構化和優化過的數據結構的查詢語言。這種方法由Google首創,并已被許多網絡公司所采用,創建一個讀取和寫入任意文件格式的管道,中間的結果橫跨多臺計算機進行計算,以文件的形式在不同的階段之間傳送?!?技術: Hadoop和Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S4、MapR、Acunu、Flume、Kafka、Azkaban、Oozie、Greenplum 。
處理 :“從數據的海洋中獲取你想要的簡潔而有價值的信息是一件挑戰性的事情,不過現在的數據系統已經有了長足的進步,這可以幫助你把數據集到轉變成為清晰而有意義的內容。在數據處理的過程中你會遇上很多不同的障礙,你需要使用到的工具包括了快速統計分析系統以及一些支持性的助手程序?!?技術: R、Yahoo! Pipes、Mechanical Turk、Solr/ Lucene、ElasticSearch、Datameer、Bigsheets、Tinkerpop 。 初創公司: Continuuity、Wibidata、Platfora 。
自然語言處理 :“自然語言處理(NLP)……重點是利用好凌亂的、由人類創造的文本并提取有意義的信息?!?技術: 自然語言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。
機器學習 :“機器學習系統根據數據作出自動化決策。系統利用訓練的信息來處理后續的數據點,自動生成類似于推薦或分組的輸出結果。當你想把一次性的數據分析轉化成生產服務的行為,而且這些行為在沒有監督的情況下也能根據新的數據執行類似的動作,這些系統就顯得特別有用。亞馬遜的產品推薦功能就是這其中最著名的一項技術應用?!?技術: WEKA、Mahout、scikits.learn、SkyTree 。
可視化 :“要把數據的含義表達出來,一個最好的方法是從數據中提取出重要的組成部分,然后以圖形的方式呈現出來。這樣就可以讓大家快速探索其中的規律而不是僅僅籠統的展示原始數值,并以此簡潔地向最終用戶展示易于理解的結果。隨著Web技術的發展,靜態圖像甚至交互式對象都可以用于數據可視化的工作中,展示和探索之間的界限已經模糊?!?技術: GraphViz、Processing、Protovis、Google Fusion Tables、Tableau 。
大數據 – 挑戰
最近舉行的世界經濟論壇也在討論大數據,會議確定了一些大數據應用的機會,但在數據共用的道路上仍有兩個主要的問題和障礙。
1.隱私和安全
正如Craig & Ludloff在“隱私和大數據“的專題中所提到的,一個難以避免的危機正在形成,大數據將瓦解并沖擊著我們生活的很多方面,這些方面包括私隱權、政府或國際法規、隱私權的安全性和商業化、市場營銷和廣告……
試想一下歐盟的cookie法規,或是這樣的一個簡單情景,一個公司可以輕易地在社交網絡上收集各種信息并建立完整的資料檔案,這其中包括了人們詳細的電子郵箱地址、姓名、地理位置、興趣等等。這真是一件嚇人的事情!
2.人力資本
麥肯錫全球研究所的報告顯示 ,美國的數據人才的缺口非常大,還將需要140,000到190,000個有著“深度分析”專業技能的工作人員和1.500個精通數據的經理。
尋找熟練的“網站分析”人力資源是一個挑戰,另外,要培養自己的真正擁有分析技能的人員,需要學習的內容很多,這無疑是另一個大挑戰。
大數據 – 價值創造
很多大數據的內容都提及了價值創造、競爭優勢和生產率的提高。要利用大數據創造價值,主要有以下六種方式。
透明度 :讓利益相關人員都可以及時快速訪問數據。
實驗 :啟用實驗以發現需求,展示不同的變體并提升效果。隨著越來越多的交易數據以數字形式存儲,企業可以收集更準確、更詳細的績效數據。
細分 :更精細的種群細分,可以帶來不同的自定義行為。
決策支持 :使用自動化算法替換/支持人類決策,這可以改善決策,減少風險,并發掘被隱藏的但有價值的見解。
創新 :大數據有助于企業創造出新的產品和服務,或提升現有的產品和服務,發明新的商業模式或完善原來的商業模式。
工業領域的增長 :有了足夠的和經過適當培訓的人力資源,那些重要的成果才會成為現實并產生價值。
數據分析的機會領域
當“網站分析”發展到“數據智能“,毫無疑問,數據分析人員也工作也應該發生一些轉變,過去的工作主要是以網站為中心并制定渠道的具體戰術,而在將來則需要負責更具戰略性的、面向業務和(大)數據專業知識的工作。
數據分析師的主要關注點不應該是較低層的基礎設施和工具開發。以下幾點是數據分析的機會領域:
處理 :掌握正確的工具以便可以在不同條件下(不同的數據集、不同的業務環境等)進行高效的分析。目前網站分析專家們最常用的工具無疑是各類網站分析工具,大多數人并不熟悉商業智能和統計分析工具如Tableau、SAS、Cognos等的使用。擁有這些工具的專業技能將對數據分析人員的發展大有好處。
NLP:學習非結構化數據分析的專業技能,比如社交媒體、呼叫中心日志和郵件的數據多為非結構化數據。從數據處理的角度來看,在這個行業中我們的目標應該是確定和掌握一些最合適的分析方法和工具,無論是社會化媒體情感分析還是一些更復雜的平臺。
可視化 :掌握儀表板的展示技能,或者寬泛點來說,掌握數據可視化的技術是擺在數據分析師面前一個明顯的機會(注:不要把數據可視化與現在網絡營銷中常用的“信息圖”infographics相混淆)。
行動計劃
在大數時代,其中一個最大的挑戰將是滿足需求和技術資源的供給。當前的“網站分析”的基礎普遍并不足夠成熟以支持真正的大數據的使用,填補技能差距,越來越多的“網站分析師”將成長為“數據分析師”。(文章來自:CDA數據分析師培訓官網)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25