
統計報告=大數據?論玩轉大數據的正確姿勢
隨著物聯網技術的發展,各種設備數據量的增多,“大數據”和“數據分析師”的概念正逐漸走進普通人的生活。然而近期,“大數據”或“數據分析師”正淪為一種炒作概念和傳播噱頭。在政府和企業的各種統計報告中,不提大數據似乎便是落伍。
日前,南京交管部門本周就發布了“2015年南京交通事故大數據分析報告”。讓我們來看看報告中的內容。
數據分析報告顯示,2015年全年,南京新增機動車駕駛人26.2萬人,其中男性16.5萬,女性9.7萬。在發生的全部交通事故中,駕齡1年以下的司機引發的事故占13.6%,駕齡1至2年的司機占6.5%,駕齡2至3年的司機占的8.6%,駕齡6到10年的司機占5.5%,駕齡11至15年的司機占3.3%。
在此基礎上,數據分析師還在報告中做了更多分析:在駕齡3年以下司機引發的事故中,男司機占87%,女司機占13%。而從2013年至2015年,南京新增司機中男性和女性分別占60%和40%。這就是說,3年以下新手中,四成女司機引發的交通事故占一成多,而六成男司機引發的交通事故近九成。所以結論是,男性新手司機引發的事故高于女性新手司機。
看到這里,你可能會問,這個“大數據”報告僅此而已?這樣的數據又說明了什么?制作這樣的報告似乎只需利用簡單的數據庫即可。如果數據量只有幾萬行,甚至Excel表格都能妥妥搞定。任何學過Excel制表的新手都能完成這樣的“大數據分析”。
那么,數據科學是否真的如此簡單?這種數據統計報告是否就等同于大數據?很明顯,答案是否定的。
1.大數據究竟有多大?
本月,雅虎公布了用戶使用該公司服務,例如雅虎新聞和雅虎財經的大量數據。雅虎的計劃是將這些數據開放給學術界,給大數據和機器學習研究者提供素材。那么,雅虎提供的“大數據原材料”究竟有多大?
準確數字是13.5TB。如果使用當前常見的1TB移動硬盤去保存,那么這些數據需要14塊硬盤才能完全容納。
雅虎表示,這些數據來自2015年4個月時間里的2000萬用戶,其中包括用戶使用的設備類型、閱讀文章的時間、文章主題,以及用戶的位置、年齡和性別。雅虎認為,只有通過對這種規模量級的數據進行研究,才能幫助學術界更好地理解普通人的在線閱讀習慣和偏好。
雅虎此前也曾開放過一些規模較小的數據集,但這些數據集的大小也要達到1TB。這遠遠不是電子表格工具,或是傳統數據庫有能力處理的。而這才是數據分析師真正的用武之地。
2.大數據應當怎么做?
大數據的一條基本理論在于,單純的數據并不產生價值,只有通過數據分析師的計算分析,找出其中趨勢,為未來的決策提供依據,這樣的大數據技術才是有意義的。
在本周于上海舉行的阿里云棲大會上,阿里云大數據事業部資深總監徐常亮指出,大數據技術的重要一部分是數據加工工具,這樣的工具需要打通數據生產鏈條,包括從數據采集到計算引擎,到數據加工、數據分析,到機器學習再到數據應用,最后形成閉環又回到數據采集。
道路交通狀況分析和預測就是這種大數據技術實際應用的一個簡單案例。在這一分析預測系統中,輸入的數據是每輛汽車的信息,包括當前時間、汽車行駛速度,以及天氣狀況等。這樣的數據既可以來自交通監控設備,也可以來自未來的互聯汽車傳感器。在繁忙的城市道路上,這樣的數據將是海量的。
數據分析師可根據歷史數據,我們可以建模,了解不同季節、不同時間、不同天氣狀況下汽車行駛速度和交通擁堵狀況。隨后,利用這樣的模型,系統可以對道路上的合理車速做出預測,判斷是否會出現交通擁堵,并提前預警,以便及時疏導交通。而更進一步,這樣的信息對于城市未來的交通設計和規劃也有著參考意義。
在本周的阿里云棲大會上,中國天氣網宣布了與阿里云的戰略合作,將把氣象大數據開放給開發者。對這些大數據的分析處理將給農業(氣象變化對農業生產的影響)、醫療健康(天氣對人體罹患疾病的影響)和零售(不同天氣狀況下消費者的消費模式)等行業帶來重要指導。
3.研究大數據需要什么樣的技能?
數據科學很明顯是未來科技行業發展的一大方向,然而在全球范圍內,大數據人才的缺口很大。
麥肯錫的一項研究預計,到2018年,美國在深度數據分析領域的人才缺口可能將高達50%至60%。埃森哲的大數據戰略調查則顯示,有90%客戶表示,計劃招聘更多具備數據分析技能的員工。然而在1000多家受訪的客戶中,有41%表示,市場上數據科學人才的匱乏造成了限制。
那么,數據科學人才需要具備什么樣的技能?
首先,對數據科學家(數據分析師)來說,數學是必不可少的知識基礎。統計、概率論、數學建模,這些都是數據科學研究的基礎。其次,他們還需要使用計算機語言,例如R或Python去玩轉這些數據。
只有通過計算機編程,數學理論才能被用于實踐,而數據集也才能得到適當的分析處理。最后,數據科學家還必須對某些垂直領域,例如交通或氣象,有自己的興趣。對于這些領域的多方面影響因素,他們必須了若指掌。而這也是使用數學理論去展開實用型研究的前提。
在此基礎上,許多大數據公司還在開發機器學習技術,利用機器去深挖數據的潛力。這就要求數據科學家還要去了解機器學習算法,甚至相配套的硬件設計。
這樣看來,數據科學的研究有著相當高的門檻,而理想的數據科學家(數據分析師)應當是了解數據、計算機,以及其他某一專業的復合型人才。這遠遠不是剛學會數據庫操作的新手所能勝任的工作。
結論
數據統計并不等同于大數據。這可能是數據科學發展的最初形態,但未來的大數據技術還需要從這些統計數據中得出更多具有指導意義的分析結論。
回到2015年南京交通事故大數據分析報告。如果希望這成為真正的大數據報告,并帶來參考意義,那么首先可能要做的就是增大數據集,采集更多類型的司機和車輛數據,并將覆蓋范圍擴大至整個省,甚至全國。
另一方面,數據科學家(數據分析師)需要做進一步的數據挖掘,將目光瞄準更多有價值的點。這將給交通出行體系和汽車業的多個領域帶來幫助:汽車廠商可以基于這些信息開發安全功能,而道路設計也可以據此優化以減少事故的發生。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25