
大數據的財富與陷阱_數據分析師考試
大數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。
2013年10月28日,三名新疆籍恐怖分子駕吉普車沖撞天安門,恐怖分子當場全部燒死,可是警方僅用了10多個小時就全部抓住了5名同伙。警方如何快速鎖定嫌疑犯,這是國家秘密,但是從媒體披露的蛛絲馬跡中,我們還是能發現無處不在的監控視頻和電信追蹤起到了至關重要的作用。從天安門廣場追溯過去的海量信息,通過一些模糊匹配方法能快速地過濾信息,最后找出恐怖活動與嫌疑犯的相關性——這就是大數據的威力。
沒有最大,只有更大 維基百科這樣定義大數據(Big data):大數據或巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大,以至于無法在合理時間內通過人工截取、管理、處理并整理成為人類所能解讀的信息。我們舉個例子,IBM團隊為了讓電腦戰勝國際象棋冠軍卡斯帕羅夫,收集了將近100年來的60萬盤高手的棋譜,這個就是大數據,人腦是無法記憶所有這些棋譜并加以有效利用的。1997年,國際象棋特級大師卡斯帕羅夫在《危險邊緣》(jeopardy)節目中首次輸給了IBM深藍電腦,成為轟動一時的新聞。電腦能戰勝人腦,秘訣就在于存儲在深藍電腦內的棋譜大數據??茖W家們研制了人工智能博弈軟件,能從大量的棋譜中找出最合適的步驟,這是人腦所無法企及的。
有人把大數據的特征歸納為4V:Volume(量大)、Variety(多樣)、Velocity(高速)、Value(價值密度低)。讓我們來回顧一下剛剛過去的“雙十一”節,那天淘寶商城達成了1.88億筆交易,總交易額達創紀錄的350.19億元。這些交易記錄就形成了那天瘋狂網購的大數據。 這樣的記錄首先體現在數據量巨大上。我們知道一部高清電影的容量大約有1GB,而1024個GB就是一個TB,再1024個TB就是一個PB,而大數據往往達到PB數量級,可見數據量大得無法想象。
其次,就是數據的多樣性,交易的品種、賣家的信息、買家的信息、快遞的信息、支付的信息,構成了一個行業多樣化的數據鏈。第三,就是數據產生的速度極快,檢索結果的速度也要求快,要在幾百萬件商品中查找出一類商品,其檢索速度只需要1秒,這是傳統技術無法達到的。最后,需要說明的是,大數據的內容雖然真實、完整地反映了客觀世界,但它的價值密度很低,如果不去研究挖掘,大數據是不會自動產生有用結果的。
比如,在街景的海量監控視頻中,犯罪分子留下的蹤影也許只有幾秒鐘。 大數據時代 英國的大數據權威專家維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)寫過一本書,書名就叫《大數據時代》,書中首次斷言人類已經無可逆轉地跨入了大數據時代。據他估算,人類在2000年時大約只有四分之一的信息實現了數字化,其他的四分之三的信息仍然以報紙、書籍、膠片、磁帶等形式存在,但是到了2007年人類存儲的數據超過了300艾字節,相當于3000億GB的信息量。大數據時代在生活、工作和思維上給人們帶來了巨大變革。 首先,是數據的形式由原來的關系型數據(如電子表格形式)更多地表現為非關系型數據(如用戶評論、圖片等);數據存儲方式也由原來集中式存儲變為分布式存儲,大型數據不得不存儲在不同地方的存儲服務器中,通過網絡進行互聯訪問,構成所謂的云存儲。
其次,是對數據處理的方式發生了根本變化,人們已無法只用一臺電腦處理數據,必須依賴網絡后面的云平臺,進行云計算,才能有效處理大數據。在對大數據處理上,我們可以看到三個有趣的變化:在小數據時代,人們限于獲取數據的困難,只能采用隨機抽樣的方式獲取數據樣本,然后根據樣本數據進行分析預測。一旦樣本出現偏差,那推導出的結果就會產生很大的誤差。
而在大數據時代,我們能輕易地得到數據全體,而不再需要樣本。譬如,阿里巴巴能得到所有買家的數據,它能輕易地統計“光棍節”那天的交易金額,算出哪個地區交易最活躍,可以通過媒體實時轉播交易盛況。這就是大數據的全數據模式,數據處理的范圍是全體,而不再是樣本。第二個變化,是不再一味地追求數據的精確性。由于大數據的多樣性、豐富性、動態性(在處理的同時,數據還在大量產生),強調數據的精確性是做不到的,也沒有必要。紛繁的數據會混雜在一起,看起來好像全無用處,甚至有些還是錯誤的數據,但是沒有關系,這就是大數據的本性,看似無關無用的一堆數據卻蘊含著無限商機。
想一想,當人們在百度上比以往更多地搜索“感冒”“發熱”等關鍵字時,往往意味著某地將要爆發流感,甚至還能預測是什么流感,這就是大數據的威力。第三個變化,是關注數據之間的相關性,而不是因果關系。比方說,通過挖掘天貓商城的交易數據,發現購買德龍咖啡機的買家,會有很高的比例購買寵物糧食,那商家會不失時機地推薦你購買皇家狗糧??Х葯C與狗糧沒有因果關系,但卻有內在的相關性。數據之間的相關性,就是大數據所蘊含的價值,也是商家追求的商機。大數據的相關性,告訴我們在面對錯綜繁雜的大數據時,我們不需要去研究“為什么”,只要知道“是什么”就足夠了。
最后,大數據時代將催生一個數據挖掘行業,出現一批數字科學家。簡單地說,數據挖掘就是從收集的數據中用一定的算法分析計算,得到我們所需要信息和知識的過程。傳統的統計分析是將數據按已知的類別進行分類統計,然后尋找有價值的數據。如果給定的分類是不合理的或是錯誤的,那統計出來的結果就不會產生最好的效果。而數據挖掘采用的是一種叫“聚類”的方法,它事先不需要人工分類,而是由算法分析數據的屬性,將數據自動聚集成“類”,使“類”間的相似性盡量小,“類”內的相似性盡量大。比方說,保險業務涵蓋各類人群、各種職業,所以設計某個險種潛在的客戶目標群,需要對大量數據進行挖掘,才能找出不同的客戶群和重要系數,這不是事先人為設定的。要“讓數據自己說話”,這樣才能因地制宜地制訂營銷計劃,科學測算盈虧平衡,為保險企業創造更多利潤。
大數據的紅利 有人斷言,數據將成為人類的重要資產,成為比石油和黃金更為重要的可重復開發使用的資源。筆者也認同這個觀點。最近,媒體報道“三馬”聯手買保險新聞,這是一個攢取大數據紅利的例子。
“三馬”利用阿里巴巴、騰訊和平安保險三家公司掌握大數據的優勢,成立了網絡保險公司——眾安在線,這是具里程碑的互聯網金融創新,旨在利用大數據對保險消費者進行準確定位和精準營銷,瞄準的主要是80后、90后的消費者??梢?,利用大數據技術將是未來各保險公司搶奪市場非常關鍵的一環。
另一個有益的應用將是利用大數據來防范電信詐騙。電信詐騙是當今社會的一大頑疾,如果電信、銀行、互聯網、公安等各方擯棄利益糾結,共享各自的大數據,那么最大限度地杜絕電信詐騙是完全可能的。我們只要分析挖掘各方的大數據,找出電信詐騙相關性的數據因數,然后建立動態監控模型,那么一旦相關數據出現,公安就能根據數據鏈快速找到詐騙犯。
炒股的高手都想賺取大數據概念股的紅利。大數據的紅利在哪里?存在于大數據的擁有者、大數據技術公司和大數據價值挖掘者(也就是提供思維的數據科學家)。馬云說過:未來的世界是數據的世界。大數據時代已經撼動了世界的方方面面,從工業、農業、商業、科技到政府、醫療、教育、文化以及社會的其他各個領域,人們的生活日益被數據所改變。
可以說,大數據是一種比石油、黃金還要珍貴的資源,誰掌握了足夠多的數據,誰就搶占了制高點,增強了競爭力,也就掌握了未來。 大數據的負面清單 大數據無疑是一個資源寶庫,它蘊藏著巨大的價值,有待人們去挖掘。但是,就像硬幣有兩面一樣,大數據也有其負面清單,我把它歸結為數據壟斷、侵犯隱私和數據誤導三個主要方面。
數據壟斷是大數據的最大隱患。我們知道,大數據技術使得人類的態度、情緒、行為等以往認為難以測量的方面,都可以變為數據來進行分析和預測。一旦大數據掌握在少數企業或政府部門之間,他們為了維護自己的利益而拒絕信息流動,這不僅浪費了數據資源,而且會阻礙數據創新,形成數據壟斷。比方說,全國的房產數據如果能共享,這對國家了解房產的整體、真實情況非常有益,也能輕易挖出貪污腐敗的嫌疑分子,但是這些數據往往掌握在地方部門之間,不能形成有效共享。
侵犯隱私是大數據的影子,只有將大數據置于法律的陽光下才能驅除。被斯諾登揭露的美國“棱鏡計劃”,就是利用訪問大數據的能力,監控互聯網、電信等九大營運商的數據庫,從中挖掘“有用信息”,達到收集情報、秘密監控的目的。電話、電郵、文檔、視頻、照片、聊天記錄等幾乎所有的信息都暴露在“棱鏡”之下,大數據為侵犯隱私開了方便之門。如果不對大數據的獲取、訪問、共享加以法律約束,那么個人隱私將不復存在。
美國最近有一款照片分享軟件(Snapchat)應用很火,因為它能滿足年輕人保護隱私的需要。在Snapchat中如果你分享一張照片給你的朋友,它將在對方閱讀后馬上自動刪除,同時禁止在閱讀時屏幕截圖,具有“閱后即焚”的功效。因此,Snapchat也適合于發送商業機密或者敏感信息,焚毀后的照片不會在網上留下痕跡。這是人們反抗大數據的一個案例。但是在日常生活中,人們無法避開使用電信、互聯網、微博、微信、QQ等服務,透過這些服務所記錄的大數據,幾乎透明無遺地顯露了一個人的社交關系網。 數據誤導是大數據風險的一個側面,如果不對數據挖掘的結果加以評估驗證,那利用大數據可能帶來錯誤結果。雖然大數據容忍有數據差錯,但如何有人主動地弄“臟”數據,整個大數據就會被人為扭曲,加進了虛假信息。
比如,我們在上淘寶網時,總是非常關注賣家的信用等級,但是總有一些賣家弄虛作假,通過自賣自買等虛構交易,來“攢評分”“刷信用”,有的賣家甚至雇人來“刷鉆沖冠”。如果一個皇冠賣家的信用是靠“臟數據”獲取的,那買家的上當受騙就是大概率事件。 大數據的紅利目前只能被有權有勢的大企業或政府部門瓜分,這對整個社會的健康、和諧發展是不利的。我們呼吁盡快立法,建立大數據共享平臺,打破數據壟斷,消除數據鴻溝,保護個人隱私,讓大數據成為新經濟最重要的生產要素,讓普通人也能分享大數據的紅利。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25