
大數據的三個思維變換_數據分析師
維克托·爾耶·舍恩伯格在《大數據時代:生活、工作與思維的大變革》中最具洞見之處在于,他明確指出,大數據時代最大的轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道“是什么”,而不需要知道“為什么”。這顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。
知名IT研究機構Gartner以它對專業IT市場的“魔力象限圖”發布作為一種評價方式,在其二維矩陣里,橫軸是前瞻的完整性,縱軸是執行力,如果用此分析方法來評價《大數據時代》這本書,它大概位于右下角靠近縱軸中間點的位置。
2012年,筆者看過的3本有關大數據的中文書,它們分別是《證析》、《大數據》和維克托·邁爾·舍恩伯格的《大數據時代》。與其他兩本相比,舍恩伯格這本書的特點重在“Impact Analysis”的前瞻分析,在大數據時代的思維變遷方面有啟發價值。也說是說,此書對于企業高管和CIO的價值更大,它基本沒有太多討論技術,而偏重于觀念轉移(Paradigm Shift)。www.yunmar.com.cn
簡單說來,這本書的價值可以用兩個“三”、一個“一”來概括:第1個“三”是3個關于大數據的思維變換,重在大數據變革時代的價值與觀念變化;第2個 “三”是關于大數據影響商業變革的3個要素:即數據、技術與創新思維之間的互動;一個“一”是關于大數據泛化下的治理與隱私。
關于大數據本身的價值已無需贅述,此處重點討論關于大數據的3個思維變化:1.不是隨機樣本,而是全體數據;2.不是精確性,而是混雜性,尤其是大數據的簡單算法比小數據的復雜算法有效;3.不是因果關系,而是相互關系。
《大數據時代》一書提醒讀者,大數據是全數據,至少維度要全,這帶來了觀察和分析事物的角度變化,尤其相對于傳統IT系統數據,大數據強調了數據的外部性和實時性,這兩個特性也使得“證析”提到的基于事實(Evidence)的分析成為可能,不過此書忽略了外部數據與企業內部數據結合的分析價值。比如,對于政府來說,分析大范圍的公共衛生事件、傳染病可以更快地利用大數據(比如微博)發現目前的情況,但具體要調度資源,還是需要結合“小數據”的精確決策。
第2點的核心觀念關于大數據的簡單算法來自谷歌的洞見,也來自于Hadoop(一個分布式系統基礎架構,由Apache基金會開發)這類算法的核心理念。大數據的簡單算法是一種統計學的邏輯,這個如同熱力學的分析模式,熱力學并不關心具體的分子運動,而是關心溫度、體積、壓強之間的宏觀聯系,關于這種理念的內在理解,建議讀者從吳軍的《數學之美》一書中獲得,只有真正理解了大數據基于統計學的思維方式,才能理解它的獨特優勢和局限。這種方式可以解決以往技術無法解決的大范圍、實時性和并行處理等問題,并帶來新的洞見,它用概率說話,并不是和人就細節較真。這個來自互聯網公司的觀念是,希望先解決80%的趨勢問題,然后慢慢精細化。
第3點,大數據關注“是什么”,而不是“為什么”,經常網購的人會更容易體會。很多電商網站的推薦引擎具備這種能力,它能夠在顧客買書的時候,推薦顧客剛好喜歡的其他書籍,顧客可能不知道“為什么”,其實網站也不在乎“為什么”,(“為什么”可以由學術專家慢慢分析)。但是網站根據成千上萬甚至上億人的統計學分析,就可以發現“關聯物”,或者說大數據更擅長通過統計分析人類所不能感知的關聯,并建議人采取行動。這個革命式的思維非同小可,以前“啤酒+尿布”的數據倉庫故事需要數據整理、清洗轉換和專家建模挖掘,其采購行為的關聯性可能被Hadoop等算法輕易的發現。上述方式由于分析門檻低,已經成為一種常見的工具,并衍生大數據的云服務的商業模式,成為企業可以購買的“分析即服務”(Analytics as a Services),國內阿里系正致力于這種模式的建立。
第2部分關于大數據商業模式方面,最有價值的是關于大數據商業生態的分析,除了大家熟知的數據、技術,作者認為還有第3種基于思維的大數據公司,包括數據中間商等等,這對于國內過于關注技術本身的趨勢是個很好的提醒。一個有趣的話題是,作者認為基于統計的數據科學家會逐步取代行業專家,因為大數據發現的新的真實聯系,可能會顛覆傳統行業專家,這個話題學術界可能很感興趣。一個耐人尋味的例子是,基于大數據統計分析的自然語言翻譯幾年前就勝過了基于語義理解的語言學家派別,書中提到的一個從事語言翻譯的算法小組甚至開玩笑地說,“每次我們組走了一個語言專家,我們的翻譯精確度就提高一些”。
第3部分是關于大數據成為喬治·奧威爾《一九八四》里的“老大哥”,即通過技術手段實現了無處不在的監控以后,隱私和濫用的問題最為讓人擔心。筆者認為這個話題過于公共,而且已有很多文章在討論,并不是本書的特質,況且大數據的興起是一個漸進的過程,各個行業的實用案例尚在興起,行業內部應專注于行業創新,關于公共的話題的討論還是留給學者、政府和未來。
西方作者有一類是理念的鼓吹者,最著名是《失控》的作者KK(凱文·凱利),此類被讀者推崇為傳教士的作者,喜歡推廣顛覆式的觀念,產生一種前世今生(Before/After)比較的震撼力。本書作者也是如此,如此顛覆,強力的大數據時代似乎正在到來,然而,此類作者也會被人指責為“管殺不管埋” ——提出理念,不對具體的可行性負責?;氐角拔奶岬降腉artner的“魔力象限圖”,漸進的執行力才是大數據這種趨勢逐步在各個行業開花的關鍵。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25