
對大數據分析有哪些流行誤解?
大數據是一個新概念,大數據產生的背景是整個社會走向數字化,特別是社交網絡和各種傳感設備的發展。大數據分析擁有自身的特點,與計量經濟學既有區別又有聯系。當前對大數據的分析存在許多流行觀點,但其中很多核心觀點都值得商榷。
大數據產生的背景是整個社會走向數字化,特別是社交網絡和各種傳感設備的發展。云計算和搜索引擎的發展,使得對大數據的高效分析成為可能,核心問題是如何在種類繁多、數量龐大的數據中快速獲取有價值信息。大數據在社會分析、科學發現和商業決策中的作用越來越大,金融只是其中的一個應用領域。
什么是大數據
大數據是一個新概念,英文中至少有三個名稱:大數據(big data)、大尺度數據(big scale data)和大規模數據(massive data),至今未形成統一定義。但一般認為大數據具有四個基本特征(即所謂4V特征):數據體量龐大(volume)、價值密度低(value, 也有人理解成應用價值巨大)、來源廣泛和特征多樣(variety)、增長速度快(velocity, 也有人理解成需要高速分析能力)。
從學術角度,對大數據的討論基本屬于數據科學(Data Science)和數據挖掘(Data Mining)的范疇。
大數據的主要類型:第一類是記錄數據,即記錄的匯集,其中每個記錄包含固定的數據字段(或屬性)。比如,計量經濟學中的橫截面數據,文檔數據,事務數據或購物籃數據;第二類是基于圖形的數據,包括帶有數據對象之間聯系的數據和具有圖形對象的數據,比如網頁鏈接、化合物結構;第三類是有序數據,包括時序數據、序列數據、空間數據。比如,宏觀經濟指標序列,金融價格序列,基因組序列,詞或字母的序列,同一時點上從不同的地理位置收集的氣象數據(溫度、濕度、氣壓等)。
大數據分析的主要任務:第一類是預測任務,目標是根據某些屬性的值,預測另外一些特定屬性的值。被預測的屬性一般稱為目標變量或因變量,被用來做預測的屬性稱為解釋變量和自變量;第二類是描述任務,目標是導出概括數據中潛在聯系的模式,包括相關、趨勢、聚類、軌跡和異常等。描述性任務通常是探查性的,常常需要后處理技術來驗證和解釋結果。具體可分為分類、回歸、關聯分析、聚類分析、推薦系統、異常檢測、鏈接分析等幾種。
大數據分析與計量經濟學的差異與聯系
大數據分析與計量經濟學既有差異又有聯系。
兩者的差異表現為:第一,兩者處理的數據類型不同。計量經濟學處理結構型數據,主要包括橫截面數據、時間序列數據和面板數據,一般能以excel表格的形式呈現,而且表格的行列都有清晰的經濟學含義,有一致統計口徑。大數據分析能處理很多非結構型數據,包括文檔、視頻、圖像,一般難以用excel表格的形式呈現。但這些非結構型數據需要量化后才能分析,在量化中一般伴隨著信息損失。
第二,兩者分析重點不同。計量經濟學分析的重點是假設檢驗,核心理念與波普的證偽主義非常接近。計量經濟學就是通過假設檢驗,來證偽或支持(注意不是證實)某個經濟理論。相比之下,大數據分析更具實用主義色彩。預測在大數據分析中占有很大比重。對預測效果的后評估也是大數據分析的重要內容。
大數據分析與計量經濟學的內在聯系也不容忽視。在對隨機問題的處理上,它們沒有本質差別,基礎理論都是概率論和數理統計。
對大數據分析的主流誤解
舍恩伯格與合作者的《大數據時代》非常流行,但里面的很多核心觀點都值得商榷。
第一,他們認為,大數據分析不是針對隨機樣本,而是全體數據。盡管數據收集和分析手段足夠發達后,對全部數據的收集和分析成為可能,但從成本收益上衡量,這樣做不是總有必要。根據中心極限定理,統計分析質量與樣本數量之間存在平方根關系。比如,樣本數量提高100倍,分析質量提高10倍。而統計分析工作量與樣本數量之間存在線性關系。比如,樣本數量提高100倍,存儲和計算量一般增加100倍。這樣,樣本數量增長到一定程度后,新增工作量對應的成本就會超過質量提高產生的好處。因此,通過科學設計的抽樣調查獲得有代表性的樣本,在大數據分析中仍有價值。
第二,他們還認為,大數據分析不是因果關系,而是相關關系。這個說法在統計學中是老生常談,不是什么新觀點。統計學基于相關關系,只能被用來證偽因果關系,而不能被用來證實因果關系。大數據分析的基礎理論也是概率論和數理統計,從根本上就屬于相關關系的范疇。
第三,大數據分析也不是萬能的?;诖髷祿念A測可以抽象表述為:用 表示已知信息,用 表示未知信息,尋找關于 的函數 作為 的預測。預測誤差是 ,用 (類似于均方誤差)來衡量預測效果。概率論有一個基本結論:
對任意 ,總有 ,其中等號僅當 時才成立,所以 也被稱為最佳預測(best predictor)。
可以看出兩點結論:首先,大數據分析中,各種算法的核心任務是使 盡可能接近理論上的最優預測 ;其次,即使在最優預測上, 代表的預測誤差仍不能被消除,是內生于信息結構的。比如,即使信息技術非常發達,如果現實世界中仍有部分信息不能被數字化(從而不能用在大數據分析中),這部分被“塵封”的信息就決定了大數據分析的有效邊界。
第四,大數據能降低信息不對稱的程度,但不能消除隨機性(不確定性);有助于評估風險(未來遭受損失的可能性,其中損失分布可計量),但不能消除奈特式不確定性(其中損失分布不可計量)。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25