
“大數據”的定義給人的印象缺乏主體性
點擊、流量的多少并不能客觀地概括“我們是誰”,而是關于希望與訴求的一種個性化的展現。目前針對“大數據”的定義給人的印象是缺乏主體性,我們不能滿足于數據的產生與人有關,更要意識到,數據本身就是由人創造。這就是人的數據。
我們所處的時代還有一個比較拗口的名字,叫做“拍字節時代”(petabyte era),所謂“拍字節”即千萬億字節或千兆字節,屬于較高級的儲存單位。人們不僅關注存儲介質的龐大體量,也在談論數據內容的急速增長?!拔覀兠刻靹撛?.5萬兆字節的數據,90%的現有數據在過去兩年內創造?!边@種說法的準確出處是IBM公司在其官網上發布的“什么是大數據”,類似的結論常常被一些媒體所轉述。
不光是媒體,包括商界、學術期刊都開始熱衷于研究大數據的特別之處。2013年,《哥倫比亞新聞評論》(Columbia Journalism Review)上有一篇文章,形容“大數據”是“一個包羅萬象的標簽”——通過分析大量的數據來重新認識世界。被譽為“信息時代的精神領袖”的克里斯·安德森(Chris Anderson)在《連線》(Wired)雜志上曾預言,數據洪流將導致科學方法不合時宜,他所謂的“理論的終結”正在一步步演變為現實——如此龐大的數據是現成的,沒有必要大費周章地提出假設,然后不厭其煩地進行科學驗證。如果善于獲取和分析數據,它們自身就可以說明很多問題。
何謂大數據?一個數據集合需要滿足三個“V”的維度,即大量(huge in volume)、高速(high in velocity)、多變(diverse in variety),有時也會附帶第四點,真實或準確(veracity),這可以從不同角度進行解讀。一旦掌握了全部人口的數據,就意味著產生新的可能性。在熱烈的討論中,往往被遺忘的,或者暫時被忽視的是這些新鮮出爐的字節有多少是基于個人數據創造。值得一提的是,三個“V”的維度是15年前由美國高德納公司分析員道格·萊尼(Doug Laney)提出,當時用以描述數據管理的核心問題,后來經過重新演繹,用來定義大數據。
哈佛大學科學史系助理教授麗貝卡·萊莫夫(Rebecca Lemov)在課上講授大數據主題時,總喜歡提到美國男星查爾頓·赫斯頓(Charlton Heston)主演的反烏托邦科幻電影《超世紀諜殺案》(Soylent Green)。影片在1973年上映,描繪了2022年的未來世界——由于污染、氣候變暖和人口過剩導致資源枯竭,蔬菜水果成為稀有的奢侈品,大多數人只能依賴于綠色食品(soylent)維持生命,官方口徑是由大豆(soy)和扁豆(lentil)制成。事實并非如此,男主人公經過調查后發現,綠色食品是用人做的——“Soylent green is people”,這一幕出現在影片結尾處。
萊莫夫套用了這句經典臺詞,稱“大數據就是人”。關于大數據的定義,大部分都沒有考慮到與生俱來的人性,也沒有揪住意味深長的啟示,比如技術與不斷改變的自我定義的關系。一組不同以往的新數據,源于人類的日常生活——幾乎不用深思熟慮,通過一個簡單動作就能完成,推特、臉書、谷歌搜索、在線評論、一鍵下單。這些是“我”的模糊圖像,新的虛擬生活被轉換為算法處理。
對于上述數據的生產現場,人類地理學者羅伯·基欽(Rob Kitchin)最近做過編目,包括進貨量的記錄、數字設備對其使用歷史的保存和傳播(如手機)、事務處理日志和數字網絡的交互(如郵件和網上銀行)、網站或軟件導航所帶來的點擊流量、嵌入物體或環境的傳感器所收集的測量數據、對機讀對象進行的掃描(如條形碼)、車載資通系統、社交媒體的信息發布,大量的、動態的、細化的、關聯的數據流由此形成。
2012年,沃爾瑪每小時創造2.5千萬億字節數據,涉及逾100萬筆客戶交易。同年,臉書宣布每天處理25億個頁面(鏈接與評論)、27億個點贊、3億張上傳的圖片。與此同時,精細數據的收集場合與方法一直在更新。今年2月,臉書修改了提供給用戶的性別設定,除了傳統的男/女,還有56種新的非傳統性別。
從輸入信息中導出的持續不斷的數據軌跡很快投入應用。地圖上的數據流不但可以告訴你所在的位置,還能預判你的目的地。警方多了一個得力助手,在犯罪結論認定前,先通過數據對嫌疑對象的行為范式進行分析識別?!按髷祿侨恕?,這可以從兩方面來理解:大數據由我們的點擊、導航的偏好和行為所創造,也隨之塑成了許多重大的社會政策。
有文化批評人士指出,大數據所帶來的新式精神控制能夠影響美國大選,也有人稱其為貪婪的人類工程。哈佛商學院教授肖莎娜·祖波夫(Shoshana Zuboff)的觀點是,行為數據的利用會導致一系列破壞性的后果,尤其是隱私、自治、道德理性等,負面效應可能要持續幾十年。在她看來,這不過是一種新的充滿惡意的資本主義。
目前針對“大數據”的定義給人的印象是缺乏主體性,沒有起碼的人的角度。一批從事技術研究的社會科學家發起倡議,要求研究方式從“以數據為主”轉向“以人為本”,避免過分倚重數據導向的研究路徑,沒有給予“人”足夠的重視,后者才是社會學研究的核心。這樣的學術自覺起到了一定的作用,卻也忽視了一個事實:信息追蹤的數據本來就是由人構成的。
盡管打著未來主義的旗號,但是大數據以及數據導向的科學與社會科學的方法史產生了強烈的共鳴。20世紀,社會科學門類逐漸發展分化,社會學區別于人類學、社會心理學區別于經濟學,各自形成專業、興趣領域以及特有的工具。主流的、專業的社會科學富于各種技巧,比如數據析取、場景設置等。1924年至1926年,美國社會學伉儷林德夫婦(Robert and Helen Lynd)在印第安納的曼西開展了“中鎮研究”(Middletown study),他們采取了一種結合了人類學與社會學的方法,包括資料收集、訪談、參與觀察、問卷調查以及其他形式。正如歷史學家莎拉·艾格(Sarah E Igo)在《均標美國人》(The Averaged American)中寫道:“任何細枝末節的事實都不會被錯過,從七年級課本的內容到時下熱門的電影,從在洗衣機上花費的時間到居民的庭院面積?!?/span>
1947年,心理學家羅杰·巴克(Roger Barker)在堪薩斯的奧斯卡盧薩創建了一間社會科學實驗室,他和同事們定期收集關于“日常生活”的數據,包括一些并不引人注意的小事。其中有這么一條記錄:“1949年4月26日,周二,上午7:01,七歲的雷蒙德搖搖晃晃地撿起一只襪子,慢慢吞吞地套進左腳時,媽媽來了句玩笑——你就不能把眼睛睜開嗎?”諸如此類的瑣碎內容構成了社會學研究的另一種資源,隨著城市變遷、光陰流逝,這樣的信息可以幫助我們重溫當時的日常生活。開拓性的社會學研究除了小的個體,還關注大的群體。二戰后,人類學家麥爾?!な钒萘_(Melford Spiro)在西太平洋上的一座島上給當地人提供心理測試,附近的環礁則進行著核試驗。為了學術研究,史拜羅的數據挖掘面向全部人口。
到了20世紀后半葉,城市的定居者越來越習慣于在任何場合回答與自己有關的問題,著名的《金賽報告》(Kinsey Report)是在數以千計份的訪談樣本基礎上完成。哈佛商學院的研究團隊曾在伊利諾伊的西塞羅找了一家工廠,發放了20000份調查問卷,試圖弄清其他學者所提到的“難以捉摸的現象”。值得一提的是,受訪對象已經開始基于自己的目的來參與這項調查,偶爾提出尖銳的問題、煽動不滿情緒、調侃來訪的社會學家。
距今不遠的未來某一天,人們回看今日,會為我們的天真無邪感到不可思議——如此癡迷新技術,卻沒能發現行為數據資源的價值,輕而易舉地將它們泄露出去。這是一種可能性。另一種可能的情形是,目前看來仍是新的數據采集概念遭到解構,也許是規模,也許是粒度,這種趨勢其實很早就已經出現了。
白宮政府新近發布的一份關于大數據的報告稱:“技術軌道顯而易見,今后越來越多的個人數據將會產生,但與此同時,必然處于控制之下?!比R莫夫則重申了她的看法:數據的產生不只是與人有關,它同時也是由人所創造,這就是人的數據。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25