
殺熟、窺私,暗黑的大數據能否成就善良
大數據的熱浪,暗潮洶涌。如果現在向你提到「大數據」,大部分人大概都會像S君一樣,腦子里閃過一系列的“標志性事件”:竊取5000萬Facebook用戶數據的Cambridge Analytical公司,對陰謀論、假新聞和政治廣告的精準投喂;李彥宏“用隱私交換便捷性”的爭議論調,攜程用“大數據殺熟”對用戶進行逆向的價格歧視,信用評估的智慧平臺ZMAL將更多的有色人種擋在“有信用”的高墻之外的丑聞……
諸如此類,“看上去很美”的大數據反而創造出越來越多信息的垃圾食品,讓人上癮,更難以抗拒。在這個以假亂真、信息污染的世界里,我們不禁好奇,數字民主真的只是幻覺?
要是不在數據流中挖掘商機,也不在在黑箱里窺視隱私,大數據將會把我們帶向哪里?其實,除了精確瞄準買買買一族的那些“甜膩”的消費大數據,在全球范圍內,還有很多有道德重量的、“美美與共”的數字世界的探路者,其背后有溫度的巨量數據,更加值得我們關注。
一、照亮漂泊者:關于苦難的數據
人類學家Joel Robins在其經典文章「Beyond the suffering subject: Toward an anthropology of the good」(《超越受苦難主體:關于善的人類學》)中如是寫道:
“那些生活在痛苦和貧困之中,那些飽受暴力與壓迫折磨的苦難者,現在站在人類學的中央”。
這種直面社會生活殘酷,直面壓抑與絕望生命經驗的“黑暗人類學”主張(Ortner,2016),也逐漸成為重建數據倫理的重要內容。
它希望數據不是抽離的、冰冷的、佯裝價值中立的,而應該是直面黑暗,有切膚之痛的。數字可以照亮我們所“視而不見”的那些人——流離失所的城市流浪者、敘利亞的難民、無處為家的無國籍者……
2017年,《衛報》一項「Bussed Out: How America moves its homeless」的深度調查項目,將目光投向美國大城市中無名的流浪者。關注在美國版的“收容遣送”的城市計劃中,無家可歸者們顛沛流離的漂泊生活。
衛報用了18個月,爬梳了16個城市,超過20000名流浪者,34240次從此地到他地的被逐之旅。
這張圖是27歲的流浪漢Quinn Raber的足跡。他拿著舊金山市為他購買的單程車票,坐上灰狗巴士,穿行2275英里,來到陌生的印第安納波利斯。
舊金山作為無家可歸群體的大本營,從2005年開始實施一項“嫌貧愛富”的舊金山巴士計劃。它旨在通過為流浪者提供免費的單程巴士車這種廉價而有效的方式,來削減城市流浪群體的總量。
在過去12年的時間,這種“將問題運往別處”的冷酷治理術富有卓效。就像這張動態圖所呈現的一樣,一邊是10570位無家可歸者被灰色的巴士陸續運往他鄉,一邊越來越少的流浪者有機會進入到舊金山。
紐約這座城市則顯得更加的“勢利眼”,在《衛報》采集的34240次流浪者離途中,有將近50%來自紐約。而在接受無家可歸者的重鎮波多黎各,紐約輸送了2350名流浪者,比其他的美國城市要多得多。
可是,波多黎各的家庭收入中位數只有19606美元,遠不及紐約的60741美元,失業率更是全國平均水平的兩倍,這無疑將使流浪者生活雪上加霜。而且,在近九成的被驅逐之旅中,都重復了紐約這種從“富城”到“窮鄉”的糟糕方式。
對于這些城市的游民,我們或是視而不見,或是視為“問題”。不愿裝睡的《衛報》,將這幅完整的、命如草芥的流浪者們的數字足跡圖擺在我們面前。他們如螻蟻般,從一地驅離到另一地,無處為家。這些地圖上流動的點,是一個個灰暗的、苦悶的、飽受侮辱與歧視的生命境況,是我們道德與倫理上的刺,是他者生活的殘酷現實,也是我們必須設身處地地去反思的價值問題。
而像衛報這種重建大數據的倫理與道德維度的,還有Sasaki的Understanding Homelessness(理解無家可歸者)公共行動,以及博爾扎諾自由大學的People’s Republic of Bolzano(用數字為被污名化的意大利華人社群發聲)項目,呈現敘利亞難民跨國流亡之路的Humanizing Syrian Refugee Visualization計劃,關注巴西無國籍者的Stateless in Brazil數字行動等等。
二、挖掘歷史真相:關于文本的數據
再來看谷歌的一款“黑科技”——Google Ngram Viewer。作為野心勃勃的谷歌圖書項目的重要分支,它囊括了1500年到2008年間5195769冊來自于世界各地的書籍,并通過OCR技術將其分解成5000億個獨立的語匯,造就一個史學家和語言學家們難以想象的、巨量無比的語料庫。
有學者認為:Google Ngram這樣的數字利器,可以幫助我們探尋印刻在語言與文字背后更大的歷史真相。
權力怪獸對自由與獨立思想的鉗制,在這個“黑科技”的照妖鏡下就露出了馬腳。下圖是猶太藝術家Marc Chagall在德文與英文書中的“亮相”詞頻:
1910年,30歲的他逐漸成為德國藝術界一顆冉冉升起的新星。但隨著納粹勢力的甚囂塵上,Chagall開始成為不合時宜的“異類”,變成現代版“焚書坑儒”的替罪羔羊。1936-1944年納粹統治時期,他的名字被徹底抹去。但與此同時,他的盛名開始在英文國家里得到認可。
下面這張圖,則讓我們更系統地理解納粹勢力,如何像“權力的毛細血管”一樣,逐漸滲透到社會生活與個人心靈里。1936-1944年間,納粹黨員的名字在公共舞臺的出現頻率飆升,可藝術家、文學家、哲學家、歷史學家和政治學家的詞頻則跌落至歷史谷底。
女性主義的研究,也可以在大數據的助力,煥發新的活力。我們可以在這兩張曲線圖中看到,女性主義(feminism/ Féminisme)從1968年開始,在法語與英語世界中日漸顯現,并在80年到90年代成為一股迅速飆升的解放力量。Women與Men這一對性別語匯之間的懸殊落差,也逐漸縮小。80年初,“women”在英文世界終于能頂半邊天了。
可是現代女性的平權之路,并非坦途,這注定一場永不停歇的抗爭。
這是Google Trends所制作的Me Too Rising專題,它統計了從2017年10月至今,世界各個國家“Me Too” 的動態搜索數據。我們發現:Me Too的浪潮從從北美向全球擴,星星之火,可以燎原。
而有幾個高頻搜索的城市,是出乎我們意料之外的:印度的印多爾、馬來西亞的吉隆坡、危地馬拉的首都。這也從側面反映了:Me Too運動有喚醒當地女性權利意識,激發其參與反抗男性霸權集體行動的巨大潛能。
從左至右分別對應: 印多爾、吉隆坡、危地馬拉
三、沖破壁壘之墻:關于共享的數據
大數據時代,各個數據王國“分封而治”。離散的數據,不是被密封在民族國家的保險柜里,就是藏在科技巨頭們的黑箱中。這種數字割據的狀態,常使我們在全球問題中陷入無能,無感的境地。
全球漁業就是最好的例證,各國的海洋捕魚數據長期以來是不透明的,不開放給公眾與研究者,數據標準雜亂不一。這不僅造成了過量獵殺、非法捕魚、奴隸勞工、海洋污染和漁業資源枯竭等嚴峻問題,而且使我們很難對全球商業捕魚有一個整體性的洞察與監測。
2014年,Google, Skytruth和Oceana共同創建非營利組織Global Fishing Watch。它構建了一個沖破信息藩籬的,透明公開的大數據平臺(正如其核心所述Sustainability through Transparency),我們可以實時追蹤商業捕魚船舶的全球足跡,監測非法海洋捕撈的活動,觀察全球海上轉運船只的動態。
在2012-2016年,它利用衛星監測和谷歌的機器學習工具,共處理了220億個船舶自動識別的信息,跟蹤了7萬余艘商業捕魚船舶,共計4000萬小時,200億千瓦時能耗的漁業活動。
它追蹤了世界各地的漁船4.6億公里的海上活動足跡,這相當于往返月球600次。這個全球共享的數據庫,在為地理學家、海洋學家和氣象學家們提供了研究的利器的同時,也不斷探尋與各個國家之間的數據共享和集體行動(如印度尼西亞,秘魯將其船舶監測系統的國家數據(VMS)納入其中)。
不得不說,Global Fishing Watch是數字王國里的“異教徒”,是數字封建割據時代偉大的世界主義先鋒。
這張是全球漁船轉運的熱點圖。監測海上轉運船舶的動態信息非常重要,因為在商業捕魚活動中,海上中轉長期處于監管的真空地帶,這使得非法捕撈、強迫勞動、毒品走私和遠洋漁船上侵犯人權行為有了可乘之機。
這張圖來自于2016年榮獲普利策公共服務獎的Seafood from Slaves,這是一艘穿梭于泰國和巴布新幾內亞之間的漁船,而這支遠洋漁船藏著血汗勞工的惡行。美聯社在收集這些遠洋捕撈漁船上慘無人道的罪證時,充分借助了大數據與新科技的力量。
遙感與數字地圖公司通過AIS信號確定了這艘船舶的海上活動軌跡,太空影像服務商則透過衛星捕捉到這艘漁船海上轉運的高分辨圖像,其長期深藏不露的海上罪行,現了原形。
今天的文章,我們主要羅列了三種應用大數據的案例,在這些巨量的數據背后,可能沒有所謂消費行為和用戶分析,但卻有演變歷史的真相和直面苦難的真實;可能沒有辦法謀求商業模式,但卻可以做到高效的犯罪監管。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25