
預測和操縱未來 大數據的神話與現實
2012年初,一個男人沖進一家位于明尼蘇達州阿波利斯市郊的塔吉特(Target)超市興師問罪:為什么超市不停地向他的還是高中生的女兒郵寄嬰兒尿布樣品和配方奶粉的折扣券?“你們是在鼓勵她懷孕嗎?”憤怒的父親質問超市經理。
幾天過后,超市經理打電話向這位父親致歉,這位父親的語氣變得平和起來,他反過來道歉說,他的女兒確實懷孕了,預產期在8月份。
對零售商而言,一個家庭將要孕育一個新生命,往往是一對夫妻改變消費觀念的開始,也是他們生活方式發生變化的分水嶺。塔吉特總部利用大數據進行相關性分析,已經為時多年。他們可以在不與準媽媽們對話的前提下,預測一位女性的“懷孕進行時”。塔吉特的數據分析團隊,在查看準媽媽們的消費記錄之后,找出了20多種關聯物,通過這些關聯物對顧客進行“懷孕趨勢”預測,并寄送相應的優惠券,為消費推波助瀾。
從《紐約時報》對這件事的綜合報道,可以看到依靠大數據的新營銷模式:從娃娃抓起,讓媽媽上鉤。塔吉特這樣的大型連鎖超市早就認識到始于嬰兒用品的消費習慣,當媽媽們開始熟悉一個品牌、了解一家店面、習慣一套購物方式后,媽媽和嬰兒就會成為被“友好套牢”的長期消費者。他們的消費價值可以用代數程序精確計算和預測出來,假如媽媽一時忘記了購買,像吃藥提示一般準時的促銷就啟動了。
塔吉特不是特例。
美國一些機構和公司爭先恐后地投身于大數據分析運動中。毫無疑問,大數據解決了一些難題,產生許多有益的解決方案。例如,它可以使得Google能夠預測冬季流感的傳播路徑;可以提高人們對于曼哈頓沙井蓋爆炸的預測,以避免人員傷亡;可以幫助醫院更有效地監測到早產兒細微身體變化所發出的感染信號,以便醫生能夠及早進行治療;可以為UPS物流車隊制定最佳行車路徑,令司機們在2011年少跑4848萬公里,節省了300萬加侖的燃料。
包括維克托.邁爾-舍恩伯格(Viktor Mayer-Sch?nberger,《大數據時代》作者)在內的許多學者,在興奮地傳播一個又一個大數據“巫師”——那些運用大數據成為傳奇的公司與個人,他們正在利用大數據解決令人頭疼的“古老問題”,或是發現一個又一個商業新大陸。類似IBM這樣的大型公司更是不遺余力地強調:數據正在成為戰略資源。一時之間,擁有并利用大數據成為商業新時尚。各公司努力或者希冀成為維克托描繪的三種大數據公司之一:擁有大數據的公司、擁有大數據技術的公司、擁有大數據思維的公司。
但是,當拉斯維加斯各大賭場也用大數據來挑選大客戶、鼓勵大投注、誘發大賭癮的時候,我們應認真考慮:要掀起大數據狂歡,還是謹慎地把它裝入籠子加以馴服?若無限制,在賭場之外的市場,看似無辜、無害的大數據采礦和營銷不僅會入侵我們的隱私地帶,而且將悄悄改寫著個人與制度之間的社會信任景觀。
誘惑
有關大數據的一切都指向人的遠古渴望:預測和操縱未來。
王爾德(Oscar Wilde)曾經說過:我可以抵御任何力量,除了誘惑。
在誘惑面前,我們都是王爾德的同族。這正是大數據喜愛我們,而公司們喜愛大數據的原因?!百I了這款巧克力的,也特別喜歡這種果醬”,“你和上面的這些成功人士都鐘愛這個品牌的家具,他們中的8個人剛剛購買了正在促銷的這個年份的葡萄酒”……聽上去很熟悉嗎?因為它們都來自“大數據學派”。這些經典營銷句式、語法和邏輯結構的有用證據來自“性感的數據科學家”[哈佛商學院教授達文波特 (Tom Davenport)語]。
大數據的美妙之處遠不止于電子商務網站迷人心智的產品推薦,它還能幫助球隊取勝。邁克爾.劉易斯在《魔球》一書里講述了奧克蘭“運動家”棒球隊的經營哲學。運動家棒球隊的總經理比利.比恩,依靠電腦程序和數據模型分析比賽數據,用以選擇球員,最終他帶領球隊在美國聯盟西部賽中奪冠,并創下20場連勝紀錄。
維克托曾經引用這個案例,說明專家的消亡和數據科學家的崛起。大數據的鼓吹者們認為,一個史無前例的新時代正在到來。人類可以收集、利用的數據在規模(Volumn)、類型(Variety)、速度(Velocity)上有了新的變化。
分布式計算(hadoop、MapReduce等云計算技術)、認知計算在內的計算能力的演化,使得存儲和處理數據的成本大幅度下降,換言之,存儲和處理海量、實時數據成為可能;另一方面,iPhone引爆了智能設備的流行,生產了大量位置信息(IBM公司軟件集團信息管理軟件大數據全球副總裁Robert Thomas認為,位置數據的便利可得是大數據流行的要素之一)。大量位置信息的累積,為艾伯特-拉斯洛.巴拉巴西(Albert-László Barabási)這樣的研究者提供了前所未有的豐富素材,以揭開人類行為背后隱藏的模式。無尺度網絡模型創建者、美國東北大學教授艾伯特-拉斯洛.巴拉巴西,借助各種模型,正在其研究中心預測人類行為。他的研究包括:在未來一段時間,你會出現在哪些城市里?
一切都指向人的遠古渴望:預測和操縱未來。這一愿望可以遠溯至古老的占卜和巫術。如果你能夠預測、操縱客戶的需求,那么300%的利潤,也并非遙不可及。
即使案邊沒有艾伯特-拉斯洛的《爆發》、行為經濟學家泰勒(Richard Thaler)的《Nudge》、麻省理工神經與心理科學家格瑞別(Ann Graybiel)“老鼠習性與控制”的報告,大數據領先企業也早已把相關心理、神經、認知習慣方面的科學發現運用到營銷設計中去了。核物理不殺人,核武器殺人,被大數據研究武裝起來的企業已具備了各種誘惑消費的尖端能力。
《紐約時報》的杜黑格(Charles Duhigg)發現,生產日用品的寶潔公司雇傭心理習性專家,幫助他們把一款滯銷的去味產品(Febreze)變成了年銷售10億美元的暢銷貨。訣竅在于,用廣告刺激已經脫敏的嗅覺,重新喚起人們去除異味的意識和欲望,在人們本來已經適應的氣味環境中再增加一味化學品,并養成對它的偏好和依賴。從美國到中國,寶潔正在聯手百度公司,以大客戶的身份“支使”后者利用搜索平臺上的相關數據來進行消費洞察和“挖潛”。
這種人造的消費給誰帶來價值,為誰的終極利益服務?在大數據游戲中,挖掘價值和操縱誘惑之間僅隔著沙灘上的一道線。這也解釋了在商業世界,大數據一夜走紅背后的驅動力。
骨感
Farecast的啟示在于,大數據的核心在于思維,而非數據或者技術。
當然,現實的骨感,多少可以安撫我們的忐忑。
我們采訪過的本土公司,多數還在埋頭奮戰“小數據”。大數據技術的吆喝者,確實讓更多人重新思考數據潛在的價值。從數據存儲和分析技術的受追捧程度,可見大數據之風的一時盛行。
端午節前的一周,一場由IBM發起的云計算大會在上海迎來了黑壓壓的觀眾,遠超出了IBM中國區云計算事業部總經理王盛航的預估。三年以前,對云計算還懵懵懂懂的中國公司,如今以極大的熱情投入云計算浪潮中。極端者如蘇寧電器,鄭重其事地將名字更改為“蘇寧云商”。云服務提供商發現,存儲數據和處理數據的現實需求,不斷增加。
線上零售商“1號店”三年前開始購買數據倉庫,組建BI(Business Intelligence,商業智能)團隊。像塔吉特、沃爾瑪一樣,1號店希望能發現種種有如啤酒與尿布組合的相關性,以便加快產品周轉率。通過數據,1號店發現了可口可樂與奧利奧餅干之間的正相關性。
新的技術,正在幫助許多雄心勃勃的零售商實現趕超沃爾瑪的夢想。1號店正在建立一套價格智能系統(PIS),這套系統能夠在線實時搜索60多個網站、1700多萬商品的庫存信息和價格信息。1號店的創始人于剛說,他們依靠PIS進行實時的價格調整,以提升價格競爭力方面的量化指標。
類似1號店PIS的數據產品思路,脫胎于華盛頓大學人工智能項目負責人奧倫.埃齊奧尼(Oren Etzioni)教授的比價網站Netbot。奧倫還開發過一套機票價格預測系統Farecast,他建立了一個數學模型,反映票價和提前購買天數之間的關系,最初的預測只是基于41天之內的12000個價格樣本。2008年,微軟花費1.1億美金收購了Farecast。截至2012年,Farecast系統利用將近10萬億條價格記錄來預測美國國內航班票價,準確率高達75%。
Farecast的啟示在于,大數據的核心在于思維,而非數據或者技術本身。12000個價格樣本絕對不符合大數據的4V定義。但是,通過奧倫卓越的建模能力,人們可以初步窺見價格與日期之間的相關關系,隨后再對系統“喂入”新的數據,不斷優化模型,提高預測的準確性。
大數據處理能力沒有那么神秘,至少在IBM中國研究院信息管理和醫療健康首席科學家潘越看來是如此。與大數據相關的技術,可以歸納為三類:數據獲取與治理能力、數據分析能力和數據呈現能力。潘越等一批科學家認為,技術的發展很可能會使得這些能力“傻瓜化”。
至少現在看來,中國不缺數據,缺乏的還是能力,奧倫.埃齊奧尼這樣的能力。這也可以解釋為什么大多數公司更感興趣的是如何處理好“數據”,不論規模大小。
車品覺是阿里巴巴集團大數據委員會負責人,他認為大數據是一種“忽悠”。數據越多、越大,數據分析越復雜,負擔就越沉重。在淘寶的平臺上,如何“生產”有質量的數據,如何進一步挖掘消費數據,這些話題他興致盎然,但他并不熱衷于大數據的概念、定義和社會學上的討論。
到目前為止,阿里巴巴處理并存儲了超過100PB(1個PB等于1024個TB)的數據。2013年,它在內部建立了一個虛擬組織單元,稱為數據委員會,把分布在阿里巴巴集團內部25個事業部從事數據處理業務的800多位人員,集中在一起,群策群力應對數據質量、數據安全和數據運營的挑戰(詳見《解碼阿里數據》)。
即便如此,阿里巴巴在數據分析上的能力還只能處理和利用淘寶平臺上有限的數據,人才被視為實現數據智能的關鍵制約。在規模上比淘寶小得多的1號店,持有相同的觀點,于剛抱怨建模人才“非常稀缺”。
從數據到數據智能,再到大數據智能,之間站著1000個奧倫.埃齊奧尼。
籠子
保護隱私安全,保障載體公正,這是涉及生命與存在的終極問題。
未實現不代表不會發生。
即便公司們還站在大數據時代的舊石器階段,作為產生數據的每一個個體,我們應該想想未來的場景,畢竟游客們已經落入拉斯維加斯賭場的彀中。
去年我的生日設為1月1日,今年改到4月1日了,因為我不想讓大大小小的網絡公司獲得真實的私密信息。然而,面對日益強大的大數據技術,消費者所做的種種信息偽裝顯得那么幼稚可笑。對應網絡上的“我”,越來越多的人有多套數碼身份,但偽信息戰中的失敗一方總是消費者。以社交網絡“臉譜”(Facebook)和“商聯”(LinkedIn)為首,大數據讓個人隱私無所遁形。
其實,社會呼喚也亟需能夠促進信任、提升責任的大數據。為提高公平透明度,美航剝離了薩博(Sabre)飛行信息和預訂系統。如今,35萬家旅行社和400家航空公司使用這個系統。2008年金融危機后,美國政府立法分離投資銀行自營和代客理財業務,遏止公司濫用信息不對稱的優勢;在醫療行業,“姜網”(Ginger.io)結合智能手機、衛星定位、哮喘患者報告,建立了觀察花粉分布、有效治療哮喘的平臺。這些正反案例都值得中國企業深思。在建立平臺、運用云計算、獲取和處理數據一體化模式過程中,中國企業特別需要從正反兩方面認識到大數據的社會性。
研究UFO的人認為,外星人殖民地球最簡單有效的方法就是發送遺傳基因數據,然后就地選擇載體。觀點大膽了一些,但道理很實在:人的一切都能分解為數據和載體。保護隱私安全,保障載體公正,這是涉及生命與存在的終極問題。
“商業的社會責任就是提高利潤?!泵谞栴D.弗里德曼(Milton Friedman)已經告訴我們,生命與存在的問題不能交由商業機構全權處理。與大數據盛行的北美相比,中國需要制度的籠子,嚴格保護隱私的法律;需要商業規范的籠子,嚴格內部管理流程,杜絕未經客戶允許的信息營銷;需要社會理念的籠子,讓值得信任的企業興盛起來;需要應用技術的籠子,像北美醫療信息軟件一樣,自動除去病人的姓名和身份信息,然后輸入大數據庫。中國還需要有更多像麻省理工教授烏爾班(Glen Urban)這樣的學者,呼吁和倡導基于消費者信任的營銷策略。
達文波特教授宣稱,如今的數據科學家類似于上世紀八九十年代華爾街的金融數量分析師。過去30年中,華爾街的金融工程創新給世界帶來了什么?回望余波未盡的2008年金融危機,他應該明白,更需要馴服的是那些掌握大數據的大企業。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25