
小數據大時代,數據革命迫在眉睫_數據分析師
目錄概述:
(1) 大數據對隱私無止境的侵犯和個體對主動保護隱私的需求。
(2) 對統一全面管理分析個人數據的巨大需求.
蔡凱龍:
大家好,我是蔡凱龍,很高興也很感謝秘書長易歡歡,讓我有機會和大家一起在互聯網金融千人會舉辦的早餐會來交流體會和心得。我這次主題是:小數據(iData)的大時代:數據革命的下一個前沿陣地。每一小節我都會預留點時間,歡迎大家提問題,讓我們的交流碰出思想的火花吧。
剛才開車回來,在路上bloomberg廣播,說美國大IT行業,Google . Facebook Twitter,Apple. Microsoft. AOL, Linkedlin, Yahoo聯名給國會和總統寫信。要求制定政府竊取個人隱私的詳細策略,并且要求有獨立第三方來監督,這個呼吁是跟Snowden的泄露的棱鏡計劃有關,因為在他泄露的計劃里曾經說到美國政府公開或者非公共入侵所有美國大科技公司的數據庫,監控所有的信息。美國總統今天出來講話,說政府不會偷看美國公民的個人信息,只是為了反恐和監測海外活動,不會違反憲法,一定會盡力保護美國公民隱私。他提到的個人隱私,和我今天要和大家交流的小數據有關。
數據革命的最終目的,就是給每個人都配備類似于美國總統的白宮級別的服務。這不是科幻,這是數據革命即將開創的另一個前沿陣地,小數據的大時代。
小數據(iData), 指的是圍繞個人為中心全方位的數據,及其配套的收集,處理,分析,和對外交互的綜合系統。人的一舉一動,一分一秒,產生的數據,包括生活習慣,身體狀況,社交,財務,喜好,情緒,行為的等等,全部被收集和利用和分析,并對外形成一個富有個人色彩的數據系統,統一執行交換數據,保護隱私等多項對外功能。
小數據跟大數據的根本區別在于,小數據以單個人為唯一的對象,重點在于深度,對個人數據全方位全天候深入精確的挖掘利用,大數據則側重在某個領域方面,大范圍大規模全面數據收集處理分析, 側重在于廣度。小數據只有圍繞一個人,你就是小數據世界里的美國總統,小數據就是你的白宮辦公室,它聽命于你,收集關于你全方位信息,提供給你最貼心最完整的數據服務,同時擔任對外界大數據的唯一接口。小數據并不是大數據老酒裝新瓶,把大數據思維操作模式簡單套在小數據上并不適用。 接下來我具體從小數據的成因, 特性,發展前景和問題,這四個方面來談談小數據是怎樣作為大數據的互補和延伸的。
1. 大數據對隱私無止境的侵犯和個人對主動保護隱私的需求。
1993年《紐約客》刊登了一副漫畫:標題是:“互聯網上,沒有人知道你是一條狗”。經過20年互聯網,移動互聯網和社交網絡以及大數據的快速發展,我們已經毫無隱私成為透明人了?,F在這句話應該改成:“不要說互聯網另一端是一個人,即使是一條狗,我甚至能知道它身上有沒有跳蚤”。 在數據為王的時代,個人隱私遭到肆意的踐踏和侵犯。 你上網買個東西,或者在社交網上發個言,很簡單一個動作,瞬間同時的在政府網絡監控,電話上網公司, 買東西網站,社交網,搜索網站, 信用卡銀行,還有專門收集資料的爬蟲系統。。等等,留下你詳細的個人資料。更可怕的是,這些都是永久的,任何時候都不知道會被誰調用,會被人肉搜索到。大數據的基因里有對數據無限的渴求。因此以企業為主的大數據,在追求最大商業利益的同時,是不可能主動保護個人隱私的??梢哉f,大數據和個人隱私保護是天生不可調和的根本矛盾。
隨著隱私被侵犯的弊端逐漸浮現, 各國都有不同程度的立法來保護個人隱私。但是至今為止,實際收效甚微,我們對隱私大規模被侵犯仍然束手無策。不過想想連德國總理默克爾,這么一個大國最高領導人的手機都會被竊聽,我們這些普通大眾的隱私在國家利益和商業利潤面前,又怎么能夠被真正被保護呢?難怪Steven Rambam, 一個互聯網隱私專家曾經說過一句讓人很絕望的話:”Privacyis dead — get over it.” “隱私已死,愛怎么著怎么著吧”
這時候,迫切需要從技術上,讓個人主動而不是被動的保護自己的隱私。小數據就能很好解決個人隱私和大數據的矛盾。小數據對內是一切個人數據的集合,對外是個人數據的唯一接口。任何對外的數據輸出,都需通過預先設定授權程序。 而外面大數據其實不是真的對你的隱私感興趣,就比如說大數據要分析用戶對一個新車的市場, 他需要同時知道你年齡性別收入等等,但是大數據最終目的不是要拿這些隱私,而是拿這些作為大數據分析模型必須的素材,最后分析出你喜歡或者不喜歡這輛車。其實小數據在這方面更有優勢,甚至細微到主人喜歡什么顏色,買車主要目的是上班還是休閑等,只要把小數據分析結果而不是隱私內容,通知給大數據。 這樣既能保護個人隱私,又能提供大數據最準確的信息。完美解決大數據和隱私之間的矛盾。
同時小數據還能在保護隱私的監控上掌握主動。我們都知道,注冊登記任何社交網,都要求你同意密密麻麻天書一般的法律條文。我相信沒有人會真正認真去看這些條文,因為用腳后跟想都知道,里面法律術語晦澀難懂,看懂了你又能怎么樣,還不得乖乖”I Agree”我同意。 這都是企業合法用你數據資料的同時,用來規避法律責任的保護傘。這可是企業雇傭龐大律師團隊花巨資寫出來的,我們個人在保護隱私上完全被動而且勢單力薄。如果有了小數據,這下我們從被動變主動。你企業要用我小數據,好,沒問題,數據是我的,我控制能給你什么,不能給你什么。比如你問我喜不喜歡這輛新車,我告訴你我喜歡,但我不告訴你我年齡和家里存款。同時外部使用我的小數據是有前提的,如果醫療健康類企業,要知道我身高體重,沒問題,需要根據我制定的規則辦事,你要”I Agree”我的數據使用條款,不能到處傳播。同時,還規定使用時間和使用范圍,比如給你3個月只能用于某個特定醫療設備研究,用完就得永久刪除,否則被我小數據監測到,可以依照里面的法律條文,咱們法庭上見。 小數據讓個人作為個體信息的真正擁有著,通過小數據,制定個人信息的使用范圍和授權,以及監督機制。任何企業組織甚至政府,都要事先同意遵守我定的規則才能使用。
設想有個名人想要美國總統奧巴馬約個吃飯時間,他該先和白宮辦公室聯系,同意白宮辦公室的條件:不能和外界事先透露總統行蹤后。同時,白宮只能跟回答比如說晚上7點總統有沒有空,喜不喜歡吃牛排,而不是把總統的全部的行程安排包括總統吃什么藥片都告訴對方,這個可是最高國家機密。小數據讓你享受總統待遇,你的個人信息就是你的小數據王國里的最高國家機密。
小數據還能做到絕對隱私, 比如那天你累了想徹底清凈一段時間,或者你要和情人老婆老公有私人空間,你跟小數據系統下指令,徹底停止所有個人數據監測,這下就清凈了,你在數據世界就真的有一段時間人間蒸發了。
2. 對統一全面管理分析個人數據的巨大需求。
小數據的產生還有一個主要原因,對統一全面管理分析個人數據的巨大需求。信息時代,我們被鋪面而來的信息狂轟濫炸,我們面對的問題是信息太多,不是太少。我們最大的挑戰是如何能快速,方便,一目了然的定位有用的信息,如何從紛繁復雜的數據中提煉出有價值的信息,從而真正解放個人,讓自己多點時間去思考,去創作,多陪小孩家人,多去體驗生活。小數據通過對個人信息的全面收集,反饋,整理,分析,能提供最貼心的數據服務,提供最有價值的決策支持,甚至比你還了解你自己。 你問問奧巴馬誰最了解他,答案不是他太太還是他父母,一定是白宮工作人員。
我舉個親身體會的很小的例子來說明未來小數據的價值。 紐約這邊水表都實現電子自動讀數,隔幾個小時家里的水表自動發送數據到自來水公司,可以上網查看。這個是個很原始很簡單的數據,看起來沒有任何價值。有天,我突發奇想,用大數據的思維,把這些數據下載下來,結合我家的出行旅游時間記錄,發現了個問題。這水表顯示沒人在家的時候繼續不斷地用水,3年來一直如此。 我進一步挖掘,把家里每天使用水的大概時間拿來對照,最后斷定,一定是某個地方悄悄的持續的漏水。經過排查,終于在不經常去的地下室洗手間里的抽水馬桶蓋子里,找到一個閥門沒旋緊,從這里漏水直接進下水道。3年多來從來沒被發現。如果沒有數據分析,這么隱蔽的地方不可能被發現。 我計算一下,這3年來這個閥門浪費了600多美金的水費,如果我在這里住10年,這個簡單的數據分析就能省下我2000美金的無端水浪費。 這個就是小數據的個一個很簡單的案例。我進一步把我可以找到的個人數據:當地溫度歷史,電氣水歷史用量,財務數據,健康數據,統統有機結合起來(當然數據收集廢了好一番功夫)。這個很原始的小數據給我展現出我從來沒有看到過的一面,在我決策過程中提供非常多有價值的分析。而這只是一個雛形,一個開始,如果有成熟的小數據系統,真正全面的把個人全部數據有機結合起來, 其能發揮潛在價值不可估量。
小數據和大數據有者本質的區別,雖然以創造數據價值為目的思維和大數據是相類似的,但是在具體方式上,還有以下幾點不同
1. 數據處理方式:大數據強調標準化,只有數據標準化,才能大規模采集,以后的數據處理概率統計才有了可能。可是數據一標準化,就失去了其數據產生時的特性和背景 。而小數據的用戶數據的最大特點,就是來源和使用者是同一個人,只不過存和取時間和背景不一樣而已,這就讓數據標準化失去存在的理由。為什么要用標準化來抹去我對數據的主觀色彩呢和背景呢。比如我說“喜歡吃的這家店的臭豆腐”。這個信息,存在我小數據的數據庫里,不能單單只存標準數據:比如時間,臭豆腐形狀臭豆腐店地址等。這些還不夠,還要把我喜歡的程度和重要性:是非吃不可否則活不下去呢,還是一般的喜歡過兩天就忘記了。還有當時的語境:是我陪老婆去吃她喜歡我也跟著喜歡,還是我恭維臭豆腐店老板,因為他是我一個朋友呢。這些都是小數據需要處理的信息, 而大數據的標準化方式是無法做到的。
國外這方面已經有初步的研究, Dr. Ofer Bergman 在2003年最先提出“用戶主觀方式”(User Subjective Approach )來存儲個人信息。2009年他在這方面開創性研究在美國信息技術學院(American Socieity for Information Science and Techonology )一發表獲得極大轟動。 被美國圖書館協會(The American Library Association)評為當代十大科技前沿的研究方向之一
2.人的作用:在大數據模式下, 數據從人身上產生被收集后,接下來的數據處理分析,就再也跟數據的主人無關了。而在小數據里, 所有數據都是圍繞一個人, 所以人在系統的發揮中心的作用。就比如說白宮團隊再怎么龐大,都要根據總統的旨意,很多重要決策,還得總統拍板定奪。雖然小數據里不可避免要使用人工智能來提供幫助, 但是人工智能如今發展還沒有大的跨越,遠遠不能勝任代替人腦的作用。這個有利有弊,壞處就是人還要不時的參與決策。好處就是,使用者比較放心,因為這些數據就是你的全部信息,你放心讓一個人工智能代替你做重要決定嗎?要我選,我還真不放心,我選擇后者。
3.其他數據性質的區別:比如是小數據數據量相對比大數據的數據量小。小數據對數據不全部需要快速反應,比如說你的膽固醇,一個月收集分析一次就夠了,而大數據對數據的反應要快。小數據更加注重非結構化數據的之間的關聯,重深度挖掘, 而大數據重在包容所有個體的數據重在廣度。
綜上所述,小數據不是簡單大數據的小型化,而是大數據的補充和延伸
小數據解決大數據無法克服的保護個人隱私矛盾。在主動保護個人隱私的同時,小數據提供給大數據最直接數據傳輸,避免了大數據的重復收集和模糊預測,提高數據使用效率和價值。同時小數據利用全面的個人數據優勢,結合外部大數據,提供給個人最個性化,最獨特,最有價值的數據服務。
Amazon的名言“最成功書籍推薦應該只有一本書,就是用戶要買的下一本書”,即使大數據的先行者如Amazon,預測用戶要買的下一本書并不容易。它最多能根據你在amazon的交易記錄,和有限的片面的個人信息來模糊預測。如果有小數據,身為最了解主人的個人數據系統,amazon只要跟個人小數據接口查詢:”你的主人最有可能買下一本書是什么?”小數據先查查主人設定,是否同意和amazon交流,在不泄露個人重要隱私的前提下, 做完個人分析,看看主人最近最關心什么,最需要什么類知識,列出主人最有可能買的1本書,告訴amazon。 第二天,主人一開門,發現門口擺了一本自己最需要的書,上面寫著:“Amazon通過和您的小數據系統交流,得知您最可能需要這本書,把書給您送來了,需要就拿去,我會跟你小數據系統結賬?!?多方便,多和諧的一個過程啊。
再拿一個大數據里被津津樂道的一個案例來說, Target 超市用孕婦懷孕可能購買的商品用戶購買記錄,通過構建模型分析購買者行為的相關性,能推斷出孕婦的具體臨盆時間。這是在大數據模式下。 如果大數據和小數據配合,小數據在主人授權下,直接把主人臨盆告訴Target的大數據不就得了, Target可以根據接受的小數據的臨盆時間,加上小數據愿意透露的主人年齡和對商品的個人偏好,能更加準確無誤預測個體的購買情況。這其實已經超越預測,應該叫洞察了把。
大數據很多時候被運用在廣告投放的目標客戶的分析上:到底這個廣告對這個人來說,是雪中送炭還是讓人討厭。大數據時代這只能從用戶以往的購買歷史,旁敲側擊。然而在小數據時代,小數據直接告訴大數據, 主人喜歡這個品牌那個顏色,如果不是符合主人口味的廣告,就不要來騷擾。在這種精確無誤的洞察,就好比給決策者一個清晰透視未來的水晶球。用戶,企業和政府可以最大限度的的利用大小數據的配合,進行所有的數據活動:個人財務投資分析,個人健康監控,個人疾病治療,企業策劃營銷,企業戰略分析,政府宏觀調控,公共衛生安全防范,預防犯罪等等。
小數據和大數據的完美結合,必將讓市場營銷人員, 理財投資分析師(對不起啊,我的同行們, :-)),房地產中介,醫生, 律師等等專業服務人員全部失業。 可以這么說 ,大小數據,雙劍合璧,天下無敵。
小數據還有一個意想不到,卻讓人想想就睡不著覺的用途:數字永生!
小數據精確記錄從出生到死亡,無時不刻,細致入微的所有細節,它就是數字化的你,是你在虛擬世界最真實的數字投影 。你的世界被數據化了, 因此復制你的世界成為可能。 這就涉及到人類永恒的夢想:永生。 肉體的永生還有待科技水平的提高,但是數字化個人的永生,在小數據時代就變成可能。你的小數據,就是你在數字世界里最真實的載體,即使肉體的消失,你的小數據還能依據一生的數據歷史分析,可以對外界信息做出反應(當然這個反應只能是依照歷史,不能主動創新,否則就可怕了)。對于別人來說,你的數據載體,將永恒的停止在肉體消失的一刻。 如果思念一個逝去的親人,你可以和她留下來的小數據聊天,問她問題,向她傾訴,聽她講她的過去,小數據會根據歷史記錄,最完整的呈現出逝去的親人的一舉一動一顰一笑,包括她所說和所做的,甚至推斷出她所想的。如果未來機器人和人體仿生的的進一步發展,制造出一個一模一樣的人作為小數據物理載體也不是不可能。這個是不是想想就讓人激動不已!
1.個人數據處理的進一步研究和開發。雖然“用戶主觀方式”(User Subjective Approach )來存儲個人信息是一個重大突破,但其研究也只是理論上的初步構架,到真正實現還要有一段時間,需要科學家進一步探索和完善,加快其現實的運用。同時,國家要把小數據和大數據一樣,作為國家的戰略核心資產來投入和研發,并在法律法規上保駕護航。
2. 安全保護,小數據如果安全不到位,這個問題大了,這個好比在數據世界被人綁架了。所以小數據對安全級別要求很高,這不是一個企業組織有足夠的信譽和能力能做到的,需要提到國家層面,需要國家統一規劃。但是即使在很高級的安全保護算法里,只要是算法,都會有漏洞,所以,人的參與就成了擬補算法漏洞的法寶。
3. 人工智能在小數據系統里占有至關重要的作用,在白宮里的地位相當于總統辦公室主任,整體處理白宮各個方面大小事務。人工智能的發展至今裹足不前,需要國家把它提升為戰略地位進行科研開發和投入。
人,是一切數據存在的根本。人的需求是所有科技變革發展的動力??梢灶A見,不遠的將來,數據革命下一步將進入以人為本的小數據的大時代。
演講者:蔡凱龍,注冊金融分析師(CFA), 金融風險管理師(FRM), 金融和計算機雙碩士,金融博士生,互聯網金融專家?,F于德意志銀行美國戰略科技部,點石資產管理公司(DeStone Captial Management)的創始人合伙人兼任投資總監,曾任美國能源公司MXEnergy風控經理,擔任休斯頓大學商學院金融系助理教授(Adjunct Professor),出國留學前在廈門開元期貨當交易員。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25