熱線電話:13121318867

登錄
首頁大數據時代袁岳:大數據視野,構筑數據的“一線天”
袁岳:大數據視野,構筑數據的“一線天”
2021-08-05
收藏

編者按:9月11日—9月12日,由經管之家(原人大經濟論壇)主辦的“2015中國數據分析師行業峰會(CDA?Summit)”在北京舉行。本文是零點研究咨詢集團董事長袁岳在峰會上的演講全文,演講的主題是“大數據視野”。他講道:“每個數據擁有者,或者我們每個人都應該致力于把更多的小數據累積起來,從而構建我們在DT時代的數據競爭力,在這個時代獲得更多的數據紅利的能力?!?/span>


袁岳,零點研究咨詢集團董事長


大數據的場子可以容納很多人,像剛才謝教授一樣,他是非常值得尊敬的學者,他參加活動的地方我都去參加活動,我們很好的詮釋了今天的這個宣傳語,大數據既是一個科學,它同時是一個藝術,我重點是代表藝術那個方面的。為什么呢?因為我從初中開始,數理化很少超過60分的。等到我上大學的時候,走一個狗屎運考了84,一直是文科,本科是法律,我的研究生專業是法律,博士的時候是社會學,后來學管理,主要是公共管理,還不是工商管理的,所以我基本的特點是典型的文科男。但是我對數據會有自己的感覺,而且很大程度上,我今天思路的出發點不是從大規模數據的擁有者的前提出發談這個問題,今天講到大數據的時候,其實有兩組人:一組人,是擁有非常大的數據來源,無論是國家統計局,無論是阿里巴巴,無論是京東,它們有很大的數據來源;還有一部分人擁有強大的數據開發能力,比如英特爾、IBM等等。這兩組人結合在一起玩兒大數據,玩大的,其實大數據最大的一個問題,就是很多學了大數據,想用大數據,或者受益大數據的人,在大數據的世界里你所得到的是一些大數據的可能的結果,或者說數據運算以后的東西,絕大多數情況你沒有機會接觸到數據源,甚至你也沒有能力或者資源充分的應用數據工具,這就產生了一個巨大的大數據鴻溝。


大數據鴻溝是在未來DT時代一個最重要的,就像我們以前說的財富鴻溝,大數據鴻溝是區分企業之間,包括個人之間區別的一個很重要的東西。而且在大數據中間我們很多人是應用了大數據的結果,請注意大數據本身是可以操縱的。也就是說,我運算出來一個大數據,因為里無法接觸數據源和大規模應用核心的大數據,所以你只是接受了一個結果,只是人們用了大數據的結果,所以你在用的過程中本身就可以被操縱了。所以作為一個做民意研究出身的專業人士,我們有一個重要的問題,實際上我們用的數據只能是大數據源,就好像你用阿里巴巴數據,其實不能直接給你用的,無論你是學者或者什么,用的機會非常少。所以我們在過去的這么多年來一直在探討,就是如何我們可以使用上,可以慢慢的增大的數據。


今天我們所說的大部分數據是大數據來源整合的大數據,而我們致力于要解決的,如果沒有大數據,如何能夠有較大的數據。比如過去,在國家部委給領導當文秘的,給領導寫報告,廣大群眾一致認為,這句話就跟大數據一樣。我們會問領導,一個人都沒問過,怎么叫一致認為呢。領導說,不用問,我們代表他們。同樣的道理,我們為什么做民意調查,或者做社會調查,它的特點是挨個搜集極微小的數據,累積一定規模量的數據。這個小的數據建立在單個人意見的行為,但是累積更多的數據庫分析的時候,它就比單個的數據庫更大,所以在這個意義上來說數據大小不是一個絕對的概念。就像阿里巴巴平臺上所有的數據,但是它不能跟京東的平臺數據簡單的整合分析。所以阿里巴巴數據可以看做是一個單一數據,所以這方面來講是一個小數據。就像國家統計局說我的數據是準的,有的學者說不準,統計局說你拿一套給我看,沒有。所以在這個意義上來說,大的國家統計的數據在單一來源上說它也相當于是一個小數據,因為沒有多元可印證的數據來源。明白了這一點,我個人認為大數據在今天多元數據的意義重于數量意義上的大!明白了這點之后,我們來探討,數據的廣或者說我們今天大部分說的數據,其實中國銀行過去有很多數據,但是中國銀行的信用數據你能隨便調用嗎,只有中國人民銀行能調用;阿里巴巴能調用人民銀行的數據,人民銀行調用阿里巴巴的數據嗎,都不行。所以我們看起來有很多個人很大的孤島,所以數據不連接的意義上,你稱其為大,就會導致在孤島意義上的大。所以孤島意義上的大,在大數據的視野中是小的,所以這是我給大家的第一個核心要強調的概念。



所以在這個意義上來說打破數據庫的,比如說在每個公司里,像萬科夠大,它是在住宅房地產中間最大的公司,但是萬科如果到某一個分公司會發現,它的分公司的數據都是互相不互通的,像銷售數據和物業管理部門的數據,和它財務掌握的相關的業務數據,它們數據互相之間是不連通的。也就是說,萬科本來是一個單一數據源在一個單一數據源里面它的數據本身都還是一個信息孤島。所以我們會看到信息孤島現象很嚴重,你說政府數據不公開,你到政府里面發現發改委不知道人事部的數據,人事部不知道發改委的數據,其實這兩個部委之間互相是孤島。


我們說發改委,發改委重大項目辦的數據和下面另一個部門之間的數據也是不共享的,所以在小孤島里還有微孤島,所以整體的就是一個看起來表面上是一個挺大的數據源,其實這個數據源很關鍵的時候只是滿足,領導比如說,我們總理說,你多長時間把這個數據整合出來,它很快的整合出來解決了這個問題。這就是我們常規運行的時候,這個孤島的狀態比我們想象的嚴重、普遍和廣泛的多。所以在這個意義上來說,我們今天站在一個非?,F實的推動數據工程前進的角度來說,打破孤島,孤島是這個工作的一個很重要的組成部分。



我們現在講的所謂的孤島,是從大的角度來說,我們現在有很多的,比如有信用數據,有銷售數據,像我們合作做的,幾乎所有的電商平臺,只要能夠呈現在頁面上的數據,我們全部能夠抓取。但是抓取的全是前臺數據,只要是后臺的,關于支付的數據,在后臺的服務數據,你就很難抓取,因為后臺你不能簡單說它不能呈現出來。所以前臺獲得的數據意味著我獲得了跨平臺的數據,但是后臺的拿不到,某種意義上我只有一部分數據,而沒有全面的數據。阿里巴巴提出來說你用我們的數據,你就可以知道什么東西好賣,所以你的研發和產品等等可以往這個方面努力,故事真的是這樣嗎?不是的。因為阿里巴巴只有單一來源的數據,而且這個單一來源數據有一個很重要的特性,就是今天在淘寶和天貓上賣的絕大部分是傳統化產品,這個按照雷軍的說法,如果今天非常好符合互聯網時代的,符合互聯網眼光消費者的產品,它的特點是什么,消費者會尖叫。所謂尖叫的意思是說你的行為痕跡,和你的行為趨向表現出你好像有往那個方面要東西的傾向的時候,有人把握你這個傾向,把這個產品做出來了,你說噢,已經有了,這個時候你會尖叫。但是你在淘寶待半天,你不叫,為啥?因為都是你看過的。


所以我們今天最重要的問題是,如果你在一個平臺上,這個平臺本身擁有的東西并不是人們的理想的選擇,它反映的是人們無奈的選擇,所以無奈的大數據本身不能供應理想。就像說在黑暗的舊社會里,自然的產生共產主義,十月革命才送來了什么什么。就是人們真正理想的東西不止是在黑暗摸索出來的大數據,我們的大數據是如此之大,以至于像黑暗本身一樣。所以你有那么多統計學數據,有那么多淘寶數據,它依然代表著黑暗,只是大而已。所以在這個地方大數據本身獲得光明,數據的特性和數據交互中間給我們提供的縫隙,就像我們在黃山看到一線天,它不是大數據,是小空間,但是它是代表光明的。這意味著我們看到的這些巨大的數據中間,我們在尋找中間的一線天,而且有些數據本身還不是由大數據本身提供的,就像我剛才說大數據表現人們多么的無奈,但是很可能那道光線是由設計師和在黑暗中間摸索的這些消費者的交互中間產生的,這就是小米提供的MIUI系統說,如果能讓鐵桿粉絲,發燒友跟我們參與互動的話,我們在互動中間發現了怎樣產生一個大家滿意的產品的方式。其實之前小米并沒有大數據。當然有大數據更好,因為把你那線光明在黑暗的陰沉中顯得多么的更加的奪目的光明。我說的這個不像謝教授,這是不是更像藝術青年說的,所以叫大數據藝術。


但是這個問題在于什么?有的時候光明不是只有一線天,有一線天就簡單了,問題是有的時候有八線天,這些進來哪個是合適的?所以這個時候大數據,如果把數據充分整合的情況下,它幫助我們在判斷方向和特性的時候,有相當的幫助,這就是為什么對今天來說,做一個大數據非常認真的工作就是認真的積累小數據,它來自不同的地方,它可能來自于論壇,可能來自于專項調查,可能來自于用戶的投訴,可能來自于扒取某方面的數據。所以多元數據的觀念,讓我們知道任何一個個體,我們在生活中任何一個個體,你甚至去了很多不同的互聯網的終端,你在不同的地方,都可以累積不同的信息。有的地方,比如有的人只去一個地方,有的人去了三個地方,但是有些人從來不累積,從來不用大數據方式進行整合,所以即使很小的東西,當你每次累積,隨著數據量擴大大數據累積,尤其數據能貫通的話,就為你提供看見一線天不同的方法。


我們零點做了23年的調查公司,我們從累積的角度來說,我們差不多有20萬個不同的項目。當我們把這些不同的調查項目的數據,比如說汽車的研究、內褲的研究這好像沒有什么關系。你發現在十年前,你在五年前,再到現在你發現穿什么內褲跟開什么車有密切的關系,就是生活方式改變了,在貧困和物質缺乏的時代,人們選擇東西是湊合的,生活是各種湊合的堆積。在理想化的時代,生活方式他們是一致的。你看一個人開吉普車和穿內褲有相同的價值觀,這里面有內在的關聯性。


那個時候他們覺得我們做所有的調查是在不同方面的,但是你可以拼接出來不同的生活方式的圖景將是什么樣的。我們建立新數據立方的系統,不斷的貫穿比如說啤酒、健康、家庭理財,我們發現不同的人群生活方式和他匹配的價值觀模式都有差別。從而對我們對他們提供不同的產品研發和新產品前進的思路,以及尋找可以整合合作的差異化的品牌、差異化領域的合作伙伴提供了很強的依據。


站在我們的角度是這樣的,我們回到一個企業的時候,一個企業里面有很多數據。我覺得不同的部門也有不同的數據,這些數據基于過去保密的原因和工作的原因形成孤島,我們現在的工作就是把孤島打穿,把這些小的孤島之間再打穿變成一個中型的大數據,我們把這樣的數據叫做中數據工程。其實大家對做中數據是一件非常重要的事情,我們零點做了數據立方以后,我就具有籌碼,我們就存在數據交換的機會。如果你沒有任何的數據資源,我們要用你的數據,除非有一些學者因為公益的原因,在大部分情況下如果你沒有真正可消化的數據資源,你可能就沒有機會來使用。


所以今天我們站在個體中間普通擁有的中數據,我們可以用來數據交易和數據合作的前提和基礎,這也是我們非常重要的工作。我們零點除了用大數據之外,還幫助客戶打產微和小的數據孤島,從而形成中數據的級別。一旦那個數據孤島打破之后,原來我們做的市場調查是孤立的市場調查,由于數據被充分的挖掘出來了,我們根據數據中心解決用戶需求的能力,如果我們匹配在一起看的時候。過去我們是角度做一個什么選擇了,現在我們通過內部的數據,給你提出典型的方案充分考驗你的能力水平,以及你需要做的能力建設方案,這樣變成一個更加可行的解決方案。


為什么過去我們做產品創新,外部滿足消費者需求的機會。消費者有很多的需求,但是跟你的能力的匹配度我們很少考慮。如果我們把企業內部的數據和做的外部數據打通,再有專項交互數據支持的時候,我們能找到創新的方向,我們也能夠知道你的能力有支撐的空間。以及如果我們把你的產品創新的方向和其他關聯的合作伙伴和品牌,跟他們的方向相整合的時候,我們可以找到更多的資源。


很多產品在生活方面不見得是主導的,但是你明白生活方式作為一個大數據的價值,你可以參考跟你臨近的產品他們的發展趨向,可以幫你推導,以及支持在你自己的產品和研發方面進行一些工作。


對這些工作,是我們在過去很長時間做的所謂有小數據往中數據,中數據的整合工作從而走向大數據。


事實上,我們今天很大程度上所謂的大數據,很大人講比較多的是在講基于互聯網意義上獲得的大數據。剛才說互聯網大數據分兩大大類別,一個是互聯網本身的巨頭和大公司掌握的數據庫,它基本上是跟合作伙伴有一部分的分享,但是對外部基本是不開放的,它對于比如說像很多有大型能力機構的來說,我們跟大型機構合作來說,剛開始它們不懂挖掘,我們挖掘半天它們把我們的人挖掘過去了。所以像QQ,像騰訊,像阿里巴巴早期的數據,包括百度,我們都做了很多的,最后的結果是我們的人被挖去了。所以我們挖了半天數據把人挖過去了,發現挖人其實比挖數據是更重要的。


所以今天我們再去看網絡上面的數據的時候,現在會看到我剛才說的兩組重要的數據。事實上,今天核心的掌握這些數據的人們會因為他自己把自己的前臺和后臺數據加起來,然后說這是大數據。但是我已經告訴大家了,由于今天我們中國社會的互聯網經歷了兩個很重要的發展階段,第一個是傳播互聯網,第二個是交易互聯網。今天唯獨沒有真正進入的產品本身的互聯網化,這個結果是什么?我們真正有價值的是表面數據,而互聯網數據最大的弱項,就是你即使擁有了整個阿里巴巴數據依然不能告訴你最理想的眼鏡是什么樣的。即使你有了所有京東數據,依然不能告訴你哪一款手環會賣的很火。為什么?因為今天站在非互聯網意義上的那些本身不能告訴你未來,因為他們本身是在便宜貨平臺上形成的便宜貨大數據。所以這是今天茫茫黑暗的大數據,今天的我們的扒取數據能獲得所有大平臺的大數據,這些數據本身不能洞察真正消費者需要的內心的東西是什么,所以今天的方式是通過扒取方法獲取那些平臺的大數據的方法,我們用交互的方式產生一線天、二線天等等的方式,當然我們會來解剖和應用大數據。



大家知道,現在餐飲還是挺火,這也產生了很多數據,這些數據累積起來,我們一方面能認知市場的現象,但是一方面是我們通過更多交互的數據,不同人群的交互人群,能發現哪個人群中的一線天是什么。這樣我們就來提供解決方案,就是基于參與的大數據,但是最終找到在參與中間,什么樣的東西是代表未來。而恰恰這些未來告訴我們,中國正在產生一種非常新的隊伍,這跟以前很不一樣的。比如過去中國的餐飲意識是桌餐的,但是現在正在走向單品化。如果從供應鏈數據中可以看到,像做150個以上的菜的餐館,會發現供應鏈和活躍度是低的,因為它要維護不同的小供應鏈,它的成本又過高,當你做150個菜的時候,你買的香菇太少了,當你做150個菜的時候,你買的牛肉太少了,你就會關注這些供應鏈,之后這些供應鏈會關注你,然后給你談。這些數據沒有我們看起來像海量阿里巴巴那么多,它直接決定了一個企業,你的餐飲如何做,你可能更有未來和前提。


所以在這個意義上,我覺得最后跟大家強調一下,破除對大數據的簡單理解,我認為大數據是從小數據出發,構建中數據多元連接,形成了大數據,或者壟斷型的大數據是超級型大數據,普通人獲得的大數據結果,不是這個的。而真正的大數據的邏輯構建是小數據出發的多個中數據源構成的大數據,所以我們就有交易機會,交易能力,構成了大數據的交易世界。在這個過程中正因為多元所以數據有競爭,因為競爭才有檢驗,因為檢驗才可以優化,而在檢驗和優化之后的數據會重新構建新的小數據,只有新的小數據才能落實成為,作為一個企業,作為一個部門,作為一個實施單元,你做決策時候的支持依據。簡單的說,任何一個具體單位不可能簡單的依靠一個單一來源的,表面上看起來數量很多的大數據支持到你微觀單元的問題。就像一個普通的淘寶店,它也想上幾款走俏的女裝,不能簡單的依靠阿里巴巴底下所有的大數據加以解決,再加上這個數據本身最你那款女裝急需的人群的數據是不掌握的。所以在這個意義上來說,我們所謂大數據實際上進入的是多元數據時代,每個有數據源的人都應該意識到,構建拓展豐富打通這些數據,使這些數據變得越來越大,當它漸漸長大的時候,我們數據交易能力和數據籌碼決定了我們今天在DT時代你真正的地位,你在其中牟利的關鍵。所以每個數據擁有者,或者我們每個人都應該致力于把更多的小數據累積起來,從而構建我們在DT時代的數據競爭力,在這個時代獲得更多的數據紅利的能力。


謝謝大家。


作者:袁岳,零點研究咨詢集團董事長


袁岳:大數據視野PPT http://bbs.pinggu.org/a-1876212.html

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢