
大數據只做三件事:用戶、信息、關系理解
大數據這個概念提了好多年。每次提到大數據的時候,都是個性化、精準化,大家能想到的就是這些。在很多年前,IBM和很多大互聯網公司都在提這個話題。但是它真正產品化或者商業化的價值,是在2011、2012年以后才有了爆發性的增長。
它有一些原因:
第一個是這兩年確實是隨著社會化媒體的普及、數據的量爆發式的增長。大家每天在網上分享的文字、圖片、視頻,它的數據的規模要超過我們歷史上任何時期。有價值的信息也越來越多。歷史上,很多年前大家上互聯網,信息無非就是各種網頁,小網站、大網站。信息的價值不像現在這么充分?,F在太多的信息反映了各位的動機或者各位的興趣特征。比如說我兒子三歲,我經常會發我兒子的照片,發一些養孩子的心理感受。結果他就曝露了我興趣的方向。這對我們數據的應用會很有幫助。不像以前你頂多看各種各樣的網頁,各家的網頁也沒有辦法統一做大數據的分析。
還有一個比較重要的一點,也是我感觸比較深的一點是開放。我們以前提到個性化,大家聽過最多的有關大數據的案例就是沃爾瑪的尿不濕,那就是大數據的雛形,如果我們把這個數據運用到網站說,大家想到最多的就是隱私。因為你的興趣愛好觸犯了我的隱私。但是現在微博、Twitter,facebook,很多社交化媒體的典型特點是開放的。QQ和微博最大的區別是,QQ的關系鏈,你的朋友是誰,大家是不知道的,前提是這是你的隱私。但是微博,你收聽了誰、關注了誰,你發的每一條微博所有人都看得到。你使用這個產品,相當于你簽了一個協議,我要開放。不能說你在這個基礎上做一些數據的應用是侵犯隱私,這個在理論上是不成立的。因為每個人的特征,哪怕技術不去做,我們用肉眼把你的微博拉下來看一下,也大概能看一下你的領域,或者你的興趣。這也給我們做大規模數據挖掘應用提供了一個非常大的前提。隱私的問題在產品形成之前就解決了。
我這里簡單列了一下微博的數據情況,我們每天發的微博,還有圖片,現在都是以數百億的來計算。這里面有一個,除了你發微博本身,還有一個重要的就是社會網絡,就是你的人際關系。在QQ的時候是沒有辦法做分析的,因為他是有隱私的。但是微博非常好的一點,你的社會關系我們可以很放心的來使用。因為是公開的。在騰訊微博這樣一個產品里面,你會發現社交關系的數量達到了三百億的量級。這里面有一個傳播路徑,你發了一條信息,它的傳播的可能性軌跡,達到了萬億級別的路徑。這就是一個很大的大數據。大家很難想象,微博這樣一個產品,這樣大的一個產品體系里面,我們擁有近千臺的服務器用來計算,還不是用來做產品,不是用來提供服務,只是用來做離線的計算,運算出各種公式和結果,就需要近千臺服務器。這些服務器和幾年前的服務器性能、規模都有很大的區別,每臺服務器的存儲空間都有數個T,我們有近千臺數個T的服務器做運算。這么簡單的一件事情,就需要近千臺服務器幫助大家運算,你到底跟哪個人可能是朋友,到底跟哪個人是你感興趣的領域。在那天地震的時候,我們快速的分析出,運算一下現在有哪些地震情況,還是蠻有意思的,地域的分布,這些都是大數據的運用。大數據有兩大類數據可以用。第一類是微博里面非常重要的,你發表、收聽和關注這些全都是公開的。有一部分影視數據是典型瀏覽行為。這部分還是牽扯到應用情況。所以用的謹慎一些。
大數據能做什么?我們那么多地方探討大數據,無非總結下來就做三件事:
第一,對信息的理解。你發的每一張圖片、每一個新聞、每一個廣告,這些都是信息,你對這個信息的理解是大數據重要的領域。
第二,用戶的理解,每個人的基本特征,你的潛在的特征,每個用戶上網的習慣等等,這些都是對用戶的理解。
第三,關系。關系才是我們的核心,信息與信息之間的關系,一條微博和另外一條微博之間的關系,一個廣告和另外一個廣告的關系。一條微博和一個視頻之間的關系,這些在我們肉眼去看的時候是相對簡單的。
比如有條微博說這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來。但是用機器怎么能看出來這是一件事,以及他們之間的因果關系,這是很有難度的。然后就是用戶與用戶之間的關系。哪些人你愿意收聽,是你的朋友,哪些是你感興趣的領域,你是一個音樂達人,你是一個吃貨,那個用戶也是一個吃貨,你愿意收聽他。這就是用戶與用戶之間的關系理解。還有用戶與信息之間的理解,就是你對哪一類型的微博感興趣,你對哪一類型的信息感興趣,如果牽扯到商業化,你對哪一類的廣告或者商品感興趣。其實就是用戶與信息之間的關系,他無非是做這件事。
大數據說的那么懸,其實主要是做三件事:對用戶的理解、對信息的理解、對關系的理解。如果我們在這三件事之間還要提一件事的話,一個叫趨勢。他也是關系的一種變種,只是關系稍微遠一點,情感之間的分析,還有我們政府部門做的輿情監控。他可以監控大規模的數據,可以分析出人的動向。在美國的好萊塢,這兩年也是基于FACEBOOK和TIWTTER的數據來預測即將上映的電影的票房。他也是一個趨勢的分析,只是我們把這個趨勢提前來。核心就是這三件事。
為什么要講這些呢?
因為這些在我們新版里面都有很充分的體現。我們的新版要做什么。新版核心是要做提高閱讀效率這件事。微博本身的形態就是很碎片化的。這個碎片化還不是因為大家上網的時間碎片化,我指的是信息的碎片化。微博就是那一百來個字,你收聽、關注了哪些人都是很隨機的,你看信息是非常零碎的。你看到一件事情的時候基本上不可能在微博上看到它的全貌。一個人說了幾句,金三胖真過分,又抓我們漁民,你能知道這件事是什么嗎?你要想知道這件事是什么。高端的人還可以搜一搜,倒騰這件事。對于一些小白來說,他根本不知道這件事是什么。新聞門戶這個時候就很重要。新聞門戶我點來點去,他大概就能看出這件事是什么。這和產品本身有關。但是也和這兩年隨著大家上微博越來越多,信息爆炸、信息過載有關?,F在我收聽了一千多號人,如果十分鐘不看的話,就一定是一百條以上沒有看。有很多我關注的信息也可以遺漏在這一百條,或者幾百條信息里面。幾百條里面有大量的營銷、笑話、段子,我很感興趣的我的前女友的動態就被這些段子埋沒進去了。但是我的前女友又不太活躍。她甚至一兩個星期才發一條微博,基本上很難看得到。這就是我們微博產品本身的特點。所以我們通過幾個功能來解決信息獲取的效率。第一個是從內容的角度對微博進行分類,我們的頻道是通過內容的角度把內容歸類,把優質內容提取出來。微熱點也是從內容的角度把內容進行分類。廬山地震,別人只提了幾個字,在你的頂欄里面就會出現廬山地震的內容,這是對內容進行分類。第二,從人的角度把信息分類,我們新版會推出一個東西,叫微圈,他是智能的分組。尤其是我們這些比較活躍的人,你可能收聽了八百、五百人,你有沒有耐心一個一個的分一個組?這是很難的,大部分人不會做這件事。所以我們是智能的分組,你什么都不用管,直接幫你分好。我的前女友我可以建一個前女友群,我要看她的消息,我就點到那個群里,可以分類的看這些人的動態。
舉一個對用戶理解的能力,大家都知道李開復是這樣的,大家都知道他在微博里面有這么多我們可以分析的技術的點。這些點牽不牽扯到隱私?你去他的網頁上看一看也可以得到這些結論。只是這么多的點,你能不能憑應用分析出來。
最后再總結一下大數據是干嗎的。
這兩年再怎么提大數據,它和歷史上出現的許多技術一樣,它只是一種能力和技術而已,只是一種工具而已。只是這兩年由于數據規模的擴大,以及基于大數據誕生了很多新的產品和商業化的形態。所以我們才這么火的來提它。其實它還只不過是一種工具而已。我們的總結是基于大數據解決用戶的需求,提供一種最優質的服務才是最終目標,大數據只是工具而已,并沒有那么懸。
在目前為止,基于大數據的應用大都還局限在商業化為主。更多的還是提怎么做精準廣告,怎么做商品推薦,怎么做這些這些。真正敢把它做產品化的還比較少。因為所有的大數據這些智能的東西都有一個特點,不是百分之百的準確率。不像你要做一個什么樣的產品功能,按紐放哪就放哪,不會有錯誤。大數據的特點是它只能做到一定的準確率,你敢不敢產品化,取決于你對這個能力的準確度提高到什么程度。就以我們這次微圈舉例,或者以微熱點舉例,如果你把一個用戶智能分組只能準確到50%、60%。結果是適得其反的。你把熱點的聚類聚在一起,并且和你主頁上的信息匹配的時候,你的準確率敢不敢做到80%、90%以上?這就是為什么我開始跟大家講大數據。其實就是第一次我們也是大規模的把大數據這種技術的能力和騰訊對數據獨有的數據規模的優勢應用到產品中去。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25