熱線電話:13121318867

登錄
首頁精彩閱讀大數據只做三件事:用戶、信息、關系理解
大數據只做三件事:用戶、信息、關系理解
2016-09-26
收藏

大數據只做三件事:用戶、信息、關系理解

大數據這個概念提了好多年。每次提到大數據的時候,都是個性化、精準化,大家能想到的就是這些。在很多年前,IBM和很多大互聯網公司都在提這個話題。但是它真正產品化或者商業化的價值,是在2011、2012年以后才有了爆發性的增長。

它有一些原因:

第一個是這兩年確實是隨著社會化媒體的普及、數據的量爆發式的增長。大家每天在網上分享的文字、圖片、視頻,它的數據的規模要超過我們歷史上任何時期。有價值的信息也越來越多。歷史上,很多年前大家上互聯網,信息無非就是各種網頁,小網站、大網站。信息的價值不像現在這么充分?,F在太多的信息反映了各位的動機或者各位的興趣特征。比如說我兒子三歲,我經常會發我兒子的照片,發一些養孩子的心理感受。結果他就曝露了我興趣的方向。這對我們數據的應用會很有幫助。不像以前你頂多看各種各樣的網頁,各家的網頁也沒有辦法統一做大數據的分析。

還有一個比較重要的一點,也是我感觸比較深的一點是開放。我們以前提到個性化,大家聽過最多的有關大數據的案例就是沃爾瑪的尿不濕,那就是大數據的雛形,如果我們把這個數據運用到網站說,大家想到最多的就是隱私。因為你的興趣愛好觸犯了我的隱私。但是現在微博、Twitter,facebook,很多社交化媒體的典型特點是開放的。QQ和微博最大的區別是,QQ的關系鏈,你的朋友是誰,大家是不知道的,前提是這是你的隱私。但是微博,你收聽了誰、關注了誰,你發的每一條微博所有人都看得到。你使用這個產品,相當于你簽了一個協議,我要開放。不能說你在這個基礎上做一些數據的應用是侵犯隱私,這個在理論上是不成立的。因為每個人的特征,哪怕技術不去做,我們用肉眼把你的微博拉下來看一下,也大概能看一下你的領域,或者你的興趣。這也給我們做大規模數據挖掘應用提供了一個非常大的前提。隱私的問題在產品形成之前就解決了。

我這里簡單列了一下微博的數據情況,我們每天發的微博,還有圖片,現在都是以數百億的來計算。這里面有一個,除了你發微博本身,還有一個重要的就是社會網絡,就是你的人際關系。在QQ的時候是沒有辦法做分析的,因為他是有隱私的。但是微博非常好的一點,你的社會關系我們可以很放心的來使用。因為是公開的。在騰訊微博這樣一個產品里面,你會發現社交關系的數量達到了三百億的量級。這里面有一個傳播路徑,你發了一條信息,它的傳播的可能性軌跡,達到了萬億級別的路徑。這就是一個很大的大數據。大家很難想象,微博這樣一個產品,這樣大的一個產品體系里面,我們擁有近千臺的服務器用來計算,還不是用來做產品,不是用來提供服務,只是用來做離線的計算,運算出各種公式和結果,就需要近千臺服務器。這些服務器和幾年前的服務器性能、規模都有很大的區別,每臺服務器的存儲空間都有數個T,我們有近千臺數個T的服務器做運算。這么簡單的一件事情,就需要近千臺服務器幫助大家運算,你到底跟哪個人可能是朋友,到底跟哪個人是你感興趣的領域。在那天地震的時候,我們快速的分析出,運算一下現在有哪些地震情況,還是蠻有意思的,地域的分布,這些都是大數據的運用。大數據有兩大類數據可以用。第一類是微博里面非常重要的,你發表、收聽和關注這些全都是公開的。有一部分影視數據是典型瀏覽行為。這部分還是牽扯到應用情況。所以用的謹慎一些。

大數據能做什么?我們那么多地方探討大數據,無非總結下來就做三件事:

第一,對信息的理解。你發的每一張圖片、每一個新聞、每一個廣告,這些都是信息,你對這個信息的理解是大數據重要的領域。

第二,用戶的理解,每個人的基本特征,你的潛在的特征,每個用戶上網的習慣等等,這些都是對用戶的理解。

第三,關系。關系才是我們的核心,信息與信息之間的關系,一條微博和另外一條微博之間的關系,一個廣告和另外一個廣告的關系。一條微博和一個視頻之間的關系,這些在我們肉眼去看的時候是相對簡單的。

比如有條微博說這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來。但是用機器怎么能看出來這是一件事,以及他們之間的因果關系,這是很有難度的。然后就是用戶與用戶之間的關系。哪些人你愿意收聽,是你的朋友,哪些是你感興趣的領域,你是一個音樂達人,你是一個吃貨,那個用戶也是一個吃貨,你愿意收聽他。這就是用戶與用戶之間的關系理解。還有用戶與信息之間的理解,就是你對哪一類型的微博感興趣,你對哪一類型的信息感興趣,如果牽扯到商業化,你對哪一類的廣告或者商品感興趣。其實就是用戶與信息之間的關系,他無非是做這件事。

大數據說的那么懸,其實主要是做三件事:對用戶的理解、對信息的理解、對關系的理解。如果我們在這三件事之間還要提一件事的話,一個叫趨勢。他也是關系的一種變種,只是關系稍微遠一點,情感之間的分析,還有我們政府部門做的輿情監控。他可以監控大規模的數據,可以分析出人的動向。在美國的好萊塢,這兩年也是基于FACEBOOK和TIWTTER的數據來預測即將上映的電影的票房。他也是一個趨勢的分析,只是我們把這個趨勢提前來。核心就是這三件事。

為什么要講這些呢?

因為這些在我們新版里面都有很充分的體現。我們的新版要做什么。新版核心是要做提高閱讀效率這件事。微博本身的形態就是很碎片化的。這個碎片化還不是因為大家上網的時間碎片化,我指的是信息的碎片化。微博就是那一百來個字,你收聽、關注了哪些人都是很隨機的,你看信息是非常零碎的。你看到一件事情的時候基本上不可能在微博上看到它的全貌。一個人說了幾句,金三胖真過分,又抓我們漁民,你能知道這件事是什么嗎?你要想知道這件事是什么。高端的人還可以搜一搜,倒騰這件事。對于一些小白來說,他根本不知道這件事是什么。新聞門戶這個時候就很重要。新聞門戶我點來點去,他大概就能看出這件事是什么。這和產品本身有關。但是也和這兩年隨著大家上微博越來越多,信息爆炸、信息過載有關?,F在我收聽了一千多號人,如果十分鐘不看的話,就一定是一百條以上沒有看。有很多我關注的信息也可以遺漏在這一百條,或者幾百條信息里面。幾百條里面有大量的營銷、笑話、段子,我很感興趣的我的前女友的動態就被這些段子埋沒進去了。但是我的前女友又不太活躍。她甚至一兩個星期才發一條微博,基本上很難看得到。這就是我們微博產品本身的特點。所以我們通過幾個功能來解決信息獲取的效率。第一個是從內容的角度對微博進行分類,我們的頻道是通過內容的角度把內容歸類,把優質內容提取出來。微熱點也是從內容的角度把內容進行分類。廬山地震,別人只提了幾個字,在你的頂欄里面就會出現廬山地震的內容,這是對內容進行分類。第二,從人的角度把信息分類,我們新版會推出一個東西,叫微圈,他是智能的分組。尤其是我們這些比較活躍的人,你可能收聽了八百、五百人,你有沒有耐心一個一個的分一個組?這是很難的,大部分人不會做這件事。所以我們是智能的分組,你什么都不用管,直接幫你分好。我的前女友我可以建一個前女友群,我要看她的消息,我就點到那個群里,可以分類的看這些人的動態。

舉一個對用戶理解的能力,大家都知道李開復是這樣的,大家都知道他在微博里面有這么多我們可以分析的技術的點。這些點牽不牽扯到隱私?你去他的網頁上看一看也可以得到這些結論。只是這么多的點,你能不能憑應用分析出來。

最后再總結一下大數據是干嗎的。

這兩年再怎么提大數據,它和歷史上出現的許多技術一樣,它只是一種能力和技術而已,只是一種工具而已。只是這兩年由于數據規模的擴大,以及基于大數據誕生了很多新的產品和商業化的形態。所以我們才這么火的來提它。其實它還只不過是一種工具而已。我們的總結是基于大數據解決用戶的需求,提供一種最優質的服務才是最終目標,大數據只是工具而已,并沒有那么懸。

在目前為止,基于大數據的應用大都還局限在商業化為主。更多的還是提怎么做精準廣告,怎么做商品推薦,怎么做這些這些。真正敢把它做產品化的還比較少。因為所有的大數據這些智能的東西都有一個特點,不是百分之百的準確率。不像你要做一個什么樣的產品功能,按紐放哪就放哪,不會有錯誤。大數據的特點是它只能做到一定的準確率,你敢不敢產品化,取決于你對這個能力的準確度提高到什么程度。就以我們這次微圈舉例,或者以微熱點舉例,如果你把一個用戶智能分組只能準確到50%、60%。結果是適得其反的。你把熱點的聚類聚在一起,并且和你主頁上的信息匹配的時候,你的準確率敢不敢做到80%、90%以上?這就是為什么我開始跟大家講大數據。其實就是第一次我們也是大規模的把大數據這種技術的能力和騰訊對數據獨有的數據規模的優勢應用到產品中去。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢