熱線電話:13121318867

登錄
首頁職業發展運營商數據量最大但不是大數據_數據分析師
運營商數據量最大但不是大數據_數據分析師
2015-01-04
收藏

運營商數據量最大但不是大數據_數據分析師


2014年3月8日,在大數據領域非常有名的阿里巴巴數據分析靈魂人物車品覺接受了媒體的專訪,就數據領域的問題談了自己的認識,應該對很多正在進行大數據應用的專業人士有很大幫助。 

大數據應用很重要的問題是:關于他的定位

大數據里面有一塊非常重要的數據,而可能對未來的一兩年特別重要,就是我們所講的“關于他的定位”。我想知道一個人是誰?你是不是你?你在PC前面買了一件東西,不一定代表是你買的,有可能是你的老公或者是你的老婆在用你的PC去買,怎么知道到你就是你?這個在收集數據的時候相當重要。

另外,當我知道你就是你的時候?我下一個問題是你在PC或者手機上做了什么行為?以及你在哪里做了什么行為?這個對數據上的還原非常重要,否則的話很多東西是無法還原的。比如說你買這個東西是在公司里面,在移動還是不移動。我現在非常想知道一個人在用手機來買東西的時候,到底他在移動的還是在定在一個地方買東西的,這個數據對我非常重要。所以對一個點上的定位非常重要。

其實整個大數據來講,用一個比較簡單的說法是,當你去看完電影之后的五分鐘,你餓了你想吃東西了,淘點點突然在這個時間給你一個信息說,旁邊有個什么茶餐廳很好吃的,那個時候就是最對的時候,只要你送他一個優惠券可能就會去了。所以你到底怎么樣去利用這個時間點的信息去推送更及時的東西,不一定是廣告,很重要。但是這個首先要知道他準確的地理位置。

當我們講大數據的時候,并不是一堆的數據,實際上是分為幾塊很重要的數據。第一個,你怎么去識別一個人,他就是他?另外一個,你怎么知道他在哪里他在做什么行為?第三個,這個行為是什么?再者,我們想知道他當時的關系是什么?這四種數據對未來很重要的。

過去PC的時代,對數據定位是比較少關注,今天會變得越來越重要。一個數據很有意思,在營銷上的成功率。如果我們拿到準確的當的環境的話,我們會可以增加132%,如果我們很準確的知道人文數據,就是他是男的還是女的還是什么年紀等等,我們可以增長5倍。但是當我們知道他的行為數據的時候,我們就可以增加12倍。這三組數據是以行為數據最容易識別一個人的,但是他做什么之外還要知道他是誰,然后知道他的環境是什么樣。

最重要的東西是三者的交叉。一個三十歲的男生,他在電影院剛出來的五分鐘,他剛去看完電影的這個時候,你猜你應該推送一個什么樣的東西給他,會讓他滿意呢?這個精準性對推送的整個營銷會產生一種倍數增長的作用。

舉個例子:早上的時候,我看見朋友穿了一件T恤覺得挺好看的,所以回到淘寶搜索一下T恤出來1萬個結果,然后我老板在我旁邊說開會,我站起來就去開會了,開會的時候我還是拿個手機過來看看,再搜這件T恤,結果旁邊有個廣告跟我說有個手表很便宜了,就買了一個手表。今天,我們大部分記錄數據的方法,都只會記錄有一個人買了一個手表一百元,但是,實際上整個東西的還原應該是剛才的樣子。早上我的朋友穿了一件T恤我去淘寶搜索,我們不知道他為什么進來搜索,特別他為什么會停下來。但是,我們很多時候分析,會假定他停下來肯定是沒找到東西,其實不一定的,可能旁邊由于環境上的影響,就沒有去再繼續搜索了。后來時間許可之后,我拿個手機出來,問題是這個手機跟PC是沒關系的,還以為另外一個人進來,因為我沒有留下烙印,跳了一個東西出來說這個手表很便宜,已經把我剛才想找T恤的意圖打破了,然后我就去買了一個手表。

整個鏈條中多少的東西無法還原,整個大數據我們說都很清楚了,其實我們也不是很清楚。所以,不要自己騙自己說,大數據什么都知道。很多的數據,事實上都還原不過來,真實的人告訴你的時候你會發現,是這樣的。

昨天我臺下問到樣品數據跟大數據的關系,很多人在鄙視樣品數據了,認為已經有大數據了,沒必要發一個問卷出來問一下人家。但是我覺得,其實我們很多時候是用問卷的方法來找出一些方向,再用大數據來驗證。有時候,大數據里面看到一些數據無法解釋,會找一個問卷來去問問。因為什么?態度是沒有辦法用行為數據來知道的,就是一個人的態度只能在你一對一或者真的是問他的時候才能問出這個態度。所以,用樣品數據可能會找到一些方向,在大數據里面尋找這個可能性的結果。

不要因為大數據出現之后,我們就對小數據或者對樣品數據突然之間就據的很鄙視。沒有必要鄙視的,其實都是一種工具。其實,大數據讓我們用更多的角度來看一件事,并不是萬能的。其實大數據并沒有這么厲害,但是我們在努力,讓大數據能再推到可以服務更多的社會大眾。

心理狀態數據很重要,但用起來很難

我們記錄一個人是偏向于白天買東西還是晚上買東西,買東西的時間點到底習慣是怎么樣?我們也把這個叫做他的心理狀態,當時所買這個東西的心理狀態,我們還沒有到這個層次,但是有些大數據的美國專家已經到了這個層次,他的心理的狀態對這個購買的影響,但是我們沒有到。 

一個數據沒有人的屬性的時候意義小

以前為什么要記錄線下的交易數據呢?因為他想比較,比如說我是聯華,同一個地區我賣的是不是賣少了,他買了一個餅干,這種類別的餅干賣得好不好?你是這種類別的餅干賣得好不好?他們會對一下,這是純粹交易的情況會對一下,但是很難關聯上這個人。

我們走訪一些線下的企業,有些企業居然把自己三年前會員數據丟失掉了,我說三年前的數據能不能拿出來看看,他說沒有了,因為沒有用。識別一個社會學的數據極其重要,否則下面很多數據根本關聯不到這個身上。

在大數據里面,近一年開始有很多人提出來,數據是有生命周期的。如果三年前的數據肯定不如6個月之前的數據重要,如果我想知道你購買的行為的話,因為有可能三年你的購買行為都變了,可能近6個月比較能知道你的行為,三年前的你的購買數據可能是沒有這么有效。

所以一個企業可能要做一個決策,可能八年前數據是不是不要???是不是這樣一直有價值嗎?所以有一個詞是非常重要的,數據隨著時間的推移慢慢價值減低。

我以前曾經表達一個觀點是,數據出來的結果很好,就是能幫我們提升多少的百分比,但是有時候你會發現他不穩定也沒有用的。今天能給你這個效果,明天就不能給你,你的供應貨來源的原料不穩定。所以數據來源也是一樣的,今天來的數據挺穩定的,明天來的數據不穩定的,這樣的數據還是不能用的,在我們放在非常重要的數據是不能用的,比如說你決定借錢給一個人,可能明天數據不穩定,產生出來的傷害更大。 

端到云、云到端整個數據是流動的 

從我個人的理解來講,云有兩個很大的功能,一個是他的計算能力,一個是他的儲存能力。端是終端,手機、PC,將來如果是穿戴,所有都是端。從云到端這個地方來講呢,能不能利用云的計算能力與他的儲存能力,快速來計算東西給到端去用,我認為他是非??简炦@個云上的計算能力跟儲存能力的。

如果我們做了一個數據模型,數據模型是說,我能猜到一個人在他現在這個行為里面,有人用了他的手機,但是用這個手機的人并不是他的。在這種情況下,能不能停止他的手機使用?

就是,實時能從計算上知道,現在用手機的你并不是你,并不是平常的你。這個能力如果在端上使用的話,云那邊肯定要非??焖俚挠嬎?,所以他的計算能力非常重要。

因為端那邊已經收集了一些數據,他現在可能人在美國,但是三分鐘之前用這個終端的時候其實還在中國,為什么?一個人怎么樣可以在這邊一個小時之后飛到美國呢?如果這個是支付系統知道了這個事情的話,云就通知端要停止到這個手機。

但是端到云的時候,他是收集及時的數據給到云那邊,讓云那邊能夠存儲關于判斷剛才這件事情的能力。所以端到云、云到端整個數據是流動的。端的能力在于收集,云的能力在于計算存儲,這兩者之間是出現數據的流動的。僅僅從數據的角度去看,都是用我剛才的那個方法來講。端來講是知道當時當下發生了什么事情,把他傳到云上,云把他存儲而且計算,計算當時那個地方到底有什么東西不動的,然后再傳到端上整個東西進行一種循環。

運營商的數據量巨大但做得不好

對于大數據,我覺得壟斷是很難的。中國來講,數據量最大的并不是阿里,有一些公司數據的量也很大的,比如運營商。所以只是說,有兩種東西要看的,一個是計算數據的能力,管理數據的能力,這個其實數據量大到某個量之后,后面的兩者更重要。就是讓你盤點一下你今天的數據的時候你就發現難了。管理一種數據的能力,計算一種數據的能力,收集數據的能力,這三者是要平均的,不是僅僅說用多少大的數據的,管理數據變得越來越重要。

大數據安全不是靠監管 

大數據數據量很大,很難僅僅只是用一個監管的方法來決定這個數據是不是敏感,而是應該用一個更好的方法去處理。

講一個例子,數據安全中最安全的方法就是不給你看,給你看過理論上安全就會有出現風險的可能性了。我們現在的技術能夠做到的是不給你看,但是可以給你用。

其中的一些安全策略是這樣的,比如說我現在說要調動一些人的名字,這個名字里面有“車品”就兩個字,但是我不會給你看所有的人的名字里面有“車品”兩個字,但是告訴你答案就是3個。也就是說,我不會給你看到數據,我只給你用這個結果。 

關于因果和相關的關系 

數據挖掘有兩種方式:一種是我們知道了有因果關系,我們用數據來界別這個因果關系以后形成了一個模型,利用這個模型讓我們去做一個決策更快,比如說有一個人網上來了一個用戶看了這樣的商品之后,這個商品以前曾經他看過的,所以今天客戶過來是要買這個東西,但是還沒有辦法下決心,你要不要給他一個紅包去刺激他去買,這個是有因果關系的,這樣的因果關系很容易在一個模型里面。

另外一個是,有一堆的數據,但是不知道有沒有因果關系,但是用數據去處理的時候,發現面有一些現象很有關聯性,雖然不能解釋但是我可以用。

所以,在做應用數據的時候,有時候我們可以不管因果關系,找出他上一個行為是什么就可以了,不一定找出下一個行為,我們不一定要推送最好的給他的,有時候是給他下一個需要的就可以了。我們不會去求絕對的因果,有些因果不是說要追求于絕對的。

【給數據分析人士提供幾個重要數據備案】

1、在阿里數據平臺事業部的服務器上,攢下了超過100PB已處理過的數據。這是什么概念?它相當于4萬個西雅圖中央圖書館,580億本藏書。

2、在2013年11月11日,阿里巴巴服務器承載的是350億的交易額,是同時服務超過1700萬人,是每分鐘產生10萬個包裹,是提供相當于1000個義烏商品市場那么大的商品數給你挑選,是需要同時展現3000萬部愛情動作片,是支持每分鐘100萬人同時買單,是相當于同時由9000萬個服務員幫你拿貨。

3、阿里金融綜合了信用記錄、成交數額等結構化數據,以及用戶評論等非結構化數據,加上外部搜集的用電量、銀行信貸等數據,可就放貸與否、放貸額度精準決策。直接彌補了銀行業在貸款風險上的盲點,幾分鐘之內就讓貸款發出,其貸款不良率僅為0.78%。截至2014年2月底,阿里小微信貸已經累計為超過70萬家小微企業解決融資需求,累計投放貸款超過1700億元。

4、聚石塔提供了數據存儲、數據計算等服務,在保障交易安全,避免遭黑客攻擊的同時,還提升了商家處理訂單的速度,確保交易順暢。2013年的天貓雙十一,聚石塔處理了全網75%商家的訂單,處理總訂單量是12年雙11的10倍,0漏單,覆蓋活躍商家94萬,其中有兩家訂單量過100萬。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢