
破解大數據價值難題
盡管大數據并不是忽悠,但并不是說只要開放了數據就可以輕易地發現“金礦”.鄧侃博士表示,開放數據之后,會產生大量的有益的中間結果,而這促成了最后的成功。
鄧侃強調,大數據是不是忽悠關鍵一條是能不能發現價值,如果在數據中發現不了價值,那就是忽悠;發現了價值,那就是創造了一個巨大的利潤點。對于中國移動來說,開放了所有的網絡日志,集思廣益,可以讓大家讓全世界的神人們來幫你發現有價值的信息。
發現其中的價值靠什么東西呢?鄧博士指出,是靠中間的地方,算法,數據挖掘的算法。他認為,中間這個地方,要有數據挖掘的算法加上云計算的并行計算。分布式的云存儲平臺則提供更加廉潔的成本,可以存儲中國移動、中國聯通等等的大數據。為什么要用并行計算?因為大數據的量太大了,你簡單算的話,幾個月也算不下來,時間就是價值的一部分,所以你要用并行計算加速數據的處理。
鄧侃博士特別說明了APP
Stroe的意義。他說,那些開放以后來自外界的專家提供的不一定是最后的答案,但是他們完全可以提供很多很有價值的中間工具,中間的工具串聯在一起,就極有可能促成發現最后的價值信息。所以,在我們就特別強調這個中間的工具,這就是我們APP
Stroe的意義所在。
此外,鄧侃還提到,你開放的同時,很多的機密數據也出去了,怎么解決這個機密和你開放中間的矛盾?這是一個很大的挑戰。
由中國移動主辦的“第六屆移動互聯網國際研討會”,聚焦于云、管、端、“臺”,更廣泛、更深入地探索構建合作共贏的產業新生態,打造移動互聯新生活。大數據、云計算和移動互聯網都是當前IT發展的熱門趨勢,因此與會者也就這些新技術與移動生活緊密結合進行討論。
以下為現場演講速記:
鄧侃:剛才張所長對我很多贊美之詞,我不好意思,因為幾個小時前剛剛遭受過打擊,就在我來會場的路上碰到一個熟人,他問你去干嗎?我說我去中國移動的大會,他說什么題目?我說無線城市與大數據,他說你又去忽悠?我說這個又字怎么說?他說你以前講云計算是一個忽悠,后來又講互聯網,云里霧里都是忽悠,那東西還沒忽悠完,你又開始講大數據,會不會再是一個忽悠?我說你的問題問得非常好,我做兩個保證,第一個保證就是我今天的演講保證都是干貨,第二絕對是講實話,爆大料。
首先回答一個問題,大數據是不是忽悠?所謂忽悠講簡單一點,直白一點,就是能不能掙到錢?如果能掙到錢就不是忽悠,如果大家忙了一通白忙就是忽悠。所以我這邊舉一個典型的大數據的場景,看一看大數據能不能掙到錢。這個例子是一個加拿大公司的例子,發生在1999年,這個公司叫做GoldCorp,是一個礦產公司,一直到99年的時候,整個公司的財政情況急劇惡化,大家覺得不行了,要最后一搏。這個時候,他們換了一個新的CEO,這個CEO比較年輕,思想比較激進,剛從MIT上課回來,這個人不是搞計算機的,但是聽說了開元系統這么一個新鮮的玩意,他覺得既然我們的工程師在地下面挖不出金子,我有沒有可能把所有的地質數據放到網上公開一下,或許有哪些神人能發現呢?這就是吸取了開元的經驗。后來他真做了,他把他們公司對于這個地區從1948年開始的所有地質數據全部放到網上公開了,自然好事就來了,很快收到了各種各樣的回饋,公司給他們制定了110個勘探點,超過了80個地點找到了金子,于是股價又回來了。所以很多記者來采訪他的經驗得失。
但是你去瀏覽一下這樣的著名案例的分析和反饋,大家似乎很間咱,說你開源了,開放數據了,情況就發生了。實際是不是這樣呢?仔細對一下對他們CEO的采訪,你會發現第一件事情,是不是我開放了數據在全世界的人就發現了110個礦點呢?仔細看看CEO的采訪錄,不是的。實際上有很多中間環節,這個CEO講了一件事,是說當時的數據展開之后,這個是日本三菱還是哪個公司駐在麻省的研究院,那幫人是研究CT信號之后,又從CT信號產生人體器官的3D圖的,是醫療成像方面的研究,和地質沒有關系。但是正好其中有一個研究員聽說有一個地質數據,于是就拿醫療方面的成像數據拿到地質方面做了修改,結果大獲成功。這個
CEO是這么描述的,他說當這個研究院的人到他們公司來用醫療3D技術展示地質層面構造的時候,所有在場的高管幾乎跳起來了。但是記住一個問題,這個不是最后的礦點,但是因為你有了這么一個3D的地質模型之后,大家很容易發現這個礦難的走向,于是對他后面找到110個礦點創造了非常好的條件。所以,這是第一個方面,開放數據之后,會產生大量的有益的中間結果,而這促成了最后的成功。
第二條說開放數據,尤其對于這種礦業公司,非常傳統的公司來講,開放這種公司數據是不可思議的事情。很多人認為這是公司吃飯的老本,就像可口可樂配方一樣,是不是這樣呢?很多采訪人都說,其實沒關系,你開放也可以,所謂的那些公司機密可能只是公司內部的工程師不愿意讓自己丟丑的借口。實際情況是不是這樣呢?不是的,因為在這之后,他們成功了,當時很多聲音就說你把所有的礦產地質結構數據開放,也許可以發現更多的金子,但是他們沒有這么干,他是在絕望的情況下開放的。所以,這個地方就有一個很大的矛盾,如果你開放了數據,集思廣益,你能夠創造價值。但是,你開放的同時,很多的機密數據也出去了,怎么解決這個機密和你開放中間的矛盾?這是一個很大的挑戰。
說了這個故事想說什么呢?大數據是不是忽悠關鍵一條是能不能發現價值,如果在數據中發現不了價值,那就是忽悠;發現了價值,那就是創造了一個巨大的利潤點。這個事情和我們無線城市、和我們中國移動有沒有關系呢?我想是有的,這一張圖實際上是我們3G一般的架構圖,3G中間經過了很多的網絡環節,每一個環節會產生大量的數據,我們這些數據都記錄在哪里呢?日志里面、數據庫里面等等,這些信息有沒有用呢?有人說有,有人說沒有,比如有人跟我講,到這個數據之后,你可以看到任何一個地方可以看到城市什么地方是人比較多的地方,什么地方是人比較少的地方。假設你知道A和B關系很密切,你想干什么呢?他們可以告你侵犯隱私,所以這些大數據,尤其是網絡運營商積淀下來的在數據中間,什么樣的東西是有價值的,如何發現這些信息,實際上是一個藝術,是個經驗,而不僅僅是個技術問題。所以,我剛才說了,我說我絕不忽悠、絕不騙人,其中有一條是我堅決說老實話。
回到剛才的問題,如果中國移動開放了所有的網絡日志,這些大數據中什么樣的信息是有價值的?我的回答是不知道,但是也許你可以開放這些數據,集思廣益,讓大家讓全世界的神人們來幫你發現這些信息。接下去的問題是說你要開放一個數據,你要做一個平臺,請問你的平臺是怎么做的?這個我知道。這個是我們的一個假想圖,但是不要以為我是紙上談兵,我先賣一個關子。這個圖最右邊很簡單,是一些分布式的云存儲,說我們用一大堆便宜的服務器把中國移動、中國聯通等等的大數據往里面一存,光有存儲是不是夠呢?是不夠的,因為我們剛才說了,大數據是不是忽悠?關鍵問題在于你能不能發現其中的價值,發現其中的價值靠什么東西呢?靠中間的地方,算法,數據挖掘的算法,所以,你中間這個地方,你要有數據挖掘的算法加上云計算的并行計算。為什么要用并行計算?因為大數據的量太大了,你簡單算的話,幾個月也算不下來,時間就是價值的一部分,所以你要用并行計算加速數據的處理。最前面是什么?它是一個APP
Stroe.那些開放以后來自外界的專家提供的不一定是最后的答案,但是他們完全可以提供很多很有價值的中間工具,中間的工具串聯在一起,就極有可能促成發現最后的價值信息。所以,在我們中間就特別強調這個中間的工具,這就是我們APP
Stroe的意義所在。云計算的平臺第一是你的存儲要便宜,你買一大堆垃圾的服務器,串在一起有一個非常漂亮的名稱就叫云存儲。
剛才我說的是技術架構,在這個技術架構里面,實際上牽扯到很多很多的人和物。首先,左邊是說我們有很多數據來源。剛才我們舉例說中國移動有網絡日志,我們還有輿情分析等等,我們稱之為數據來源。數據來源放進去之后,你要發現不了價值那就是垃圾,怎么才能發現呢?我剛才講了,那是藝術、那是經驗,靠很多人,其中最主要的一種人是教授、學者。那些人一天到晚看著文案想主意,然后他發現一種新的算法,應用開發商來應用,開發出一個很簡單好用的應用,這個應用就是說我有一個功能性的東西,怎么才能讓用戶喜歡呢?我們需要一個產品設計師,你有了產品了,也能夠推到市場,但是需要錢,誰來幫你做這個事呢?投資商進來,然后你有了產品為誰服務?三種人,最終消費者、企業、政府。所以,你要想促成這個大數據產業的繁榮,實際上就要團結很多人形成一個生態系統共同繁榮,其中最最主要的實際上是兩條。第一個是擴大數據的來源,第二個是盡可能發現大數據中間的價值,抓住這兩條,大數據產業就能繁榮。
這個實際上是說一個產業一個學界上的開放平臺,叫KDD,這是洛杉磯分校搞的一個,在所有的數據應用中間,這個地方是被引用最高的。大數據樣本很多人在捐,已經聯系到中國移動、中國聯通以及好幾家銀行,還有中國海關、中國政府部門,他們會提供一些數據的樣本,什么叫樣本呢?樣本是說一個部分的區域,不是全國的,而且是經過處理的,把一些真實的信息去掉,保護隱私。所以,數據有了,接下去,我們剛才說這個數據平臺,那是要錢的,現在錢也有了。這張照片是我周五剛剛拍的,在西二旗中關村軟件園,右邊旗桿這個地方的樓是北京市政府指定給云基地的,在云基地里面搞一個什么東西呢?叫集客共和國,GeekCafe,首先它是一個咖啡店,在里面干嗎?交流思想,思想是碰撞出來的。第二個叫GeekShow,實際上是一個展廳,大家做出來產品模型可以去販賣。第三個是GeekLab,大家可以坐下來在一起工作。我們搞這個東西干什么呢?我們實際上是想做一個實驗,這個實驗首先是發現了大數據有什么價值;第二個是團結這幫集客,這幫很牛的工程師,這幫人代表了能力;第三是一個不成熟的產品的原型。有了這三樣之后,我們就可以把需求、研究、投資、產品、市場幾樣要素串聯起來。所以,參與這個集客共和國的這些人,有學者、工程師、媒體、投資人,你開發一個東西,我們賣給大公司,由他開發產品,我們抽個
10%,15%GeekLab就可以養活了。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25