
徘徊的大數據門前:五個真實的數據挖掘故事
就在制作這期“大數據專題”時,編輯部發生熱烈討論:什么是大數據?編輯記者們旁征博引,試圖將數據堆砌的商業案例剔除,真正的、實用性強的數據挖掘故事留下。
我們報道的是偽大數據公司?我們是否成為《駕馭大數據》一書的作者Bill Franks所稱的“大數據騙局”中的一股力量?同樣的質疑發生在阿里巴巴身上。有消息稱,3月23日,阿里巴巴以7000萬美元收購了一家移動開發者數據統計平臺。這引發了專家們熱烈討論,它收購的真是一家大數據公司嗎?
這些質疑并非沒有道理。
中國確實沒有大數據的土壤?!安?/span>不多先生”、“大概齊”的文化標簽一直存在。很多時候,各級政府不太需要“大數據”,形成決策的關鍵性數據只有一個數字比率(GDP)而已;其二,對于行業主管機構來說,它們擁有大量原始數據,但它們還在試探、摸索數據開放的尺度,比如說,是開放原始數據,還是開放經過各種加工的數據?是轉讓給擁有更高級計算和儲存能力的大型數據公司,還是將數據開源,與各種各樣的企業共享?其三,數據挖掘的工具價值并沒有完全被認同。在這個領域,硬件和軟件的發展并不十分成熟。
即便如此,沒有人否認數據革命的到來,尤其在互聯網行業。阿里巴巴的馬云將大數據作為戰略方向,百度的李彥宏用“框計算”來謀劃未來。即便是CBA(中國男子籃球職業聯賽)也學起了NBA(美國男籃職業聯賽)五花八門的數據統計、分析與挖掘。
在過去兩年間,大量的資本投資一些新型數據工具公司,根據美國道瓊斯風險資源(Dow Jones VentureSource)的數據,在過去的兩年時間里,11.7億美元流向了119家數據庫軟件公司。去年,SAP市值已經超過西門子,成為德國市值最高的上市公司,而這樣的業績部分得益于其數據庫軟件HANA的商業化,去年一年時間里HANA帶給SAP3.92億歐元的收入,增長了142%。
但是,大數據還沒法分析、挖掘出自己的直接變現能力。在截稿日時,我們再重新讀維克托·邁爾-舍恩伯格(Viktor Mayer-Sch鰊berger)的《大數據時代:生活、工作與思維的大變革》一書,作者相信,未來,數據會成為有價值的資產。假以時日,它會大搖大擺地進入資產負債表里。
案例1:農夫山泉用大數據賣礦泉水
發揮你您的想象力,選擇您認為可是的答案
這里是上海城鄉結合部九亭鎮新華都超市的一個角落,農夫山泉的礦泉水堆頭靜靜地擺放在這里。來自農夫山泉的業務員每天例行公事地來到這個點,拍攝10張照片:水怎么擺放、位置有什么變化、高度如何……這樣的點每個業務員一天要跑15個,按照規定,下班之前150張照片就被傳回了杭州總部。每個業務員,每天會產生的數據量在10M,這似乎并不是個大數字。
但農夫山泉全國有10000個業務員,這樣每天的數據就是100G,每月為3TB。當這些圖片如雪片般進入農夫山泉在杭州的機房時,這家公司的CIO胡健就會有這么一種感覺:守著一座金山,卻不知道從哪里挖下第一鍬。
胡健想知道的問題包括:怎樣擺放水堆更能促進銷售?什么年齡的消費者在水堆前停留更久,他們一次購買的量多大?氣溫的變化讓購買行為發生了哪些改變?競爭對手的新包裝對銷售產生了怎樣的影響?不少問題目前也可以回答,但它們更多是基于經驗,而不是基于數據。
從2008年開始,業務員拍攝的照片就這么被收集起來,如果按照數據的屬性來分類,“圖片”屬于典型的非關系型數據,還包括視頻、音頻等。要系統地對非關系型數據進行分析是胡健設想的下一步計劃,這是農夫山泉在“大數據時代”必須邁出的步驟。如果超市、金融公司與農夫山泉有某種渠道來分享信息,如果類似圖像、視頻和音頻資料可以系統分析,如果人的位置有更多的方式可以被監測到,那么攤開在胡健面前的就是一幅基于人消費行為的畫卷,而描繪畫卷的是一組組復雜的“0、1、1、0”。
SAP全球執行副總裁、中國研究院院長孫小群接受《中國企業家》采訪時表示,企業對于數據的挖掘使用分三個階段,“一開始是把數據變得透明,讓大家看到數據,能夠看到數據越來越多;第二步是可以提問題,可以形成互動,很多支持的工具來幫我們做出實時分析;而3.0時代,信息流來指導物流和資金流,現在數據要告訴我們未來,告訴我們往什么地方走?!?/span>
SAP從2003年開始與農夫山泉在企業管理軟件ERP方面進行合作。彼時,農夫山泉僅僅是一個軟件采購和使用者,而SAP還是服務商的角色。
而等到2011年6月,SAP和農夫山泉開始共同開發基于“飲用水”這個產業形態中,運輸環境的數據場景。
關于運輸的數據場景到底有多重要呢?將自己定位成“大自然搬運工”的農夫山泉,在全國有十多個水源地。農夫山泉把水灌裝、配送、上架,一瓶超市售價2元的550ml飲用水,其中3毛錢花在了運輸上。在農夫山泉內部,有著“搬上搬下,銀子嘩嘩”的說法。如何根據不同的變量因素來控制自己的物流成本,成為問題的核心。
基于上述場景,SAP團隊和農夫山泉團隊開始了場景開發,他們將很多數據納入了進來:高速公路的收費、道路等級、天氣、配送中心輻射半徑、季節性變化、不同市場的售價、不同渠道的費用、各地的人力成本、甚至突發性的需求(比如某城市召開一次大型運動會)。
在沒有數據實時支撐時,農夫山泉在物流領域花了很多冤枉錢。比如某個小品相的產品(350ml飲用水),在某個城市的銷量預測不到位時,公司以往通常的做法是通過大區間的調運,來彌補終端貨源的不足?!叭A北往華南運,運到半道的時候,發現華東實際有富余,從華東調運更便宜。但很快發現對華南的預測有偏差,華北短缺更為嚴重,華東開始往華北運。此時如果太湖突發一次污染事件,很可能華東又出現短缺?!?/span>
這種沒頭蒼蠅的狀況讓農夫山泉頭疼不已。在采購、倉儲、配送這條線上,農夫山泉特別希望大數據獲取解決三個頑癥:首先是解決生產和銷售的不平衡,準確獲知該產多少,送多少;其次,讓400家辦事處、30個配送中心能夠納入到體系中來,形成一個動態網狀結構,而非簡單的樹狀結構;最后,讓退貨、殘次等問題與生產基地能夠實時連接起來。
也就是說,銷售的最前端成為一個個神經末梢,它的任何一個痛點,在大腦這里都能快速感知到。
“日常運營中,我們會產生銷售、市場費用、物流、生產、財務等數據,這些數據都是通過工具定時抽取到SAP BW或Oracle DM,再通過Business Object展現?!焙”硎?,這個“展現”的過程長達24小時,也就是說,在24小時后,物流、資金流和信息流才能匯聚到一起,彼此關聯形成一份有價值的統計報告。當農夫山泉的每月數據積累達到3TB時,這樣的速度導致農夫山泉每個月財務結算都要推遲一天。更重要的是,胡健等農夫山泉的決策者們只能依靠數據來驗證以往的決策是否正確,或者對已出現的問題作出糾正,仍舊無法預測未來。
2011年,SAP推出了創新性的數據庫平臺SAP Hana,農夫山泉則成為全球第三個、亞洲第一個上線該系統的企業,并在當年9月宣布系統對接成功。
胡健選擇SAP Hana的目的只有一個,快些,再快些。采用SAP Hana后,同等數據量的計算速度從過去的24小時縮短到了0.67秒,幾乎可以做到實時計算結果,這讓很多不可能的事情變為了可能。
這些基于飲用水行業實際情況反映到孫小群這里時,這位SAP全球研發的主要負責人非常興奮?;陲嬘盟膱鼍?,SAP并非沒有案例,雀巢就是SAP在全球范圍長期的合作伙伴。但是,歐美發達市場的整個數據采集、梳理、報告已經相當成熟,上百年的運營經驗讓這些企業已經能從容面對任何突發狀況,他們對新數據解決方案的渴求甚至還不如中國本土公司強烈。
這對農夫山泉董事長鐘目炎目炎而言,精準的管控物流成本將不再局限于已有的項目,也可以針對未來的項目。這位董事長將手指放在一臺平板電腦顯示的中國地圖上,隨著手指的移動,建立一個物流配送中心的成本隨之顯示出來。數據在不斷飛快地變化,好像手指移動產生的數字漣漪。
以往,鐘目炎目炎的執行團隊也許要經過長期的考察、論證,再形成一份報告提交給董事長,給他幾個備選方案,到底設在哪座城市,還要憑借經驗來再做判斷。但現在,起碼從成本方面已經一覽無遺。剩下的可能是當地政府與農夫山泉的友好程度,這些無法測量的因素。
有了強大的數據分析能力做支持后,農夫山泉近年以30%-40%的年增長率,在飲用水方面快速超越了原先的三甲:娃哈哈、樂百氏和可口可樂。根據國家統計局公布的數據,飲用水領域的市場份額,農夫山泉、康師傅、娃哈哈、可口可樂的冰露,分別為34.8%、16.1%、14.3%、4.7%,農夫山泉幾乎是另外三家之和。對于胡健來說,下一步他希望那些業務員搜集來的圖像、視頻資料可以被利用起來。
獲益的不僅僅是農夫山泉,在農夫山泉場景中積累的經驗,SAP迅速將其復制到神州租車身上?!拔覀兛蛻舻能囕v使用率在達到一定百分比之后出現瓶頸,這意味著還有相當比率的車輛處于空置狀態,資源尚有優化空間。通過合作創新,我們用SAP Hana為他們特制了一個算法,優化租用流程,幫助他們打破瓶頸,將車輛使用率再次提高了15%?!?/span>
案例2:阿迪達斯的“黃金羅盤”
發揮你您的想象力,選擇您認為可是的答案
看著同行大多仍身陷庫存泥潭,葉向陽慶幸自己選對了合作伙伴。
他的廈門育泰貿易有限公司與阿迪達斯合作已有13年,旗下擁有100多家阿迪達斯門店。他說,“2008年之后,庫存問題確實很嚴重,但我們合作解決問題,生意再次回到了正軌?!?/span>
在最初降價、打折等清庫存的“應急措施”結束后,基于外部環境、消費者調研和門店銷售數據的收集、分析,成為了將阿迪達斯和葉向陽們引向正軌的“黃金羅盤”。
現在,葉向陽每天都會收集門店的銷售數據,并將它們上傳至阿迪達斯。收到數據后,阿迪達斯對數據做整合、分析,再用于指導經銷商賣貨。研究這些數據,讓阿迪達斯和經銷商們可以更準確了解當地消費者對商品顏色、款式、功能的偏好,同時知道什么價位的產品更容易被接受。
阿迪達斯產品線豐富,過去,面對展廳里各式各樣的產品,經銷商很容易按個人偏好下訂單?,F在,阿迪達斯會用數據說話,幫助經銷商選擇最適合的產品。首先,從宏觀上看,一、二線城市的消費者對品牌和時尚更為敏感,可以重點投放采用前沿科技的產品、運動經典系列的服裝以及設計師合作產品系列。在低線城市,消費者更關注產品的價值與功能,諸如純棉制品這樣高性價比的產品,在這些市場會更受歡迎。其次,阿迪達斯會參照經銷商的終端數據,給予更具體的產品訂購建議。比如,阿迪達斯可能會告訴某低線市場的經銷商,在其轄區,普通跑步鞋比添加了減震設備的跑鞋更好賣;至于顏色,比起紅色,當地消費者更偏愛藍色。
推動這種訂貨方式,阿迪達斯得到了經銷商們的認可。葉向陽說:“我們一起商定賣哪些產品、什么產品又會熱賣。這樣,我們將來就不會再遇到庫存問題?!?/span>
挖掘大數據,讓阿迪達斯有了許多有趣的發現。同在中國南部,那里部分城市受香港風尚影響非常大;而另一些地方,消費者更愿意追隨韓國潮流。同為一線城市,北京和上海消費趨勢不同,氣候是主要的原因。還有,高線城市消費者的消費品位和習慣更為成熟,當地消費者需要不同的服裝以應對不同場合的需要,上班、吃飯、喝咖啡、去夜店,需要不同風格的多套衣服,但在低線城市,一位女性往往只要有應對上班、休閑、宴請的三種不同風格的服飾就可以。兩相對比,高線城市,顯然為阿迪達斯提供了更多細分市場的選擇。
實際上,對大數據的運用,也順應了阿迪達斯大中華區戰略轉型的需要。
庫存危機后,阿迪達斯從“批發型”公司轉為“零售驅動型”公司,它從過去只關注把產品賣給經銷商,變成了將產品賣到終端消費者手中的有力推動者。而數據收集分析,恰恰能讓其更好地幫助經銷商提高售罄率。
“我們與經銷商伙伴展開了更加緊密的合作,以統計到更為確切可靠的終端消費數據,有效幫助我們重新定義了產品供給組合,從而使我們在適當的時機,將符合消費者口味的產品投放到相應的區域市場。一方面降低了他們的庫存,另一方面增加了單店銷售率。賣得更多,售罄率更高,也意味著更高的利潤?!卑⒌线_斯大中華區董事總經理高嘉禮對大數據的應用成果頗為滿意。
案例3:數據權之爭
發揮你您的想象力,選擇您認為可是的答案
擁有了數據就等于奪取了行業制高點,飛友網絡科技公司CEO鄭洪峰深知個中道理。
最近幾年,隨著移動互聯網的興起,一類關于航班動態的應用程序開始出現。通過一套算法,數據工程師們將機場航班實時動態轉換成直觀的信息,再傳遞給用戶,讓后者能夠及時了解到航班的起飛、到達、延誤、取消、返航、備降等狀態,從而幫助用戶更高效地安排行程計劃。
目前這個市場上主要有三款應用產品,分別是航班管家、飛常準和航旅縱橫,飛常準正是飛友科技推出的一款應用。三款應用中,航班管家和飛常準都是民營企業,上線時間較早,用戶數較多;航旅縱橫雖然上線最晚,卻是由央企中國民航信息集團(中航信)開發,大有后來居上的趨勢。
隨著這個細分市場呈現三足鼎立的局面,一個問題浮出水面。鄭洪峰向《中國企業家》直言,數據是這個行業最重要的資源。但是目前中航信壟斷了大部分行業信息,使得飛常準必須通過購買和交換才能獲得自己所需要的數據。
“我們的數據成本是非常高的?!编嵑榉甯嬖V本刊,“氣象、航班信息、空域流量等信息有些是公開發布的,有些則需要公司向空管局、機場和航空公司購買或交換?!?/span>
對于鄭來說,獲取數據的過程就是一部血汗創業史。據其回憶,早年的各大機場、航空公司之間的數據是割裂的,為了獲得準確的航班起降信息,鄭洪峰和他的團隊就去為這些政府機構、大公司提供技術支持,以此來交換所需要的數據?!拔覀儽仨毞畔律矶?,他們需要什么我們就做什么?!编嵳f道。因為飛常準是家小公司,決策鏈條短,效率高,通過多年的積累,鄭洪峰打通了部分數據通道。
鄭洪峰在民航系統工作近12年,其人脈和常識的積累成為飛常準的重要優勢。1999年,他創建了民航資源網?,F在,這家網站是中國最大的民航門戶網站。2005年,他又創辦了飛友,主要為飛行旅客提供機票搜索引擎等服務。從2008年開始,鄭洪峰團隊通過飛常準為用戶提供航班動態服務。早期,飛常準的用戶只是民航內部工作人員,很多機票代理商主動幫其推廣,機場方面也常常用飛常準的應用來安撫因飛機延誤而憤怒不已的乘客,而業內資深人士也常提供很多有價值的反饋信息。鄭洪峰依靠民航內部的資源維持著自己的數據來源。但鄭知道,這并不能長久。
鄭洪峰的故事并不是孤例。中國一家大型電子商務公司的數據挖掘專家接受本刊專訪時提到,現在,越來越多的電子商務公司需要預測非一線城市的物流狀況。在這一過程中需要考慮當地交通擁堵程度和天氣情況,如果當地政府可以提供這方面的相關數據,可以大大提高運作的效率。以交通數據為例,這位數據挖掘專家使用的是百度地圖和高德地圖,后來,他發現不能再用了:一方面,與這樣的公司合作存在商業機密問題;另一方面,由于交通數據可能來自于這些公司的統計,失真度也是這位數據挖掘專家擔心的?!拔覀兎浅OM荛_放一些原始數據?!彼^續說道,“我們也希望和領先者能平等地分享數據權,而不是數據成本增加了二三倍?!?/span>
鄭洪峰和這位數據專家都擔心數據壟斷,希望政府公平公開地開放數據,這樣的做法并非沒有借鑒。美國有一個叫做flyontime.us的網站,用戶可以從這個網站上獲得航班信息和天氣情況,其功能與國內的航班動態應用類似。但是值得一提的是,這個網站的數據來源是一個公開的美國政府網站data.gov。目前在上面大約有超過40萬各種原始數據文件,涵蓋了農業、氣象、金融、就業、交通、能源等近五十個分類。此外,data.gov還有一個地理信息的子站點,專門提供地理信息相關的數據。美國官方表示,這個網站的目的是“方便公眾更便捷地獲得聯邦政府數據,并通過鼓勵創新來突破政府的圍墻而創造性地使用這些數據?!?/span>
2006年經濟學家唐·泰普斯科特(Don Tapscott)在《維基經濟學》中指出,人類已經進入了共享時代:“失敗者創建的是網頁,而勝利者創建的是生機勃勃的社區;失敗者創建的是有墻的花園,而勝利者創建的則是一個公共的場所;失敗者精心守護他們的數據和軟件界面,而勝利者則將資源與每個人共享?!边@一理念后來被認為是網絡2.0時代的核心理念。以用戶為中心,注重用戶交互,讓用戶參與共同建設的網絡2.0同樣適用于政府,最近幾年各國政府的一系列舉措標志著政府2.0時代的到來。
那么在大數據時代,中國政府做好準備了嗎?
深藏的事實
飛常準的競爭對手也遇到了相同的困境。為了拿到第一手數據,航班管家非常賣力。它與各大機場合作,間接獲得自己所需要的航班起降信息。2012年6月,航班管家與上海虹橋機場達成協議,航班管家可以直接從虹橋機場獲得信息,包括航班的延誤、取消以及登機口變更等一手信息,且提供的信息均與虹橋機場同步??梢灶A見,機場是其重要的數據來源。
面對競爭對手的步步緊逼,鄭洪峰認為,正常的商業競爭并不是飛常準所焦慮的事?!伴_放與競爭對我們來說是好事?!?/span>
對于飛常準來說,央企中航信旗下的航旅縱橫才是最大的威脅?!霸谝欢ǔ潭壬?,它有壟斷數據的嫌疑?!币晃粓猿帜涿膶<艺f道。而面對記者的采訪要求,航旅縱橫以不便透露為由拒絕。目前,中航信擁有中國所有終端旅客詳細的數據庫,包括姓名、手機、消費習慣等,這是中航信最核心的資源。由于與航旅縱橫母子公司的關系,非市場化的利益輸送飽受詬病。
在有關民航信息的關鍵數據中,空域流量是影響中國航班正點率的主要原因,而這一數據掌握在空管局手里?!翱展芫忠苍敢鈱祿窒斫o航空公司、機場,甚至是一些小公司,它們這么多年也在努力,可中國有自己特殊的情況?!鄙鲜鰧<艺f道。
在中國,不到30%的空域對民航開放。和其它國家相比,中國是空域管制最為嚴格的國家之一?!懊窈较到y也很頭疼,七成多的空域屬于國家機密,所以機場、空域關閉根本無法預知,何來公開的數據?”上述專家說道。
在航班信息中,準點率是非常重要的一條數據。鄭洪峰以此對比中美兩國差異?!霸趪?,像準點率這些關鍵數據都是由政府全部公開的,因為準點率會決定哪家航空公司可以獲得哪些航線,是航線資源分配一個非常重要的參數。但是,在中國,這個數據卻是各家公司自己搜集的?!睋Q句話說,相關政府部門并沒有掌握到第一手的數據來源,遑論數據開放了。
在石油、電信、鐵路、民航等戰略行業中,民航業的數據開放遠遠走在了其它行業的前頭。上述電子商務公司的數據專家告訴本刊,設計物流工具時,他們更愿意與民航系統合作,不僅僅是快,還因為如果找相對封閉的鐵路系統要一些關鍵性數據,“更難,更不靠譜?!睌祿<艺f道。
“有時,政府也有擔心,你要數據做什么?有時他們第一反應是,‘間諜’;第二反應是,你用來賺錢的,我會不會存在什么風險?!鄙鲜雒窈綄<艺f。這位民航專家的一部分工作是為相關政府寫內部報告,有時需要跟民航系統要一些關鍵性數據,即便如此,也免不了遭遇相關政府部門的懷疑。
中國傳媒大學教授沈浩認為,現在的政府網站許多都是空架子,甚至大部分網站都很少更新,內容上也只是一些公告,而之前的決策過程并沒有反映出來;與此同時,由于中國政府缺少推動力,尚無法建立像data.gov的數據平臺。
另外,根據BNET商學院對中國政府部門的調查分析顯示,政府部門以數據分析作為決策支撐并沒有形成氣候,將數據分析作為核心競爭力的只占5.6%,比起美國和英國等政府開源力度差距巨大。
此項調查的負責人,BNET商業英才網副總編周安利認為:政府部門依然缺乏對大數據的真正、全面的認識。在挖掘信息系統價值方面,數據分析也受制于管理體制和職能制約,及長期傳統管理積累的習慣,業務驅動力不足,績效考核不配套。所以中國政府部門對大數據可能產生的價值,以及如何利用數據分析實現政府的科學決策依然有相當長的距離要走。
數字生產力
如今,飛常準已經擁有300萬月活躍用戶,覆蓋1萬個國內航班,5萬個國際航班。鄭洪峰直言,飛常準的優勢和主要收入來源就是利用大數據技術對數據進行收集、分析和加工。比如利用獲得的收據,飛常準可以幫助保險公司制定航班延誤保險,而這些都是政府和保險公司以前無法完成的。
以前,航班延誤險存在一個問題,就是保險公司讓用戶去舉證,用戶必須有各種各樣的紙質證明才能從保險公司拿到賠償,而賠償金額往往只有兩三百塊錢,因此用戶都不愿意買這個險?!岸F在,航班一落地,通過我們的數據和服務,保險公司就知道是否超過保險閥值,沒超過的,用戶可以直接從保險公司拿到錢,過程非常簡單?!编嵳f道。與保險公司的合作,鄭洪峰得到的回報是收取一小部分服務傭金。
數據開放不僅可以讓小公司受益,而且可以讓政府更加透明、負責任。美國政府前助理信息官、紐約大學法學院教授貝絲·諾維克(Beth Noveck)在她的《維基政府——運用互聯網技術提高政府管理能力》一書中闡述了如何在數字化背景下,運用網絡和大數據建立民主和高效的政府?!皵祿_放可以讓體制內外的人一起參與進來,解決政府無法完成以及棘手的問題?!敝Z維克告訴《中國企業家》。
諾維克以感染率數據為例說明開放數據的作用。美國的醫療部門搜集了全美幾乎所有醫院的感染率,但是政府并沒有足夠的能力把這些數據轉化為有價值的信息??墒?,當這些數據被放在data.gov網站上以后,微軟和谷歌卻能夠運用自己強大的技術能力制作了一幅數據地圖。不管是研究機構或者是普通患者都能運用搜索引擎查找任何一家醫院的感染率來決定是否住院。
而在中國互聯網領域,此前受到虛假廣告質疑的百度也開始與相關政府部門合作,利用后者的數據進行網絡打假。百度相關負責人告訴《中國企業家》,以前百度需要從2000億網頁中篩查出有問題的假藥網站,屏蔽虛假醫療信息非常困難,單純依靠技術和管理手段的升級,難以達到打擊假藥的最佳效果。同時,百度作為一家企業,并不具備相關監管資質,這也是百度無法進行獨立打擊假藥的問題所在。百度曾獨立打擊假藥,但效果十分有限。
從2010年開始,百度聯合衛生部、國家藥監局等多個部委部門發起“陽光行動”,打擊各類互聯網不良及虛假信息,之后,百度與國家藥監局正式達成戰略合作,國家藥監局的三大藥品數據庫,總計20余萬個權威藥品信息向百度開放,而且這些數據庫將隨著藥監局的數據變化實時更新。用戶可以通過通俗的商品名、專業的藥品名、批準文號等多個途徑,在百度搜索到藥品的權威信息。
“作為5億網民的互聯網入口,百度一直以來都希望能利用搜索入口和平臺優勢,與各家具有數據資源優勢的政府部門、權威機構聯手,讓權威信息全面入駐網絡?!边@位負責人說道,“重要的是,數據治國,相關政府部門也獲得了很好的贊譽?!?/span>
中國傳媒大學教授沈浩認為,雖然中國政府在2007年就發布了《政府信息公開條例》,但目前政府公布的數據大部分還是報告和報表,沒有標準的格式,不能以數據的形式查到,因此也無法進行深入的分析、加工和挖掘。
“如果政府需要社會共享和分析這些數據,必須提供最原始的數據,這樣的數據學術和商業上才能去應用它?!鄙蚝普f,“你看data.gov的網站,在上面的聯邦政府的數據庫,都是以電腦可讀取的格式發布的?!?/span>
鄭洪峰也意識到這個難題。他有時候會給相關政府、大公司提供一些數據,他力求尋找一種標準格式。而在這樣的方向上,中國的一些公司也在與政府一起努力。
高德軟件有限公司三維應用事業部總經理趙珂告訴記者,以前的項目往往是政府立項再雇用公司去做,完成后政府擁有版權,這樣導致數據市場不是市場經濟而是投資拉動型的經濟。而目前高德與地方測繪局采取的合作形式是授權模式,高德幫助政府采集數據。擁有了標準化的數據,相關政府就擁有了一個標準的基礎數據庫?!斑@是國家測繪局比較有遠見的一個舉措,相信我們未來和政府這類合作會越來越多?!壁w珂說。
鄭洪峰也相信,未來會更務實更市場化,歧視性的東西會越來越少。中國的數據會越來越開放,也會更加利用市場的機制去鼓勵更多的商業用戶用好航班的數據。
與此同時,鄭洪峰也在以不同形式回饋于給他提供數據的政府相關部門和大公司,最近,他的團隊正在撰寫一份報告,名為《航班正點提高率計劃》。
案例4:《紙牌屋》你學不會
發揮你您的想象力,選擇您認為可是的答案
憑借一部片子咸魚翻身,這樣的橋段在當下熱播美劇《紙牌屋》身上重演,反轉劇主角是美國一家視頻公司Netflix,它的武器則是大數據。
首次進軍原創劇就走紅,Netflix不僅成為娛樂圈里的談資,亦成為數據革命的代表。無論是《紐約時報》、《洛杉磯時報》還是最近一期的《經濟學人》,嚴肅媒體們都在重要版面研究《紙牌屋》成功之道。獲得如此密集關注,并非沒有道理?!都埮莆荨凡粌H是Netflix網站上有史以來觀看量最高的劇集,也在美國及40多個國家大熱。Netflix產品創新副總裁托德·耶林(Todd Yelin)稱,其表現甚至“比我們最大膽的夢想都要好”。
事實是,美國“白宮甄嬛傳”、導演大衛·芬奇(David Fincher)和老戲骨凱文·史派西(Kevin Spacey),這些噱頭只是用以吸引眼球的皮毛。最抓人的是,Netflix根據數據技術推導出《紙牌屋》的關鍵要素,喜歡BBC劇、大衛·芬奇和凱文·史派西的用戶存在交集,這是多么酷的一件事。
中國的樂視網一直關注Netflix的發展路徑?!爸档醚芯康氖荖etflix如何從后端數據推導出前臺生產?!睒芬暰W副總裁何鳳云說。這種做法與舊傳統是背道而馳的,以美國著名的有線電視網絡媒體公司HBO為例,它對導演強烈的個性抱以完全的信任,全權委任導演去制片、編劇、挑選演員。而在中國,幾大視頻網站在自制劇時都有自己的選片團隊,由他們為觀眾選擇與確定導演,挑選劇本。
多年前,依賴于種種技術,Netflix對數據的記憶能力已經爐火純青。當一位用戶通過瀏覽器登錄Netflix賬號,Netflix后臺技術將用戶位置數據、設備數據悄悄地記錄下來。這些記憶代碼還包括用戶收看過程中所做的收藏、推薦到社交網絡等動作。在Netflix看來,暫停、回放、快進、停止等動作都是一個行為,每天用戶在Netflix上將產生高達3000多萬個行為,此外Netflix的訂閱用戶每天還會給出400萬個評分,300萬次搜索請求,詢問劇集播放時間和設備。沒錯,這些都被Netflix轉化成代碼,當作內容生產的元素記錄下來。其首席內容官泰德表示,所有這些數據意味著,Netflix公司已經擁有“可尋址的觀眾”。
早年間,Netflix利用上述數據提供一項推薦引擎業務。比如說,數千萬用戶能在一個個性化網頁上對影片做出1-5的評級,這些評級構成了一個巨大數據池,如今這個數據池容量已超過近百億條。根據數據池,Netflix使用推薦算法來識別具有相似品味的觀眾,然后對這一群體做出相關內容的精準推薦。
Netflix要將巨大的數據池變為生產力并非易事。長年以來,為了提高算法精準,它持續地舉辦大型比賽,來提高自己的數據挖掘能力。2005年底,Netflix曾開放一數據集,并設立百萬美元的獎金(netflix prize),征集能夠使其推薦系統性能上升10%的推薦算法和架構。這個數據集包含了超過48萬個匿名用戶對大約近2萬部電影做的大約10億次評分。
Netflix一直在尋找與自身匹配的數據挖掘工具。據一位前Netflix云數據庫架構師的博客回憶,在2010年Netflix完成了兩次遷移,其一是將Netflix的數據中心遷移到了Amazon AWS之中,其二是將Oracle數據庫遷移至SimpleDB。而到了2011年又從SimpleDB遷移到Cassandra,利用Cassandra提供的路由配置,集群可以被部署在多個大洲。忘掉上述專業術語,一個小故事足以說明它們的意義。法國電影《不要告訴任何人》在美國的票房收入慘淡,只有600萬美元??蒒etflix的工程師并不相信這個數字,他們通過上述數據挖掘技術,找到了不易察覺的點擊量,而這些才是被隱藏的事實。2011年時,Netflix決定播放《不要告訴任何人》。如Netflix預測的一樣,這部電影在播放后立即在最受矚目的節目中排到第四位。
然而,投資人并不看好Netflix的這些努力。投資人表面上相信Netflix的數據庫是個大寶藏,但財務報表的數據呢?去年萬圣節,Netflix董事長兼CEO里德·哈斯廷斯接到一位投資人電話,后者告知哈斯廷斯,他將從二級市場收購Netflix 10%的股份。投資人堅持認為Netflix氣數已盡,這位投資人的計劃是,進入Netflix董事會再建議哈斯廷斯賣掉Netflix。
早期,Netflix是北美家喻戶曉的在線影片租賃提供商,它的主營業務是通過郵寄方式租賃DVD的模式賺取利潤。然而,在互聯網時代這個盈利模式逐漸式微。于是,Netflix將主營轉向在線流媒體播放,其商業模式是付費用戶通過PC、TV及iPad、iPhone收看電影、電視節目。但在逐步放棄高利潤率的DVD業務,徹底轉型低利潤率的流媒體業務后,Netflix卻遭遇營收增速放緩、成本費用激增的困境。2012年第三季度,盡管財報中營收和每股收益均超出分析師預期,股價卻依然暴跌。美國知名專欄作家撰文稱“Netflix被收購或許才是投資者最理想的選擇”。
里德·哈斯廷斯別無選擇。他決定反擊投資人的短視,用事實告訴資本市場,數據不是花架子,而是地道的生產力。Netflix利用數據挖掘能力計算出可以贏的辦法,1億美元買下一部早在1990年就播出的BBC電視劇《紙牌屋》的版權,請來導演大衛·芬奇(David Fincher),并由老戲骨凱文·史派西(Kevin Spacey)擔當男主角。
樂視網副總裁何鳳云向本刊介紹,1億美元買下的《紙牌屋》總共2季26集,計算下來單集成本約為400萬美元,遠遠高于美國一般電視劇的單集制作成本——150萬至200萬美元,也只有《廣告狂人》、《斯巴達克斯》這類熱播美劇才能達到200萬美元左右。算下來,對于Netflix而言,只有新增100萬一年期合約付費用戶才能收回上述成本。
Netflix并非沒有計算過豪賭的回報,這樣做不僅可以帶來新增用戶,更為重要的是它為Netflix開拓了上游市場,走上了自制劇之路。在《紙牌屋》之后,還將有四部自制劇在2013年登陸Netflix。這意味著,Netflix可以逐步降低對版權費用日趨高漲的好萊塢劇的依賴。
Netflix的故事,對于中國視頻網站而言著實勵志。他們與Netflix所面臨的境遇相似:在美國國內,好萊塢的獨家授權費用越來越高,版權成本上升導致資本開支加大。同時內容競爭越來越激烈,盡管在流媒體播放領域Netflix仍占據市場首位,但面臨著HBO(美國家庭電視廣播網)、Amazon(亞馬遜)、Hulu、YouTube的競爭,它們都在加大內容投入。
由于版權價格提升,國內知名的視頻網站們,諸如優酷土豆、搜狐視頻、樂視網、愛奇藝近兩年也紛紛打造自制劇。
據樂視網高級副總裁高飛對本刊透露,雖然去年上半年版權價格曾達冰點,但是現在又很快回升,從一線衛視購買電視劇,平均購買價格每集幾十萬,意味著買下一整部劇不下千萬。在此局面下,拿下《紙牌屋》中國地區的互聯網獨家播放權的搜狐視頻,不得不上調版權采購預算,其2012年的版權采購成本為5000萬美元,但2013年這一預算上調到8000萬美元?!暗覀兣囊粋€自制劇,成本基本上也就三分之一,甚至不到這個數?!备唢w說。
關鍵是如何制作自制???國內視頻網站意識到數據的重要性,也積累了大量數據。比如樂視網通過分析用戶收看時間,在今年推出午間自制劇場?!暗嬲氈碌绞褂脭祿頉Q定導演、演員,中國還沒有哪家公司敢說他們能做到這點?!焙硒P云說。
此外,即便是有了數據,中國的流媒體公司還不敢像Netflix那樣將寶押在一部劇上,因為中國的付費市場尚未成熟,目前還主要依賴廣告盈利,無法完全將用戶需求作為中心?!癗etflix選擇了這個項目,投巨資去做,就是博一個必須贏?!睒芬暰W高級副總裁高飛對《中國企業家》說,“期待中國市場也可以通過付費收視足以覆蓋成本,但這要寄希望于未來大屏電視以及電視平臺產品和服務的成熟,以及付費市場的快速成長?!?/span>
除此以外,一位視頻行業的人士指出,在中國基于用戶數據做出分析的同時,還要考慮廣電審核的要素,一些領域與題材類型都要稍微收攏,“不是沒法依賴數據,而是不能完全依賴數據,我們選擇數據時也一定要結合中國國情?!?/span>
案例5:定制愛情
發揮你您的想象力,選擇您認為可是的答案
宅男們總幻想為自己定制一個女朋友,也許他們的愿望將不日達成。不是借助3D打印機,而是靠大數據時代的婚戀網站。
2012年底,網易旗下全新婚戀交友網站“花田”上線?;ㄌ镆悦赓M溝通為賣點,主打一二線城市中高端市場。摒棄了傳統婚戀網站的“人工紅娘”,花田不提供任何人工服務,從推薦到搜索全由系統自動完成。而業內的龍頭老大世紀佳緣(Nasdaq:DATE),也在換帥之后摩拳擦掌,試圖用大數據的精準化運營,為在海量異性資料中疲于搜索的用戶“指一條明路”。
一年前婚戀網站最愛喊“實名制”。通過對用戶身份證或手機號碼進行驗證,網站可獲得用戶真實姓名、年齡、性別、地區等身份證數據,對防止詐騙有一定作用。但如今各家都有,這種傳統打法就過氣了。畢竟有身份證的人,不一定是有身份的人?;閼倬W站已將條條框框的硬指標羅列齊全,使人幾乎懷疑進入的是淘寶人肉市場。當身高、體重、年齡、學歷等等都一一框定,一看還有2000個姑娘(小伙)符合要求,是時候讓理性回歸感性了。而這感性,又是建立在理性的數據分析之上。
花田界面清新簡潔,采用類似的信息流展示形式。首頁是異性用戶最近更新的圖片、內心獨白和文字傳情,展示其生活方式、個人品味等軟性資料。系統會自動推薦那些相對活躍、最近有信息流更新的人,這就促使用戶拿出更新的勁頭來更新花田,為花田積累了大量可供分析的軟性數據。
“我們可以通過‘內心獨白’來挖掘用戶的性格特征?!本W易花田負責人夏天宇說。夏天宇在網易已工作11年,此前他的團隊負責網易的研發,而他最早的工作是Oracle數據庫管理。
現在,他和他的團隊正試圖通過自然語言處理技術和語義分析方法來解碼用戶性格,實現“軟硬兼施”的精準推薦。首先,他們運用切分詞方法,從用戶的“內心獨白”中提取出現頻率較高的關鍵詞;再將這些關鍵詞分類,如感性詞匯或理性詞匯;最后,通過文本分析、語義分析,從中挖掘出用戶的性格是內向、外向、理想化還是現實派等等。這一技術目前還在測試中,2013年下半年會逐步投入使用。
自2012年12月28日向全國開放注冊以來,花田注冊用戶已近25萬,每日活躍用戶4萬人。雖然發展迅速,但較之業界前輩,花田用戶少得甚至吸引不來騙子。但網易的技術儲備卻不容小覷?!坝械馈彼阉魈峁┑淖匀徽Z言處理技術,被用于通過文本挖掘用戶性格。網易自研的原本用于網易郵箱的人臉識別技術,更是婚戀網站求之不得的利器。
花田團隊只有30多個人,大多是85后。他們在對海量軟硬數據進行分析的基礎上,總結出一些人物特征,建立出一定數量的人物模型。再分析具體用戶,將其分門別類套入各種模型。這樣,用戶心儀其中某一個人,便可向其推薦這一類人。
這種模型不僅是性格模型,還包括外貌模型?!拔覀凂R上要推出人臉識別。比如你想找個像范冰冰的女生,你輸入范冰冰,就會推薦給你很多范冰冰臉型的女生?!毕奶煊罱榻B,花田的后臺已經提取出范冰冰臉型的數據,之后還會推出幾十種流行的男女明星臉型供用戶選擇。
更令人感興趣的是,如果花田能夠跨產品平臺,結合網易門戶、郵箱、游戲等其它網易資源進行大數據分析,是否就能向用戶推薦與自身閱讀習慣、工作習慣、娛樂習慣都匹配的對象呢?真正的大數據必然是跨平臺的,而這點別家很難做到。
但跨平臺數據提取在一定程度上又涉及用戶隱私。大數據的底線在哪里?夏天宇認為,涉及到銀行的數據絕對不可碰觸。這個范圍就很廣泛。不過可以確定的是,網易不會在花田影響力和用戶量都不足的時候開啟跨平臺數據分析。
“我希望花田能蓋一個五層樓,每層裝不同類別的人。一個收入五萬塊的人進來,也不感覺這里有很多屌絲?!毕奶煊钸@樣描述自己對花田的愿景。雖然少了王子配灰姑娘的浪漫童話,倒也實實在在為用戶省去不少篩選麻煩。
數據分析不只可用于精準推薦,還能識別婚戀網站最為人詬病的造假和詐騙。2012年底,創始人龔海燕辭任世紀佳緣聯席CEO后,另一聯席CEO吳琳光擔任CEO。吳琳光曾在空中網擔任副總裁兼手機游戲事業部總經理。加入世紀佳緣后,他首先做的就是引入大數據來提高用戶體驗。世紀佳緣的數據分析團隊開發出一套網警系統,由以往的被動等待用戶舉報騙子,改為主動出擊。
“對我們來說,花籃托兒和酒吧托兒的危害最大?!笔兰o佳緣CEO吳琳光介紹,這兩種人的特點是希望長期運營,不會像真正的詐騙犯,令受害者報案。錢雖不多,卻最讓人惡心。
酒吧托兒的特點是照片極美,卻只有一兩張?;ɑ@托兒則是相貌堂堂、言語溫柔的中年大叔,但只打電話不見面。忽有一天聲稱自己公司要開業,向女方求送花籃,騙個一兩千塊。他們的共同特點就是一上來便要聯系方式,盡快離開網絡平臺,用電話這種難以管控的方式來建立親密關系。
通過對騙子這些行為模式的數據分析,世紀佳緣制作出一套騙子識別模型,已經投入使用。令人捧腹的是,吳琳光本人也曾因測試產品,被這套網警系統抓個正著,“我符合壞蛋的特征,上來就找女性直接要聯系方式?!?/span>
吳琳光向我們分享了一連串數據。比如,“剩女”大部分是生于1978年至1983年。
“因為計劃生育,這一段人口暴漲,她們對應的1973年-1978年的男性人口相對不夠,和她們同齡的男性又被85后的年輕姑娘搶去了?!眳橇展庹f,2009年、2010年婚戀網站大爆發,正是因為這幫人到了必須結婚的歲數。
又如,世紀佳緣正在嘗試聯運頁游,越是在世紀佳緣里收不到信的人,玩頁游的越多。
數百年前的媒婆們絕想不到,若干年后,一群技術出身的工程師們用冷冰冰的數據為癡男怨女保媒拉纖。
然而技術男們縱然辨得出喜惡,抓得住流氓,卻也有棘手的技術難題,比如人臉識別。對外貌的判斷感性而且私人化,向來是婚戀網站的難點。世紀佳緣一直在努力尋找合適的面部識別軟件,但難度很大。吳琳光表示,他們正引入一款能夠識別相似臉的系統,從用戶過往的選擇數據中總結歸納用戶喜歡何種臉型,給用戶推薦類似臉型的人。
花田雖然背靠網易大樹,即將推出人臉識別功能,但這一技術目前止步于臉型識別?;ㄌ镌噲D將更高級的人臉識別,如五官識別、夫妻相匹配作為自己的增值服務收費點,尚有待進一步的技術突破。
對于人類這樣復雜的動物,數據究竟能做到什么程度?吳琳光說自己的理想是讓用戶一注冊世紀佳緣,看到的推薦異性就個個都喜歡。但從身邊常聽到的各種抱怨看,實現這個目標尚需時日。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25