
理念快于應用 大數據呼喚突破性創新
工業和信息化部電信研究院日前發布2014年大數據白皮書指出,大數據在推動經濟發展、改善公共服務,乃至保障國家安全方面意義重大。目前中國的大數據利用仍處于“小農經濟”階段,為加速推進大數據利用,中國應該在促進前沿技術創新與擴散、開放政府和公共數據資源、保護數據安全與個人隱私等方面有進一步的舉措。 大數據利用仍處于發展初期 全球的大數據應用處于發展初期,中國大數據應用才剛剛起步。從數據源看,大數據的應用還處于自給自足的“小農經濟”時代。 全球的大數據應用處于發展初期,中國大數據應用才剛剛起步。目前,大數據應用在各行各業的發展呈現“階梯式”格局:互聯網行業是大數據應用的領跑者,金融、零售、電信、公共管理、醫療衛生等領域積極嘗試大數據。
當前大數據還未形成普遍應用的局面,對大多數企業,特別是傳統領域的企業而言,還未找到有效的應用模式,總體上看呈現以下幾個方面的特點: 首先,理念的應用快于數據的應用。對大數據的廣泛討論,使人們普遍認識到,數據是有價值的,人們可以通過各種方法和技術,對數據進行分析和挖掘,從中獲得對我們生產生活有利的信息和知識;任何數據都可能是有價值的,關鍵是看誰使用它、怎么使用它;簡而言之,數據是資產。這一輪大數據浪潮,使得大數據理念迅速普及,盡管很多數據尚沒有找到合適的用途,但很多公司已經將其作為資產,對其數據進行規劃、存儲,或自行對其開發,或者積極尋找買家或者合作者來對其進行開發。電信運營商最有可能成為典型的數據資產運營者。
電信運營商掌握豐富的用戶身份數據、語音數據、視頻數據、流量數據和位置數據,數據的海量性、多元性和實時性使其具有經營大數據的先天優勢,目前主要的電信運營商都已積極探索開發其內部大數據資源。但從目前的應用發展看,電信運營商的大數據仍主要用于支持內部的客戶流失分析、營銷分析和網絡優化分析等,對外的應用模式尚未成型。 其次,大數據應用呈散發狀,并沒有形成燎原之勢,目前主要集中于互聯網的市場營銷場景。盡管金融、電信、零售、制造、醫療、交通、物流、IT等行業對大數據應用表現出極大熱情,但目前在媒體和各種論壇上所公開的大數據應用案例仍然非常零散,這表明大家雖然都很關注大數據,但推進實際的應用仍然存在一定的困難。眾多企業都推出或者采納大數據應用的領域是基于互聯網的市場營銷,在這一領域應用了大數據的公司不僅包括大型的互聯網公司、眾多專業性的中小型互聯網公司,線下企業也在與互聯網公司合作,積極開發這一領域的價值。 從數據源看,大數據的應用還處于自給自足的“小農經濟”時代,現有的應用仍然以機構內部數據為主。
以機構內部數據為主的主要原因是數據的開放和交易尚未形成市場的主流形態。以國內主要的電子商務交易平臺為例,目前推出了很多大數據應用,但這些應用基本都是為內部服務的,由于法律和數據交易機制的不健全,這些交易平臺在對外開放和交易數據上仍然持謹慎態度。Gartner的一項調查顯示,即使在全球,以內部數據為主仍然是大數據應用的主要特征,各行業應用最多的仍然是企業內部的交易數據(應用比例普遍超過50%,多數行業應用比例超過80%)和日志數據。 從技術角度看,大數據仍以初級應用為主,多數應用仍然使用傳統分析流程和工具,只是擴大了數據的來源、增加了數量。調研發現,與傳統數據分析相比,新的大數據應用雖然開始使用非結構化數據,但在實際應用過程中,這些非結構化數據只是被壓縮、清洗和結構化后,放入傳統的ETL和分析流程中去。另一些大數據應用通過采用云存儲和云處理技術,提高了數據處理效率,從而增加了數據處理的規模,但這些應用也仍然采用原有的ETL和分析流程。缺乏應用模式上的創新,使得目前大數據應用仍停留在初級技術階段。
從應用效果看,目前的大數據應用以延續改善現有業務和產品為主,突破性創新應用尚不多見。以最常見的互聯網營銷大數據應用為例,在大數據興起之前,精準營銷和個性化推薦一直是企業營銷活動的追求方向,新興數據源和大數據技術的興起使得企業進一步改善其營銷技能,使其精準營銷能力進一步增強,這是對企業舊有營銷能力的改善。
目前大家議論比較多的突破性創新如網上小貸業務,這項業務完全改變了過去金融機構貸款的流程、信用評價和控制風險的方式,從而極大地降低了貸款的成本、擴大了貸款的范圍。但目前這樣的突破性創新并不多見。Gartner的調查顯示,企業投資大數據的主要目的在于改善客戶服務、流程優化、精準營銷和削減成本等,而新產品/新商業模式這種突破性創新的方向并不是企業的主要目的。 大數據產業生態加速構建 大數據產業生態中主要包括大數據解決方案提供商、大數據處理服務提供商和數據資源提供商三個角色。 隨著大數據技術不斷演進和應用持續深化,以數據為核心的大數據產業生態正在加速構建。
從實踐情況看,大數據產業生態中主要包括大數據解決方案提供商、大數據處理服務提供商和數據資源提供商三個角色,分別向大數據的應用者提供大數據服務、解決方案和數據資源。當前大數據產業還處于構建的初期,呈現規模很小、增速快的特點,據Wikibon公司的報告,2013 年全球大數據市場總體規模為181億美元,年度增幅達61%,預計到 2017年還將維持30%的年增速。 傳統IT廠商加快向大數據方案提供商轉型。大數據解決方案提供商面向企業用戶提供大數據一站式部署方案,覆蓋數據中心和服務器等硬件、數據存儲和數據庫等基礎軟件、大數據分析應用軟件以及技術運維支持等方面內容。其中,大數據基礎軟件和應用軟件是大數據解決方案中的重點內容。
當前,企業提供的大數據解決方案大多基于Hadoop開源項目。例如,IBM基于Hadoop開發的大數據分析產品BigInsights、甲骨文融合了Hadoop開源技術的大數據一體機、Cloudera的Hadoop商業版等。 在大數據解決方案提供商中,主要包括傳統IT廠商和新興的大數據創業公司。傳統IT廠商主要有IBM、HP等解決方案提供商以及甲骨文、Teradata等數據分析軟件商。它們大多以原有IT解決方案為基礎,融合Hadoop,形成融合了結構化和非結構化兩條體系的“雙?!狈桨?。通過一系列收購來提升大數據解決方案服務能力,成為這些IT巨頭的主要策略。 國際上也誕生了一批專門提供非結構化數據處理方案的新興創業公司。這些公司包括Cloudera、Hortonworks、MapR等,它們主要基于Hadoop開源項目,開發Hadoop商業版本和基于Hadoop的大數據分析工具,單獨或者與傳統IT廠商合作提供企業級大數據解決方案。這些新興大數據企業成為資本市場的熱點。
國內華為、聯想、浪潮、曙光等一批IT廠商也都紛紛推出大數據解決方案。但總體上,國內大數據解決方案提供商實力較弱,產品在一些關鍵行業還未形成影響力,新興大數據解決方案初創企業也鳳毛麟角。 云服務商成為數據處理主體 云服務商的服務方式與技術路線決定了它必然會成為大數據處理服務提供商的主體,共有四類大數據處理提供商。 大數據處理服務提供商主要以服務的方式為企業和個人用戶提供大數據海量數據分析能力和大數據價值挖掘服務。按照服務模式進行劃分,大數據處理服務提供商可以分為以下四類。 第一類是在線純分析服務提供商。此類服務商主要是互聯網企業、大數據分析軟件商和新創企業等,通過SaaS或PaaS云服務形式為用戶提供服務。
第二類是既提供數據又提供分析服務的在線提供商。此類服務商主要是擁有海量用戶數據的大型互聯網企業,主要以SaaS形式為用戶提供大數據服務,服務背后以自有大數據資源為支撐。 第三類是單純提供離線分析服務的提供商。此類服務商主要為企業提供專業、定制化的大數據咨詢服務和技術支持,主要集中為大數據咨詢公司、軟件商等,例如專注于大數據分析的奧浦諾管理咨詢公司(Opera Solutions)、數據分析服務提供商美優管理顧問公司(Mu Sigma)等。 第四類是既提供數據又提供離線分析服務的提供商。此類服務商主要集中在信息化水平較高、數據較為豐富的傳統行業。例如日本日立集團(Hitachi)于2013年6月初成立的日立創新分析全球中心,其廣泛收集汽車行駛記錄、零售業購買動向、患者醫療數據、礦山維護數據和資源價格動向等龐大數據信息,并基于收集的海量信息開展大數據分析業務。又如美國征信機構Equifax基于全球8000億條企業和消費者行為數據,提供70余項面向金融的大數據分析離線服務。
大數據資源提供商應運而生 既然數據成為了重要的資源和生產要素,必然會產生供應與流通需求,數據資源提供商因此應運而生。 既然數據成為了重要的資源和生產要素,必然會產生供應與流通需求。數據資源提供商因此應運而生,它是大數據產業的特有環節,也是大數據資源化的必然產物。數據資源提供商,包括數據擁有者和數據流通平臺兩個主要類型。 數據擁有者可以是企業、公共機構或者個人。數據擁有者通常直接以免費或有償的方式為其它有需求的企業和用戶提供原數據或者處理過的數據。阿里巴巴公司推出的淘寶量子恒道、數據魔方和阿里數據超市等,屬于此種類型。 數據流通平臺是多家數據擁有者和數據需求方進行數據交換流通的場所。按平臺服務目的不同,可分為政府數據開放平臺和數據交易市場。 政府數據開放平臺,主要提供政府和公共機構的非涉密數據開放服務,屬于公益性質。
目前全球不少國家已加入開放政府數據行動中,推出公共數據庫開放網站,例如美國數據開放網站Data.gov目前已有超過37萬個數據集、1209個數據工具、309個網頁應用和137個移動應用,數據源來自171個機構。國內地方政府數據開放平臺開始出現,如國家統計局的國家數據網站、北京市政府和上海市政府的信息資源平臺等數據開放平臺正在建設過程中。 數據交易市場,商業化的數據交易活動催生了多方參與的第三方數據交易市場。國際上目前比較有影響力的有微軟的Azure Data Marketplace、被甲骨文收購的 BlueKai、DataMarket、Factual、Infochimps、DataSift 等等,主要提供地理空間、營銷數據和社交數據的交易服務。
大數據交易市場發展剛剛起步,在市場機制、交易規則、定價機制、轉售控制和隱私保護等方面還有很多工作要做。國內,2014 年2月,在北京市和中關村管委會指導下,中關村大數據交易產業聯盟成立,將在國內推動大數據交易相關規范化方面開展工作。 缺乏數據源、技術水平低仍是挑戰 目前我國的大數據已有數據資源還存在標準化、準確性、完整性低,利用價值不高的情況。 應該認識到,大數據在全球的發展還都處于初期,技術、制度、觀念等方面都需要改變。對我國來說,數據資源不豐富、技術差距大和法律法規不完善是當前大數據發展面臨的主要問題。 一是我國數據源不夠豐富,數據開放程度較低。豐富的高質量數據資源是大數據產業發展的前提。近幾年在互聯網產業及金融、電信信息化快速發展的帶動下,我國數據資源總量有了快速增長,已達到全球的13%,但其他行業受信息化水平制約,數據儲量仍不豐富。已有數據資源還存在標準化、準確性、完整性低,利用價值不高的情況。
同時,我國政府、企業和行業在信息化系統建設中受到各種因素制約,形成了眾多“信息孤島”,數據開放程度嚴重滯后。建立良性發展的數據資源儲備與共享體系,是我國大數據發展的首要問題。 二是我國大數據技術存在水平不高、技術擴散不暢的問題。我國大數據技術的發展模式也與全球類似,互聯網企業具備快速將國際先進的開源大數據技術整合到自身系統中的能力,并構建了單集群上萬節點的大型系統,但仍缺乏原創技術,對開源社區的貢獻不足,進而對前沿技術路線的影響比較微弱。
同時,由于本土開源社區等產業組織發育滯后,國內領先企業在大數據方面的技術創新也難以向社會擴散。 三是大數據相關的法律法規有待進一步完善。隨著大數據挖掘分析將越來越精準、應用領域不斷擴展,個人隱私保護和數據安全變得非常緊迫。在隱私保護方面,現有的法律體系面臨著兩個方面的挑戰:一是法律保護的個人隱私主要體現為“個人可識別信息(PII,Personally identifiable information)”,但隨著技術的推進,以往并非PII的數據也可能會成為PII,使得保護范圍變得模糊。二是以往建立在“目的明確、事先同意、使用限制”等原則之上的個人信息保護制度,在大數據場景下變得越來越難以操作。而我國個人信息保護、數據跨境流動等方面的法律法規尚不健全,這成為制約大數據產業健康發展的重要原因之一。
需要結合我國法治建設的實際情況,探索通過行業自律等方式彌補法律體系不完善的弊端。 應對策略 統籌規劃 技術與應用避免一哄而上 在總體思路上,需要首先明確我國大數據發展的戰略目標和戰略重點,統籌謀劃大數據應用、關鍵技術研發與產業培育、數據開放與數據保護、市場監管、法律法規等關鍵布局,引導國內各地大數據發展方向,避免一哄而上的盲目發展。 在大數據應用上,一是政務和公共服務領域的應用,重點面向改善民生服務和城市治理等方面,積極推動環保、醫療、教育、交通等關鍵領域的大數據整合與集成應用,進一步提高政務和公共服務效率。
二是市場化應用方面,重點在跨行業的大數據應用方面出臺推動政策,促進互聯網、電信、金融等企業與其他行業開展大數據融合與應用創新,帶動全社會大數據應用不斷深化。 在技術創新上,一是要加強大數據技術研發方向的前瞻性和系統性,近期重點支持深度學習與人工智能、實時大數據處理、海量數據存儲管理、交互式數據可視化和應用相關的分析技術。二是要聚集產學研用力量形成合力,力爭在大數據平臺級軟件上實現突破,以此為核心發展開源生態。三是創新科研項目支持方式,將開源和開放標準作為考核指標,通過直接補助或后補助方式激勵企業和科研機構參與開源技術發展,促進大數據技術擴散。 在政府數據開放上,建議推進政府和公用事業領域數據資源的普查工作,并按照相關法規制定政府和公共數據開放中的安全和隱私保護檢查表,對可能涉及國家安全和公民隱私的風險點進行嚴格控制。在此基礎上,按敏感性對政府和公共數據進行分類,確定開放優先級,制定分步驟的數據開放路線圖。同時,政府也應積極規范和引導商業化的大數據交易活動,為數據資源的流通創造有利條件。
在個人信息保護上,國際上一些機構提出,為了釋放大數據潛力,監管的重點應該“從數據收集環節,轉移到數據使用環節”。我們要密切關注國際上立法理念的演變趨勢,結合技術發展趨勢和我國國情對相關制度進行前瞻性研究。
同時,為了解決當前個人信息和數據保護的緊迫需求,可依托行業組織及時總結業界的最佳實踐,逐步形成行業共識,在試點成熟后上升為標準或法律法規并推動實施,為大數據的健康發展保駕護航。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25