
抓住大數據發展的關鍵問題_數據分析師
在今年“雙十一”電商大戰中,剛剛上市的阿里巴巴以日銷售額571億元引來全球關注,大數據應用也成為其中的一個新亮點。大數據應用今年以來獲得快速發展,百度、阿里等網絡巨頭與行業領軍企業都在謀求大數據應用的發展,國家部委及地方政府對發展大數據興趣濃厚,紛紛推出行動計劃。但人們對于大數據卻總有些霧里看花的感覺。
究竟什么是大數據?為什么大家競相發展大數據?大數據會對經濟發展產生什么影響?為此,中國經濟時報記者專訪了國務院發展研究中心技術經濟研究部第二研究室主任田杰棠。
怎樣挖掘非結構化數據是關鍵
中國經濟時報:今年大數據發展加速,但“大數據”仍是一個新生事物,目前還沒有形成學術上的定義,所以人們對大數據的認識、理解比較模糊。您作為研究技術經濟的專家,怎么理解大數據?
田杰棠:互聯網應用以來,從2005年開始,數據在不斷地增長,到2010年以后基本上是一個指數增長的過程,到2013年時已經超過4個ZB(10萬億億字節),每年的增長率超過50%。這是一個從量變到質變的過程,因此“大”的概念就蹦出來了,但它其實不是一個嚴格的學術概念。
現在談大數據的定義,最多的就是所謂的四個“V”,第一個“V”就是它的實際規模。
第二個“V”是多樣的數據類型,尤其是里面包涵了大量的非結構化數據。
第三個“V”是價值,有兩點:一個是價值大,大數據帶來各種可能性;另外一個比較重要的是,它雖然量很大、價值也很大,但是密度很低。
第四個“V”就是動態數據的快速處理。這里面比較核心的,也是大數據將來能不能從“可能”到“可行”轉變的兩個要素,即:非結構化和低密度。如果技術上能解決怎么分析非結構化數據、怎么從低密度價值里面提取數據的價值,那么大數據的應用可能就會有一個飛躍式增長。所以,我覺得非結構化和低密度可能是大數據的核心東西。
中國經濟時報:您認為大數據未來需要關注更多的非結構化數據處理,那么需要什么技術促進大數據發展產生飛躍?
田杰棠:大數據要快速發展,前提就是數據的存儲技術和挖掘技術的發展以及技術成本的不斷降低。
現在數據的來源是非常多的,主要可以分為物的數據和人的數據。物的數據基本是結構化的數據,是比較好存儲分析的。但人的數據,又主要是非結構化的數據,目前對非結構化數據的處理還是一個難點。
這兩年,隨著IT成本的下降,云計算的使用率在不斷上升,現在云儲存的成本是在慢慢降低的。因為IT成本的下降和云計算發展,數據存儲成本得以下降,數據量才能出現指數倍增長。
未來的數據更多的是人的數據,是非結構化的數據,因為大數據具有價值大但價值密度低的特點,目前數據挖掘分析技術成本還很高,尤其是對非結構化的數據的分析挖掘技術。所以,未來大數據要得到快速發展,必須把數據挖掘技術成本降下來。
大數據發展對經濟的影響和前景
中國經濟時報:科技的發展必然會對經濟產生影響,大數據的應用對經濟有何影響?
田杰棠:如果從宏觀或者立體的角度看,人類整個經濟發展的過程其實就是不斷把一些不可利用的資源變成可利用資源的過程。這個過程一般就是技術的一個個大突破,當然每一次技術突破都伴隨著不斷的、大量的投資過程,并將其轉化成價值。
實際上很多發達國家在2008年金融危機以后寄希望于一套新技術來擺脫實體經濟的衰落和危機,大數據、云計算、新能源都是被寄予厚望的幾個關鍵技術之一。
1995年,Bresnahan和Trajtenberg教授提出了通用目的技術,通用目的技術的特征就是它在許許多多的部門都具有廣泛而且普遍深入使用的潛力和技術活力。
如果我們從增長的視角來觀察大數據的話,一個核心的問題就是:大數據會不會成為我們期待的下一代的通用目的技術?如果是的話,它可能會帶來比較顯著的經濟增長效應。
麥肯錫研究院分析認為大數據影響的面是比較廣的,包括了教育、交通、零售、電器、能源以及醫療、金融等等,有可能會每年為世界帶來大概3萬億美元至5萬億美元的經濟效應,但這個情況目前還只是一個預測。
從經濟波動和政府干預的視角看,大數據也會帶來一些沖擊效應。大數據的發展能否真正改善供需平衡?淘寶曾經做的“訂單農業”、“搶先購”以及“家電定制”,都是先收集需求數據情況,再組織生產的事例,在當時的效果都是不錯的。收集全國所有的數據,在目前還有點困難。但至少從這個角度是有這種可能性,值得思考。比如政府干預是不是比以前更加不必要了。
中國經濟時報:可以發現許多國家都在發展大數據,中國一些龍頭企業也在做大數據,您認為大數據的發展前景怎么樣?
田杰棠:IDC在2013年認為,2017年大數據市場規模將達324億美元,麥肯錫也認為大數據會帶動其他產業每年有3萬億美元至5萬億美元的增長,這里面的乘數效應是非常大的。在中國,工信部下屬的賽迪做過一個關于投資的預測:對大數據的投資從2012年到2015年大概每年增長100%左右,這個速度甚至超過國外的速度。
我國的領導層也比較關注大數據,從2012年以后,科技部、發改委、工信部等部委在研發、探索和產業化專項上,陸續支持了一批大數據項目,不少地方政府也在搞大數據,比如陜西的“大數據科學園區”經、廣東的“大數據戰略合作方案”、上海的“大數據研發三年行動計劃”等等,基本是“多點開花”的狀態。
另外像BAT(百度、阿里、騰訊)這樣的互聯網龍頭企業也都在做大數據。所以大數據的發展前景還是非??善诘?。
大數據發展的制度建設和政府作用
中國經濟時報:目前數據的流通并不通暢,政府的大部分數據在目前也沒有公開。大數據發展需要怎樣的制度建設?
田杰棠:現在一個很核心的問題是如何界定數據的產權,產權的界定是大數據交易和商業化的前提。
數據的所有權、使用權應該如何界定才能達到最大的經濟效應?比如數據企業,包括阿里巴巴或者國內其他公司,他們對數據在什么層次上有使用權?什么情況下可以不經過數據生產者的同意就可以使用?數據的生產者對數據到底有哪些權利?這些都是值得思考的問題。
另外,政府及公共機構的數據是否應該開放?是不是應該把使用權讓渡給社會?或者說哪些數據應該開放,開放到什么程度?在中國,政府、部分事業單位有非常多的數據,但是使用得非常不充分。
怎么去界定數據產權至少需要三個層次的立法:其一,數據的商業運用應該是什么邊界?個人隱私保護應該在什么邊界?政府數據的公開應該在什么邊界?另外,還有其他的制度需求,需要公平競爭的環境,例如對金融行業使用大數據的前景是非常好的,但現在也存在很多的市場準入門檻,使銀行僅靠存貸差就可以過好日子。
其二,數據安全或者信息安全的問題。關于這點甚至提得更高,說“數據主權比產權還高”,包括一些安全預警與審查機制;數據存儲的地域限制;再如對國家數據的外泄要立法等。
其三,行業性立法。中國的醫療行業,在大數據出現之前,病歷在醫院已經電子化了,但是不同醫院之間仍然不能夠共享,所以這也是一個體制問題。如果能通過行業性立法,把這些能夠利用的大數據都放在一個平臺上,那情況就大不一樣了。
中國經濟時報:在大數據發展中政府應該起什么作用,如何推動大數據的發展?
田杰棠:首先來看國外政府在做什么。2012年美國政府推出“大數據行動計劃”,已經炒得很熱。主要是在研究和應用上投了很多錢。
奧巴馬2013年簽署法令,要求所有新增政府數據都必須以電腦文件方式向公眾開放。白宮頒布了開放數據政策,要求政府部門列出所有可公開的數據清單。如果不可公開的話,也要做出說明,為什么不可公開?
在政府采購方面,云計算時,聯邦政府還任命了一個首席技術官,專門推進聯邦政府和部門的云計算應用?,F在數據服務可能也是這樣。
最后要制定法規。這不僅是中國的問題,也有醫療、教育、個人隱私等方面的問題,也需要制定法規。在歐洲,有關個人隱私的法律很多,還有很多的工作要做。
關于大數據的發展有幾點建議:不要急于出臺所謂的戰略性規劃和設立產業專項資金。合理改造、建設和布局好IT基礎設施,除云計算外,主要就是加快“寬帶普及提速工程”。推動隱私保護和公共機構信息公開等立法。資助大數據基礎技術研究,包括人才培養。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25