
大數據分析的火爆,使得越來越多的企業都開始重視并涉足甚至大力發展大數據分析部分或大數據分析崗位,而這對于數據分析師前景無疑是非常樂觀的。在未來好多年,大數據分析的應用及其發展只會越來越專業化和精細化,數據分析師前景也會更加可觀且待遇會持續上漲。一個好的企業,對于當前的互聯網發展來說,如果能夠擁有強大的大數據來源和專業統一的數據分析、數據挖掘團隊,無可否認這企業的發展一定會越來越好,越做越強。那么,如何成為一個更好的大數據分析企業呢?這不單單只是數據分析師、數據挖掘師的任務,一個企業的靈魂人物,必須要有一個統籌全局的管理執行總監,就是CEO,然后和數據分析、數據挖掘團隊緊密合作、協商溝通,才能更有效地朝大數據分析企業邁進。下面就好好來和大家講講,如何成為一個更好的大數據分析企業。
大數據的鼓吹者希望人們相信,在一行行的代碼和龐大數據庫的背后存在著有關人類行為模式的客觀、普遍的洞察,不管是消費者的支出規律、犯罪或恐怖主義行動、健康習慣,還是雇員的生產效率。但是許多大數據的傳道者不愿正視其不足。數字無法自己說話,而數據集——不管它們具有什么樣的規?!匀皇侨祟愒O計的產物。
1.什么叫大數據?
“大數據”是“數據化”趨勢下的必然產物!數據化最核心的理念是:“一切都被記錄,一切都被數字化”。最近2年所產生的數據量等同于2010年以前整個人類文明產生的數據量總和,更重要的是,數據來源極大豐富,形成了多源異構的數據形態,其中非結構化數據所占比重逐年增大。牛津大學互聯網研究所Mayer-Schonberger教授指出,“大數據”所代表的是當今社會所獨有的一種新型的能力——以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。這種“前所未有的”巨大價值和深刻洞見,并不僅僅來自于單一數據集量上的變化,而是不同領域數據集之間深度的交叉關聯,姑且稱之為“跨域關聯”。譬如微博上的內容和社交關系,Flickr上的圖片共享,新聞資訊網絡上的瀏覽記錄,手機通訊關系,電子商務網站上的購物記錄等數據通過同一個用戶關聯起來;又如移動手機定位的移動軌跡,車載GPS的移動數據,街旁上的簽到數據,順豐物流的遞送數據,智慧城市的建筑信息檔案等通過同一個地點關聯起來??缬蜿P聯是數據量增大后從量變到質變的飛躍,是大數據巨大價值的基礎。
大數據被認為是繼信息化和互聯網后整個信息革命的又一次高峰。云計算和大數據共同引領以數據為材料,計算為能源的又一次生產力的大解放,甚至可以與以蒸汽機的使用和電氣的使用為代表的第一次工業革命和第二次工業革命相媲美。與提升國家競爭力及國民幸福程度密切相關的重大戰略都與大數據的分析和利用息息相關,包括與國家安全社會穩定相關的尖端武器制造與性能模擬實驗,群體事件和謠言的預警和干預;與國家科技能力相關的等離子即高能粒子實驗分析,納米材料及生物基因工程;與國民經濟繁榮相關的經濟金融態勢感知與失穩預測,精準營銷與智能物流倉儲;與環境問題相關的全球氣候及生態系統的分析,局部天氣及空氣質量預測;與醫療衛生相關的個性化健康監護及醫療方案,大規模流行病趨勢預測和防控策略;與人民幸福生活相關的個性化保險理財方案,智能交通系統等等。數據儲備和數據分析能力將成為未來新型國家最重要的核心戰略能力。
大數據會給整個社會帶來從生活到思維上革命性的變化:企業和政府的管理人員在進行決策的時候,會出現從“經驗即決策”到“數據輔助決策”再到“數據即決策”的變化;人們所接受的服務,將以數字化和個性化的方式呈現,借助3D打印技術和生物基因工程,制造業和醫療業亦將實現數字化和個性化的服務;以小規模實驗、定性或半定量分析為主要手段的科學分支,如社會學、心理學、管理學等,將會向大規模定量化數據分析轉型;將會出現數據運營商和數據市場,以數據和數據產品為對象,通過加工和交易數據獲取商業價值;人類將在哲學層面上重新思考諸如“物質和信息誰更基礎”“生命的本質是什么”“生命存在的最終形態是什么”等本體論問題……綜上,大數據不是數據量的簡單刻畫,也不是特定算法、技術或商業模式上的發展,而是從數據量、數據形態和數據分析處理方式,到理念和形態上重大變革的總和——大數據是基于多源異構、跨域關聯的海量數據分析所產生的決策流程、商業模式、科學范式、生活方式和觀念形態上的顛覆性變化的總和。
2.大數據商業革命
傳統的商務智能已經應用了數據倉庫和數據挖掘的技術,對企業自身的數據進行存儲、清洗、索引和分析,并能夠提供包括客戶價值評價、客戶滿意度評價、服務質量評價、營銷效果評價、市場需求評估等各種基于簡單統計和關聯挖掘的報表——這些統計結果對于企業自身評估和決策起到了重要的作用。在商務智能時代積累起來的和數據打交道的經驗既是大數據新商業模式技術和理念的基礎,又有可能束縛大數據商業革命,因為有經驗的商務智能人士會不自覺地把大數據分析庸俗化,認為只是傳統商務智能針對更大規模數據集的一種平凡推廣。
大數據商業模式也可以粗略地分為1.0版本,2.0版本和3.0版本。
大數據1.0是指企業自身的產品和服務產生了大量的數據,通過對這些數據進行深入的挖掘分析,改進自身業務,改進后的業務吸引更多用戶或客戶,產生更大量的數據,形成正向的循環。亞馬遜是一個典型的例子,他們利用以“基于商品的協同過濾”為主要代表的一系列推薦算法[2],幫助用戶找到他們可能喜歡的商品。這種精準的個性化服務的背后,是非常復雜的算法和實時大數據處理能力[3]。亞馬遜的算法大大提高了用戶的黏度和企業的銷售額,從而產生了更多有價值的數據,這些數據又幫助亞馬遜把分析做得更深入,進一步提高銷售量。大數據1.0追求從數據到分析,從分析到更多更好的數據,再到更深入分析這樣的正向循環。
大數據的2.0是指企業用自身業務產生的數據,去解決主營業務以外的其他問題,獲得重大的價值;或者引入非企業自身業務的外部數據,來解決企業自己遇到的問題。大數據2.0強調的是數據的外部性。Google曾利用網頁搜索詞的記錄,來預測流感爆發后隨時間變化的新增病例數[4]。顯然,預測流感趨勢這一需求并不包含在記錄網頁搜索詞的初衷中。ZestFinance有一個口號,就是一切數據都是信用數據,實際上,他們大量采集用戶在社會媒體上留下的數據,從這些數據中對用戶的信用進行判斷,特別地,預測用戶拖延還貸的概率。ZestFinance通過這種分析,能夠在低于行業平均拖延還貸率的條件下,進行更快更低成本的貸款發放。顯然,用戶在社交媒體上產生的數據,并不是ZestFinance自身產生的,但是一樣可以服務于ZestFinance的業務。
大數據3.0是一個尚在探索中的商業形態。它首先要求政府和行業,對數據質量、價值、權益、隱私、安全等產生充分認識,出臺量化與保障措施。在此基礎上,數據運營商出現,提供集成數據和存儲、計算的平臺。在此基礎上,形成了以加工粗數據和已有數據產品,產生新的數據產品為主要活動的數據客(Dacker)。個人、團隊和企業通過數據API接口或其他方式付費使用數據產品,數據客、運營商和被加工原料所有者共同分享數據產品的利益。數據市場也可能應運而生,數據和數據產品有可能象今天淘寶集市上的商品被售賣交換。于是,一種新的以數據/數據產品為輸入,數據/數據產品為輸出的新商業模式誕生,這種模式不同于2B(to business)和2C(to customer)的模式——譬如一款精確位置告知實時空氣質量的API接口,既可能被企業和政府使用,也可能被個人使用。為了區分,我們稱這種模式為2D(to data)的商業模式[5]。新商業模式的直接后果,就是促進學術團體、企業和政府通過大量異質數據和數據產品產生科學、社會、經濟等方面的新價值。
3.成為大數據企業
什么樣的企業是大數據企業?恐怕沒有人能夠給出一個完美的答案。但是,直觀地,我們可能覺得Google更像是一個大數據的企業,Amazon也像是一個大數據的企業,而中國銀行似乎不太像一個大數據的企業,盡管它每天也一樣浸泡在海量的數據中。除了具有處理大量數據的能力外,之所以Google和Amazon更像大數據的企業,是因為他們有深入的數據分析工具,利用數據分析的結果直接指導決策,而且經常推出基于數據分析的創新型應用。遺憾的是,并沒有一條放之四海皆準的通往大數據企業的康莊大道,更沒有點石成金之術可以讓一個企業Google化。本文僅僅從四個方面提出一些可以看得見摸得著的建議,藏在這些建議背后的大數據理念,或許更加重要。
第一,企業的一切生產經營流程都需要數據化——這是企業能夠通過深入數據分析,實現自身優化的基礎。舉個典型的例子,長虹在自己的生產線上,通過大量傳感器,記錄生產環境的溫度、濕度、粉塵等等,通過這些量化指標與產品質量的關聯分析,得到影響產品優品率和良品率的關鍵因素,從而通過環境因素控制,明顯提高了產品的優品率。有的讀者可能會說,生產流程容易量化,那么拜訪一個客戶,提供一種服務,難道也能量化嗎?實際上,數據化不等于量化,更不僅僅局限于結構化量表,就此,思創銀聯提供了一個很巧妙的解決方案。通過一個名為“亦群”的產品,思創銀聯的員工將每天的工作內容通過類似于博客和論壇的系統,分享給所有其他員工——這種分享完全不同于OA任務流,而是一種帶有社交附加價值的主動記錄。通過評論和關注,企業形成了一種在層次管理結構之外的扁平化社交結構。更為重要的是,企業處理問題的相關流程、文件、討論都保留了下來,從而幫助企業管理者進行考核,也幫助企業員工通過基于關聯用戶和文本智能匹配進行搜索,快速找到對自己現有業務和客戶有參考價值的案例和文件。
第二,企業需要建立基于海量數據的深入分析能力。在大數據時代,數據分析能力的強弱,類似于工業時代制造工藝的先進與否。真正的大數據企業,都具有行業領先的數據分析能力。百分點是一個典型的以數據分析能力見長的大數據企業。它提供非常多樣的服務,但是絕大部分服務所要解決的核心問題,都是基于用戶瀏覽、收藏、購買等記錄,實時向用戶推薦感興趣的東西——這些東西可以是網購商品也可以是新聞資訊,可以是個性化廣告也可以是股票及理財產品。為了對一個用戶進行實時的商品推薦,百分點首先要根據這個用戶歷史瀏覽消費的習慣和最近幾次瀏覽的記錄,預測用戶的意圖——是有明確的購買意向,還是隨便逛逛?根據用戶的意圖,百分點自動在數十種推薦算法中進行精選,返回推薦結果候選集合。推薦的結果,還要根據商家的偏好以及用戶地理位置、價格敏感度等等信息,進行再一次的過濾……每一個簡單的推薦展示,都是在數十種算法和復雜的分析規則中通過殘酷競爭才得以脫穎而出的[6]。大數據企業,需要有意識儲備數據挖掘、機器學習方面的人才和技術,能夠高效率完成分類、聚類、預測、推薦等較復雜的數據分析工作。
第三,企業要制定戰略數據儲備計劃。數據就像石油,而且是放在聚寶盆中取用不竭的石油——如果它被存儲下來了。具有戰略眼光的企業,能夠判斷數據未來的價值,在當前看不到數據的直接用途,或者只有低價值用途的時候,愿意花成本存儲一些潛藏巨大價值的數據。雅昌是一個以復印藝術品為主要業務的企業,它敏銳地感覺到“哪些藝術家的哪些藝術品被復印了多少次……”這類數據是有價值的,于是從幾十年前光盤還很貴的時候,就花大力氣把這些數據存下來了?,F在雅昌的指數,是藝術品拍賣中最具影響力的指數之一,雅昌藝術網已經成為了中國第一的藝術門戶網站。存儲和自身業務有關的數據,僅僅是企業戰略數據儲備計劃的第一步,更進一步地,企業還應該存儲對自身業務有幫助的外部數據,例如論壇和專業門戶網站的內容可以反映產品的口碑,微博微信的數據可以反映潛在用戶的興趣,等等。這些數據往往對很多業務都能夠產生價值,如果沒有完整的存儲更新計劃,臨渴掘井的結果只能是“數到用時方恨少”。
第四,企業要以包容的心態開放數據,擁抱數據創新。偉大的企業懂得如何把最聰明的人集合起來,為自己服務。企業有了大量數據和一定的分析能力后,不能固步自封,而要充分借助社會的力量,盡最大可能發揮數據潛藏的價值。Netflix曾經公開了包含50多萬用戶和17770部電影的在線評分數據,并懸賞100萬美元獎勵能夠將Netflix現有評分預測準確度提高10%的團隊[7]。類似的競賽在Kaggle數據挖掘競賽平臺上屢見不鮮。中國互聯網信息中心曾聯合數據堂推出了首屆中國互聯網數據平臺數據挖掘比賽,該比賽不局限于具體的算法,而是要求選手利用給定的若干數據集,設計創新型商業應用。企業通過這些數據開放計劃,學習最先進的算法和最具創新性的數據應用產品,實現自身數據的價值最大化。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24