
迎接大數據,這里的黎明真熱鬧(SAP篇)
SAP不久前才收了Sybase,實力充盈了不少。經過幾輪收購整合,BI場上的真正玩家越來越少了。不知道那些產品線單一的刺客們還能獨行多久。
一個新的時代已然披紅掛彩鞭炮齊鳴地揭開了序幕。
信息時代圓滿落幕,智能時代破曉而出。寬帶通信、智能終端、社交網絡、量化分析重新定義了生產商、分銷商和消費者之間的關系。數據在容量、種類、速度方面的增長帶來了新的挑戰,而這挑戰中蘊藏著巨大的商機。
信息的獲取、分析和管理是智能時代的主要任務。那些還在沉睡的組織,它們可能馬上就會被數據壓住,然后從噩夢中驚醒,不堪重負,氣喘吁吁。而那些天還沒亮就行動起來的勤勞小鳥,不僅能抓住數據,還會進化出量化分析能力,并由此做出正確決策,取得競爭優勢。在又一次商業大潮來臨之際占得先機,有效分配資源,進行可持續、安全的管理,為自己的社區提供更好的產品或服務。
為什么是現在?它有什么新鮮玩意兒?
商業和公共組織要在全業務流程上投資大數據解決方案有各種各樣的原因。盡管在各種大數據會議和與大數據相關的文章中最引人注目的是社交網站產生的數據,但經過調查,業務數據分析才是推動組織采用大數據解決方案的根本原因。
圖1 使用BI、量化分析和大數據技術主要動力的調查反饋占比
然而,不管上圖中反饋結果的評級如何,我們都必須意識到,大數據所涉及的業務流程、技術和專業知識范圍都很廣泛。正因如此,大數據幾乎帶來了無限的機遇,但因為天地太過廣闊,指望著大有可為的青年們也會覺得有點找不著北。
大數據解決方案的終極目標,是為組織中所有層面的決策者提供更強大、更快速、更全面的洞察力,從而讓他們做出更好的決策。
IDC 決策管理框架是一個評估這些機遇的工具。這個框架可以應用到大數據用例上,并能描繪三種決策類型和每種決策類型的四個主要變量,如圖所示:
圖2 IDC 決策管理框架
戰略決策因為其周期長,未知因素多,所以范圍最廣、風險最高。戰略決策的數量相對來說也很少;它們要求內部決策者和外部決策者之間要有較高的協作水平,而且實現自動化的可能性也很低。而另一端的戰術決策可能是由一線員工或系統完成的。在一個時間周期內會有很多這種決策,并且所有決策幾乎都沒什么風險,也易于自動化。這些決定都是在現場,在工作流當中做出的,因此決策過程中發生協作的可能性很小。在IDC 決策管理框架中,運營決策介于兩者之間。
每個決策類型相關的人群也不同。運營決策是由業務分析師或定量分析師跟管理層一起做的,戰略決策是高管做的,戰術決策是一線員工或自動化系統、應用程序或機器做的。某一級決策的輸出會變成下一級決策的輸入。除了要考慮人員、資金和業務流程之外,理解組織的決策需求是邁向創建業務分析戰略的重要一步,而業務分析戰略是考慮所有相關技術的根本。
最后,不同的決策類型和決策者可能會要求不同的數據和數據技術支持。這些技術包括數據收集、數據監測、數據管理、數據分析和數據傳播等。戰術決策通常都是基于對實時數據流的監測,所采取的行動也是遵照預先定義好的規則。運營決策可能需要對海量的多種結構數據進行深入分析。戰略決策可能需要對即時系統根據情景所作出的響應進行快速評估,以便能夠改善風險管理。
滿足所有決策者的需求是一項艱巨的任務,不可能僅憑一種技術或一個項目就可以完成。
決定哪些數據相關是個難題。
2012年初IDC發起的一項調查表明,被提到最多的困難是決定哪些數據相關。IT和業務部門都聲稱他們需要重新評估組織內部為支持決策過程所評測的數據。很多組織都在重新思考如何分析現有數據和新的數據源,以改變或改善決策支持、決策自動化和績效管理流程。量化的思想或許會對解決這個難題有所幫助。
此外,技術基礎設施的成本,缺乏合適的分析人員和IT人員,缺乏業務支持,或理解不了大數據所能帶來的好處,這些挑戰都在阻礙著他們抓住智能時代帶來的機遇。
這些挑戰表明許多大數據應用都缺乏公認的最佳實踐。你有數據可以收集、分析,并按分析結果所做的決策采取行動。然而能否實現目標卻取決于:
IDC對大數據技術的定義:為了能用經濟有效的辦法從各式各樣的海量數據里提煉價值而開發出來的新技術,包括硬件、軟件,和服務。它們能高速地完成數據捕獲,發現和分析任務,對符合“4V”特性的數據進行整合、組織、管理、分析和呈現。
4V指數據量(volume), 數據種類(variety),數據產生和處理的速度( velocity), 數據的價值(value)
數據量:大小并不是特別重要
盡管大數據里的“大”暗指數據的量大,但我們必須明白“大”是一個相對的概念。某些行業和組織可能連GB或TB的數據都很少見,而社交網站的數據則動輒就達到了PB或EB的級別。不管怎樣,那些看起來不大的應用程序進行信息處理和分析的緊張復雜程度可能完全符合我們對大數據應用的定義。金融服務業就能很好地說明這個問題。在某些大數據處理活動中,所涉及的記錄數可能有上百萬甚至上億行,但每條記錄的長度可能只有幾個字節(比如股票行情信息)。相反,email歸檔累計起來可能有幾個PB的數據,其中包含著高端客戶的建議或抱怨,項目的記錄,法務記錄,合同和提案等各種數據。郵件歸檔通常能最準確地反映出未決的及當前的業務狀況,但只有經過排序和挖掘之后,才能發現其中的價值。產品設計制造也是這樣,比如在汽車和航空公司里,要對成百上千個虛擬原型進行評估,以便找出最佳的車輛(飛行器)設計。還有大型科學實驗,每天要產生PB級的混合數據,作為復雜的模擬數據輸入計算模型中。
數據種類:重要的是數據源和數據格式
多樣性是大數據的關鍵屬性。是否從多種數據源對多種格式的數據進行整合,是判斷一個應用程序能否被稱為大數據應用的決定性條件。
大數據應用通常都會從多個數據源(既有內部數據源,也有外部數據源)抽取類型不同的數據(結構化、半結構化和非結構化)。無論從技術上,還是從潛在影響來看,這都是大數據中很重要的一個方面。對不同類型的信息進行組合是一個復雜的技術難題:一條客戶記錄跟一條微博哪個比較重要?怎么才能把大量不斷變化的病人記錄跟公開發表的醫療研究報告和基因組數據結合起來,以便為某個病人找出最佳治療方案?
把來自于ERP系統的內部運營數據,來自于web日志文件的半結構化數據(識別客戶在線行為),以及來自客戶評論的非結構化文本情感分析數據混搭在一起就是這種情況。先進的天氣/氣候模型也屬于這種情況,借鑒100多年的天氣數據和新的海水行為物理模型,CO水平變化,結合衛星數據進行實時天氣狀況模擬。
速度:信息到達、分析和交付的速度
組織內部有各種不同的系統,數據移動的速度可以分為批量整合定期加載和實時數據流兩種。傳統的數據倉庫,也是現在使用Hadoop的主流數據處理方法用的就是批量整合、定期加載。而采用實時數據流的技術領域一般包括復雜事件處理(ECP),規則引擎,文本分析和搜索,推理,機器學習和基于事件的架構。
評估大數據速度需求的關鍵是搞懂業務流程和最終用戶的需求。比如說,對于應急響應組織或證券交易公司而言,每一秒(甚至毫秒)產生的數據都很寶貴。還有機場,為了在罪犯進入機場時就能發現,需要進行實時的面部識別。然而作為MapReduce和Hadoop發祥地的搜索引擎,為確定算法的準確性或廣告的匹配度時而對十幾億的查詢數據進行處理和挖掘時,并不需要實時分析。換句話說,用恰當的時間獲取準確度合適的恰當信息才是我們所需要的。
不同的用例適用的技術架構也不同。在架構界流傳著一句老話,“只要扔進去足夠多的硬件,任何問題都能解決”。業界已經為解決特定問題搭建過大型超級計算機和大規模集群了,這句話的正確性毋庸置疑。
然而現在需要用專門的硬件來滿足的高性能需求越來越少了。高可用集群,可擴展的文件系統,多CPU,多核處理器的出現意味著利用現成的商業組件進行組合就能輕松滿足性能要求?,F在社會化應用甚至大多選擇部署在云服務上,根本就不專門考慮硬件。
價值:資金,運營,業務優勢一個都不能少
在大數據里談到價值,既指使用大數據所需技術成本的降低,也指使用大數據創造的價值。成本是大數據問題在智能時代得以解決的決定性因素。在金融服務,電信,零售,研發和政府組織中的大型數據倉庫已經存在好多年了。在交易、天氣監測或欺詐檢測應用里的實時數據管理也存在好多年了。以文本挖掘的形式出現的非結構化內容分析也存在好多年了。用于科學研究的高性能計算系統也存在好多年了。然而自從進入智能時代,那些曾經只有政府機構或某些行業少數幾個大公司才負擔得起的系統,現在也擺上了“尋常百姓家”的餐桌。更多可用軟件的出現和不斷降價的硬件,讓更多的組織可以在預算中hold住這些大數據技術。
從大數據項目中得到的好處大致可以分為:
大數據所代表的并不是企業范圍內單一、同質的需求。然而大多數人并沒有認識到這一點,普遍的看法是只有那些要用Hadoop處理的海量數據才是大數據。比如在IDC得到的調查反饋報告中,40%的受訪者認為大數據是指海量數據,26%認為是指各種各樣的數據,24%認為是指實時流數據,10%認為它是指高性能計算。
大數據技術所呈現出來的機遇持續增長,越來越大。改善現有業務流程和大數據技術有關,推出新業務和大數據技術有關,改變跟客戶的交互方式跟大數據技術有關,為了支持范圍更加廣泛的決策過程,要對為什么分析數據,以及怎么分析數據進行重新評估,這還和大數據技術有關。
哪里有需求,哪里就有市場。大數據解決方案的市場雛形剛具,各路英雄豪杰各顯其能,打破了頭也想要擠上這趟車,場面一片混亂。對于什么是大數據,以及大數據技術能干什么,無論用戶還是供應商,都有諸多誤解。
理解這些誤解非常重要,不然你很可能會陷入毫無意義的技術對比優劣之爭。實際上,對于大多數有一定規模的組織來說,為了對工作負載和應用進行改善,需要多種大數據技術共存。
根據所處理數據的不同,IDC認為大數據技術可以分為兩類:處理運動中的大數據,處理空閑期的大數據。
運動的大數據是指快速流動的大量數據,這些數據一經收到就要馬上處理。這樣的數據包括股票交易數據,智能電表數據,實時庫存管理系統中的RFID數據等等。與數據相關的操作可以分為三類。
對于運動中的大數據,在收到之后會對它們進行過濾,并做正規化處理(變成統一的或可讀的格式)。這通常是由接收程序完成的。系統會決定是否需要進行響應。這可能會牽涉到一個復雜的事件處理引擎,得到新數據,根據保留的數據(包括來自數據流的緩存數據和保存在快速存儲【一般是內存】數據庫中的數據)應用新的數據,并確定發生的是否為已定義的事件。如果發生的是已定義的事件,CEP引擎會觸發一個動作,也就是程序對該事件的響應。
運動中的大數據對技術的要求是數據接收,格式化和響應的速度能跟上數據到達的速度。相關的技術包括智能高速數據遷移和轉換技術,內存數據庫和CEP技術。
目前所討論的大數據大部分是指空閑期的大數據,處于空閑期的大數據包括“機構化”和“非結構化”的數據。后來,很多專家對這些術語提出了異議,指出我們所說的“非結構化”數據實際上也有結構,只是它們的結構不是由范式或程序代碼確定的。要處理這個問題,我們可以考慮下表中的分類:
對于空閑期的大數據,相應的技術應該具備盡快采集數據的能力,整理和轉換數據的能力,分析數據的能力,還有將數據置于待處理狀態的能力,從而可以對它們進行有意義的搜索、挖掘、探索、查詢,和產生報告。
NoSQL和SQL數據庫技術在大數據中都有重要作用。NoSQL數據庫非常善于支持大數據的“多樣性”,能夠接受來自多種數據源的多種格式的數據,然后程序代碼可以對這些數據進行篩選,過濾,和組織。很多Hadoop程序都是這么干的。SQL數據庫非常善于處理大量結構一致的數據,可以在這樣的數據上產生常規報告、挖掘和重復進行分析。
具備動態擴展能力的RDBMS能處理非常大的數據庫,而且作為大數據SQL DBMS能快速處理這種數據庫請求。
NoSQL是另一回事。這個隨處可見的詞實際上是很多種DBMS的統稱,每種DBMS都有特殊的用途,而且多種數據庫可能會一起出現在同一系統中,作為大數據操作流的有效組成部分。如下表所示:
大數據解決方案的使用范圍非常廣泛。目前市面上能見到的基本如下圖所示:
我們可以從活動、業務流程和行業三個維度來對這些用例進行評估。
活動
并不是所有使用大數據技術的應用都是為了分析數據。有一些是為了部署社交網站或游戲應用,還有一些是為了存儲大型內容,提供海量文檔的信息訪問。
業務流程
大數據技術被部署在商業組織、非盈利組織和政府組織內部以支持他們的工作流程。組織所面臨的問題和困難不是大數據挑戰,而是受大數據影響的業務或組織問題。部署大數據技術的業務流程有:
除了財務、營銷和信息技術管理這樣跨行業的業務流程,還有多種特定行業的應用。這樣的例子包括:
面對如此廣闊的市場前景,提供大數據技術解決方案的供應商既有小型的專業化公司,也有產品線豐富,生態系統完備的大型公司。SAP屬于后者。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25