
數據中心基礎設施是大數據戰略成敗的關鍵
為了成功實施大數據戰略,企業數據中心基礎設施的建設應當從圍繞云計算,過渡到圍繞大數據展開,這需要數據中心基礎架構為大數據作出五大改變。
以下內容轉自機房360:
為大數據選擇新的硬件、存儲和其它數據中心基礎設施,這是IT專業人員們所面臨的新挑戰。
大數據是具備空前規模和形式的非結構化信息。它包括視頻、圖像,以及半結構化的數據(例如在Web上常見的電子郵件和文本)。隨著基于傳感器的移動Web監視設備和輸出數據越來越多,可用的數據量將繼續呈指數級增長。
推行大數據戰略的壓力往往來自高層,因為管理者相信,能有效運用數據的企業將比落后者具備更大優勢。大數據戰略需要數據中心基礎架構作出的改變主要有五點:
一、支持大數據的硬件
大數據導致的存儲需求量每年都將增長60%至80%,鑒于這種快速增長和當前的成本限制,IT采購者應選擇在可擴展性和存儲速度上最具成本效益的硬件。類似大型機的向上擴展體系結構重新興起,因為它們能夠經濟高效地擴展,降低總體擁有成本。同樣,在提升性能方面,固態硬盤(SSD)和固態卡帶都比傳統磁盤做得更好。
類似IBM Netezza和Oracle Exadata的硬件裝置已被證實能有效兼顧可擴展性和性能??紤]采用硬件裝置來支持關鍵大數據業務,但也應確認設備的架構能在未來提供快速性能升級。
二、圍繞大數據選擇存儲
在成功的大數據策略下,企業可以將來自內部的高質量數據與Hadoop挖掘自多個云供應商的低質量數據進行整合。這也就改善了業務相關數據的質量,讓分散在各地的數據能組織成為具備一致和及時性的大數據資源。
大數據正在改變中央數據倉儲和松耦合數據集市的決策基礎,后者的存儲庫規模要小得多,既可以替代中央數據倉庫,也可以成為中央數據倉庫的數據源。隨著各地辦事機構或者國際子公司的增加,中央管理層在業務線擴大的同時更需要高質量的數據來維持管控力度,避免權力的分散。
新的軟件技術承擔了繁重的存儲相關處理工作。由Composite Software(剛剛被Cisco收購)和Denodo提供的數據虛擬化軟件能自動發現數據源并提取數據充實全局元數據存儲庫,為整個組織提供跨越內部和外部的所有數據的公共數據庫外觀和體驗。主數據管理軟件通過創建公用主記錄提高了數據質量,消除了費時的數據倉庫檢索。
企業Web外鏈需求加深了對公眾和混合云的依賴。許多大型企業發現他們需要來自于多個云供應商的大數據,卻不能指望供云應商會負責整合這些數據。企業只能從數據虛擬化供應商尋求工具來跨多個云整合大數據。
三、利用SSD的存儲分層策略
存儲成本很高,而且越快的存儲也就越昂貴。最重要的是,大數據要求存儲同時提供大容量和“大”性能。存儲分層在存儲資源池中提供多種成本/性能選項,從昂貴的高性能固態存儲到傳統的串行SCSI(SAS)磁盤存儲,這些選項的組合降低了總擁有成本。在主內存和磁盤之間增加一個固態層將有助于將大數據任務的性能維持在高位,而且不會引起存儲成本失控。
SSD的用量應遵從“90-10”的存儲分層規則:成本和速度的最佳組合比例是:使用大約10%的SSD和90%的機械硬盤。這一策略讓IT公司用僅增加10%成本的代價就能獲得90%以上的性能提升。主內存和SSD的容量比例也遵從同樣的規則。
由于SSD的性能價格比的提升速度超過傳統磁盤(容量提升,價格降低),預計在不久的將來傳統磁盤和SSD的配置比例會變為遵循80-20的規則。
IBM BLU Acceleration這類最新的縱列和內存數據庫設施能利用SSD獲得遠超傳統磁盤的性能,它們的設計能夠有效發揮SSD這類“扁平化磁盤”的優勢。
四、大數據分析和報告能力
雖然嵌入式分析工具已經可以利用報告和自動優化功能改善業務流程,但大數據再次改變了分析規則。例如,和傳統上對單個客戶進行主要行為分析洞察相比,大數據戰略能為每個客戶創建一個迭代和洞察分析線程,讓公司能跟蹤客戶并更好地維持與所有客戶的長期關系。
典型的大數據分析從業人員被稱為數據科學家,和常規的IT主管不同,他們更可能同時擔任CMO(營銷總監)。然而,IT專業人員必須明白他們公司的大數據策略對數據科學家的工作產生的影響。
這意味著需要在自動化的報告和嵌入分析之外人工添加第三方審議內容:專設和松散耦合分析。支持專設查詢的分析和統計工具是必要的軟件前提。許多傳統IT供應商以及云供應商——如IBM、Cognos和Birst——正在擴充這些功能。
五、企業中的Hadoop
Hadoop為數據密集型應用提供“緊貼著”MapReduce文件系統處理程序框架的分布式文件系統。此文件系統支持針對富文本數據的并行事務擴展,例如社交媒體數據。
許多IT公司通過在企業內創建自己的Hadoop版本來解決從Web獲取Hadoop數據源的問題。然而,缺乏專業知識是一種挑戰:精通這種發展中的Web數據管理框架的專業和藝術的IT管理人員猶如鳳毛麟角。
組織開發他們自己的數據管理工具時應該留意,如IBM、Oracle和EMC的這些主要供應商,往往既提供專有產品用于訪問Hadoop數據,也可進行定制開發,讓IT公司不需要專門的數據歸納措施就能訪問需要的數據。如果您決定搭建自己的數據平臺,供應商也提供整合服務,使Hadoop更貼合現有IT資源來高效運作。
每個公司圍繞大數據的相關決策都會有所不同。請記住,隨著圍繞大數據的技術演變,大數據戰略也應當及時調整,與時俱進。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25