
大數據的大承諾:今天你想知道什么_數據分析師
在從未停止的對于競爭優勢的探索中,許多組織傾向于掌握大量企業本身和外部的數據,來揭示企業未來的發展方向,預測統計數據和采集其他具有可行性的信息,以便幫助企業做出下一步行動的決策。這些數據常常與采集它們的工具、平臺、分析系統一起被稱為“大數據”(Big Data)?!按髷祿睒I務已經得到大多數技術人員和企業決策者的認同。
雖然企業的決策者已經意識到“大數據”中蘊含的價值,但對于大多數企業來說,真正實現其中的價值還難以做到。這時候IT就派上了用場,它可以幫助決策者在儲存的海量信息中挖掘出需要的信息,并且對這些信息進行分析,從而發現重要的趨勢信息。換句話講,IT已經成為“大數據”發揮作用的催化劑。
在服務領域,“大數據”的重要性和價值越發明顯地得到證明。與美國海洋和大氣局(NOAA)、美國宇航局(NASA)這些機構一樣,一些制藥企業和眾多能源企業同樣累積了大量的數據信息,現在這些企業想要將這些日常積累下來的數據轉化為一種“大數據科技”,希望這些數據能夠帶來額外的價值。
美國海洋和大氣局嘗試利用大數據業務協助進行對氣候、環境、天氣的研究和商業性探索,美國宇航局利用大數據業務進行航天和其他領域的探索。制藥企業和能源企業則借助大數據業務進行更多實實在在的研發,例如藥品實驗和地球物理分析?!都~約時報》將“大數據”作為一種工具,進行文本分析和網絡開發。迪斯尼公司利用它對店面、主題公園和網絡資產中的數據進行分析,研究消費習慣的相關性。
在如今的商業活動中,“大數據”扮演著另外一種角色:大企業越來越多地面臨對大量結構數據和非結構數據進行維護的問題,這些數據可能來自資料庫中員工對于交易信息的報告,也可能是供應商的日常供貨信息——總之這些都是政府要求企業在日常運營中需要保留的數據。最近的一些法庭案例更使上述問題凸現出來,使企業不得不保留大量的文件、電子郵件信息和其他電子通訊記錄,例如即時信息、IP電話記錄等,這些都可以在他們面臨訴訟時作為進行電子信息調查的依據。
也許累積大數據所面臨的最大的挑戰就是建立一個可以存儲和得到所有實時和未來信息的數據庫,并且讓這些信息可以在線用于成本效率分析的平臺。那就意味著這個平臺應該是可升級的。這個平臺應該涵蓋計算機存儲技術、語言查詢技術、分析工具、內容分析工具和傳輸設備,因為IT中囊括了太多變化的、需要有效利用和維護的內容。
大數據業務有很多專有的和開放性的資源作為工具,通常情況下,這些資源可以通過啟動一個程序獲得,也可以通過與提供云技術的公司合作獲得,例如亞馬遜和谷歌——實際上,云技術不但能夠幫助你解決大數據的延展問題,還能解決數據存儲和計算能力的問題。不管怎么說,使用大數據業務不必由你親自“扮演角色”。像IBM和EMC這樣的供貨商可以提供大數據項目所需的工具,盡管使用這些公司提供的業務成本可能很高,而且難以衡量。
Hadoop:大多數大數據業務的重點在開放資源領域,這個領域被稱為Hadoop,是Apache軟件基金會負責的一個項目,該項目包括谷歌為建立一項強化、聯合和易于了解的數據平臺而推出的技術。
從技術層面講,Hadoop包括兩項關鍵服務:基于分布式文件系統(HDFS)的可信賴的數據存儲服務和建立在一種名為分布式計算系統的技術之上的高傳輸并行數據處理服務。這些服務旨在提供一個快速、可信的分析基礎。在這個基礎上,對結構化的和復雜的數據進行分析將成為現實。在許多案例中,企業將Hadoop與他們的IT系統一起使用,這使它們能夠將新舊數據整合在一起,并將這些數據組合成新的強有力的資源。Hadoop使企業可以輕易地利用傳統的分析方法對復雜的數據進行分析,這些數據包括企業自身的信息和一些問題。
Hadoop以一系列軟件為基礎,提供無共享服務。你可以根據需要在一組軟件里增加或者取消Hadoop服務,任何軟件供應商所提供的軟件都支持硬件或系統問題的系統探測和補償服務。換句話講,Hadoop是一個“自愈”軟件。無論系統怎樣改變或者出現故障,它都能傳輸數據、完成大容量的系統運行,還能完成高效率的數據處理
雖然 Hadoop為數據的存儲和并行運行提供了一個平臺,但是其真正的價值還在于它的擴展功能、跨專業整合功能和對于傳統技術功能的實現。Hadoop還提供一些子功能,這些功能可以使該軟件功能性更強,增加軟件平臺的容量:
· Hadoop常規軟件:一般用于支持其他Hadoop子項目。
· Chukwa: 數據收集系統,用于管理龐大的分支系統。
· HBase:可升級的、分布式數據庫,支持大容量的結構數據存儲。
· HDFS:分布式文件系統,該系統為應用程序數據提供高流量服務。
· Hive: 提供數據匯總和隨機查詢的數據庫基礎結構。
· MapReduce: 用于在計算集群下分布處理大數據的軟件框架。
· Pig: 為實現并行計算而設置的高水平數據流語言和執行框架。
· ZooKeeper:為分布式應用提供的高性能內部協調服務。
大多數Hadoop平臺的實現都至少包括如下一些開發大數據系統所必需的子項目,例如:多數組織都會選擇使用HDFS作為主要的文本發散系統,將HBase作為基礎數據庫來使用,這可以儲存數千萬組的數據。MapReduce也為用戶帶來很多益處,它為Hadoop平臺提供了必要的速度和便捷。
有了分布式計算系統(MapReduce),軟件開發者可以創造能夠通過分散群機和獨立存在的計算機并行加工處理海量的非結構型數據的程序。分布式計算系統網絡可以分解成兩個功能區:Map和Reduce。其中,Map是將分散群中的不同的節點打包的函數,Reduce則是對數據進行整理、解析數據并體現其唯一價值的函數。
分布式計算系統最重要的優勢就是容錯性強,該優勢靠對分散群中的每個節點進行控制來實現,在這種控制下,每個節點都要階段性地將一定范圍的工作狀態實時加以反饋。如果某一節點反饋相關信息的時間超過預期時間,一個主網點就會對這個節點的情況進行記錄,并將該節點應該進行的工作重新指定給另外的節點去做。
除了許多以開放性資源為依托的工具,例如Clojure和Thrift之外,還存在很多以商業軟件為依托的軟件工具,盡管許多工具是建立在Hadoop這個平臺之上的。普華永道會計師事務所技術與發明中心公布了一份有關大數據業務群塊建立的詳盡指南,介紹了該業務如何將IT開發和商業用途有機結合。
Datameer就是一個例子。該公司提供一個收集和讀取不同大數據存儲情況的平臺,將上述數據放進Hadoop框架之中,然后提供相應的工具對數據進行分析。從根本上講,Datameer試圖隱藏Hadoop軟件的復雜性并且在Hadoop軟件的基礎上提供分析工具。Datameer的優勢就在于擁有超過10TB的數據資源。根據Datameer的說法,這種資源量所處的水平正是公司使用傳統技術進行數據分析的瓶頸所在。
包括Appistry、Cloudera、 Drawn to Scale HQ、 Goto Metrics、Karmasphere和 Talend在內的其他一些從事商業運作的供應商也針對大數據分析業務提供類似的服務。三大主要數據庫供應商IBM、微軟和甲骨文公司也都支持Hadoop,只不過這些公司采取的形式不同。開放性資源BI的供應商Pentaho也對Hadoop加以支持。
大數據業務適用于所有規模的企業。大數據業務并不是只與企業規模有關,還關乎企業的經營情況,但其與企業數據的設置情況無關。該業務與即時分析有關,例如在網上估定一個顧客的習慣,以便更好地了解該顧客需要怎樣的幫助與支持,了解其所要尋找的產品,或者描繪出目前天氣情況和送貨途中以及行程安排的其他條件下可能產生的影響。
服務器群、高性能文本系統和并行處理系統就是這樣運行的。過去,除了大企業之外,這些技術對于大多數企業來說都太昂貴了。今天,虛擬化和產品硬件已經在很大意義上降低了成本,使大數據業務能夠為中小企業所用。
對于大數據分析業務,小企業還有另外的途徑來實現,這個途徑就是云技術。針對大數據業務提供的云服務異軍突起,為迅速和高效進行數據分析提供必要的平臺和工具。然而,小企業真的需要大數據業務嗎?回答是肯定的。其實,所有的企業都需要大數據業務,不管其是否已經認識到。例如,大多數在線企業在其記錄文件和點擊記錄中收集大量數據信息。對于沒有類似數據流的企業來說,存儲千兆字節而不是兆兆字節,大數據業務能夠使其深入了解公共信息數據資源這座寶藏。
世界銀行在線提供其世界范圍內的統計數據,美國國會圖書館自2006年3月起就對Tweiter論壇上的數據進行歸檔處理。此外,美國國會圖書館還提供大量低成本信息和投資數據服務。大數據技術可被用于對數據資源進行分析,其中就包括你自己擁有的數據,或者將這些數據放在一起進行分析。
舉個例子,FlightCaster是一家提供航班延誤信息預測的公司,它主要根據主要航空公司的航班運行情況進行預測。與航空公司所擁有的類似航班運行情況的專有信息一樣,該公司擁有大量國內航班飛行和航班實時運行狀況的歷史數據。Flightcaster的秘訣就是其對大數據分析的有效利用和使用適當的軟件工具對產出數據進行實時管理。
隨著成本的下降,一些企業想出新的辦法來整合數據,大數據分析業務會變得更加平常,也許它還能教企業怎么由小做起,發展壯大。想想谷歌吧,還有雅虎和Fascebook,它們都曾經是名不見經傳的小公司,但是他們都有效利地用了自身的數據資源,從中得出了對成長產生深遠影響的見解。許多大數據業務的基礎正是來自由這些企業的發展得出的啟示,這絕非偶然。如今,這些啟示已經能夠通過Hadoop和其他一些供企業使用的軟件工具——正像你的企業所使用的軟件工具廣泛獲得。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25