
大數據掃盲!你不得不了大數據知識精髓_數據分析師考試
談到大數據,就自然而然會想到大數據的4V特點:Volume(數據量大)、Velocity(實時性強)、 Variety(種類多樣)、Veracity(真實性)。另外,通常還大數據還具有Value(價值)的特點,這 也是人們紛紛關注大數據的主要驅動力之一。這里的“V字仇殺隊”指的是大數據時代下價值的重新定義和挖掘,讓數據價值充斥在社會的每個角落。
大數據是多維的,而且極具復雜性。大數據帶來的價值包括但不限于:數據的組織和管理,基礎架構,決策支持和自動化界面和分析。隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限性被打破,企業愈發需要有效的信息治理以確保其真實性及安全性。
大數據的四大要素及挑戰
Volume——數據體量巨大。從TB級別,增長到PB級別。截至目前,人類生產的所有印刷材料的數據量是200PB(1PB=1024TB),而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=1024PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業的數據量已經接近EB量級。
Velocity——處理速度快,1秒定律。根據IDC的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2ZB。在如此海量的數據面前,處理數據的效率就是企業的生命。
Variety——數據類型繁多,絡日志、視頻、圖片、地理位置信息等等。類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,這些多類型的數據對數據的處理能力提出了更高要求。
Veracity——只有真實而準確的數據才能讓對數據的管控和治理真正有意義。
大數據的4V特點(來源:f5)
Value——價值密度低。價值密度的高低與數據總量的大小成反比。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限性被打破,企業愈發需要有效的信息治理以確保其真實性及安全性。
大數據對于每個人來說都是機遇和挑戰并存。在大數據科學、網絡日志、RFID(無線射頻識別技術)、傳感網絡、社交網絡、社交數據、網絡文檔、互聯網搜索、呼叫中心、天文學、氣象學、地理學 、生物學和其他數據龐大的學術性領域和民用、軍用、視頻、電子商務等等,都有著廣泛的應用。
大數據科學
大型強子對撞機(Large Hadron Collider)是一座位于瑞士日內瓦近郊歐洲核子研究組織CERN的對撞型粒子加速器,主要作為國際高能物理學展開研究。該實驗室分布有1.5億個傳感器,平均每秒傳輸的 數據多達4000萬倍,在每秒鐘內有6億次碰撞。其中有99.999%的數據是經過過濾并沒有記錄下來的, 也就是僅有100次碰撞(每秒)的數據最具有價值。
大型強子對撞機
·因此,真正需要采集并處理的數據僅為傳感器數據中的0.001%。整個LHC實驗室的數據年增長為25PB(不考慮數據備份)。
·如果所有的傳感器數據都需要記錄下來并進行處理的話,那么其工作量將極其龐大并變得難以為繼。那樣的話,年數據增長將達1.5億PB,也就是相當于每天500EB。
政府部門
去年,美國奧巴馬管理當局宣布成立大型數據研究和發展倡議(Big Data Research and Development Initiative),致力于幫助政府部門如何利用大數據解決重大問題。該倡議包括84個不同的大數據項目工程和6個部門。此外,美國聯邦政府還擁有當今世界上最頂級的十大超級計算機中的六個。負責氣象模擬的NASA部門,在其發現者號超級計算機集群中也存儲有32PB氣象觀測和模擬數據。這些,其實 也都說明政府部門對大數據的重視,以及為此而展開的應用。
商業領域
在商業領域,大數據解決方案和應用則更是百花齊放百家爭鳴。著名的Facebook社交平臺,早已開展了基于用戶行為分析的數據挖掘和決策分析能夠對其所有用戶的500億張照片進行分析處理。沃爾瑪每個小時處理的客戶交易量超過百萬次,這些交易量數據容量高達2.5PB(2560TB)——相當于美國國會圖書館藏書量的167倍。
Facebook數據信息
應用開發
根據廣義的信息和通信技術促進發展(ICT4D)的有效應用來看,大數據在社會經濟發展中能夠發揮重 要貢獻。一方面,可以借助大數據提供具有成本效益的決策分析,比如在醫療、招聘、經濟發展、預防犯罪、自然災害、資源管理等領域。另一方面,隱私、互操作性挑戰、算法的完善方面,以及由于缺乏技術基礎設施和人才資源而產生新的數字鴻溝:以數據為基礎的決策支持帶來的信息鴻溝。
從這里我們不難看出,大數據在各個行業和領域,由于其面臨的應用和業務不同而產生不同的挑戰或者機遇,但無論怎么說,大數據都是一種趨勢,一種會在短期內帶來傷痛的機遇。也正是因為 如此,我們也還需要特別了解,大數據目前的一些解決方案和成功的應用案例。
相比之下,人們更容易看懂Sandy Bridge、Ivy Bridge等處理器架構和USB 3.0、雷電接口等技術規范,而大數據領域的解決方案和產品,由于其涉及規模較為龐雜,而成為了很多人并不熟知的一個新生事物。
大數據需要有不同于傳統的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術 ,包括大規模并行處理(MPP)數據庫,數據挖掘電網,分布式文件系統,分布式數據庫,云計算平臺 ,互聯網,和可擴展的存儲系統。
大數據解決方案,通常都是基于集群的物理設施平臺上,通過分布式處理系統來實現對海量數據的處理和分析。也正是如此,這種解決方案更多的是側重于軟硬一體或者分布式的軟件系統平臺來實現。
在大數據解決方案中,最為常見的當屬Hadoop。Hadoop 是一個能夠對大量數據進行分布式處理的軟件 框架。Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、HadoopMapReduce 編程模型,以及Hadoop Common。
英特爾:作為與Linux具有一樣都具有革命性意義的Hadoop,英特爾還推出了基于該平臺的發行版(包括免費發行版),以幫助用戶更輕松地構建架構和使用分布式計算平臺,開發和處理海量數據。
Intel Hadoop發行版(來源:Intel)
在英特爾所提出的大數據方案之中,至強處理器將為大數據分析提供原動力。英特爾還展示了其即將發行的Hadoop發行版——Intel Hadoop Manager 2.0。英特爾的Hadoop發行版著重對英特爾平臺上的Hadoop進行了優化,企業可即時實施,安裝、配置都非常簡單。
微軟:為幫助企業快速采用其大數據解決方案,微軟將在 Microsoft Windows Azure平臺上提供基于云端的Hadoop服務,同時在 Windows Server 上提供基于本地的 Hadoop 版本。 Hadoop 的豐富洞察可以與 Microsoft Business Intelligence (BI) 平臺無縫結合,使客戶能夠借助Office和SharePoint以及公用的數據和服務來豐富他們的模型。
Windows Azure Hadoop優勢
EMC:Greenplum統一分析平臺(UAP)結合Greenplum DB 和Greenplum Hadoop為企業構建高效處理結構化,半結構化,非結構化數據的大數據分析平臺。并且客戶可 以以此平臺為基礎利用Greenplum行業和數學統計方面 的專家,充分挖掘自身數據價值,實現數據資產從成本 中心到利潤中心的轉變,以數據驅動業務。
甲骨文:提供了大數據軟硬一體優化集成解決方案,其行業解決方案包括移動應用用戶行為統計分析、基于日志和訪問內容的用戶畫像、機頂盒用戶使用習慣和精準營銷、語義分析和搜索引擎實時處理、海量指紋識別以及人臉識別查詢系統、分布式大數據存儲和管理系統、海量歷史數據分析平臺、基于互聯網的輿情監控系統等。Exadata就是一個預配置的軟硬件結合體,可提供高性能的數據讀寫操作。
IBM:IBM 提供了全面的大數據解決方案,InfoSphere大數據分析平臺包括BigInsights和 Streams,Streams采用內存計算方式分析實時數據,可以動態地分析大規模的結構化和非結構化數據。BigInsights基于Hadoop,增加了文本分析、統計決策工具,同時在可靠性、安全性、易用性、管理性方面提供了工具,并且可與DB2、Netezza等集成。
SAP:和甲骨文Exadata類似,SAP提供了一個高性能的數據查詢功能,用戶可以直接對大量實時業務數據進行查詢和分析的軟硬一體化解決方案HANA。
“信息將成為‘二十一世紀的石油’?!?Gartner,2010年)“數據正在成為商業的新型原材料:經濟投入幾乎相當于資本與勞動力?!?援引《經濟學家》,2010年)。這些,無不說明大數據帶來的巨大商機和潛在價值。在本文,主要給讀者介紹大數據帶來的兩方面益處:更智能;更富有。
更智能和更富有,有時候并不等同。隨著各大企業業務的擴展和市場經濟節奏的加快,人們在制定市場策略的時候,需要更多的真實有效的數據作為決策支撐平臺。而在大數據帶來的致富方面,不僅對于商家來說是潛在商機,對于個人來說,也是創業實現自身價值的良好途徑。手中握有數據的公司基 于數據交易即可產生很好的效益;其次,基于數據挖掘會有很多商業模式誕生。
大數據現象將無處不在
大數據成智能手段
君不見,各大網站的廣告都會根據網民行為而展示、推送類似用戶曾經瀏覽過的商品的宣傳內容?比如一個網民經常瀏覽單反相機及其配件類產品,在訪問其他網站的時候,就很容易看到類似鏡頭、單反相機和閃關燈之類的廣告展示。
這種情況,在當今的社交媒體(比如微博)平臺上,則會顯得更為普遍的。因為大數據時代下,展示給每一個微博用戶的品牌、產品宣傳內容,這種無差異化的市場營銷行為不僅無利于精準挖掘潛在客戶,而且還有害于微博平臺本身的用戶體驗。
谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細節化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數據背后找到更符合用戶興趣和習慣的產品和服務,并對產品和服務進行針對性地調整和優化。大數據也日益顯現出對各個行業的推進力。
此外,大數據還可以幫助實現智能交通、智能城市,幫助銀行及時準確評估客戶消費和信用信息等等。
智能城市大數據的特征
大數據成致富捷徑
未來,數據可能成為最大的交易商品。未來大數據將如同基礎設施一樣,有數據提供方、管理者、監管者,數據的交叉復用將大數據變成一大產業。
相比傳統的致富資本——原材料、資金等等,它們一般都具有排他性,但數據卻能夠很容易地實現共享,并且通過共享實現更大的價值。此外,此數據和彼數據如果能有機地結合到一起,可能就會產生新的信息和知識,并且實現大幅增值。麥肯錫的報告就曾經指出:“已經有越來越多令人信服的證據表明:大數據將成為競爭的關鍵性基礎,并成為下一波生產率提高、創新和為消費者創造價值的支柱”。
可以預見,基于知識的競爭,將集中表現為基于數據的競爭。而這種數據競爭,將成為經濟發展的必然。隨著全球競爭的不斷深化,企業的地理優勢也將淡化,各種國家和地區性的保護措施也將逐步取消,一項專利很快會被模仿、復制、推廣,創新將越來越艱難。但在除去這些要素之外,還有一點可以構成企業競爭的基礎,那就是以“低成本、高效率”的方式來開展公司的業務。這種競爭,要求公司制定流線型的商業過程,各個過程之間必須無縫隙、無摩擦地對接,并保證每一個商業決策明智、正確,在競爭的過程中不犯錯誤。(引自:美國信息經濟領域的著名教授托馬斯·達文波特)
要做到這些,企業必須廣泛推行以事實為基礎的決策方法,大量使用數據分析來優化企業的各個運營環節,通過基于數據的優化,將業務流程中的價值充分得到提煉,從而最大化節約成本、實現效益最優最大。
編后語:
本文主要圍繞大數據的特點、行業應用和面臨的挑戰、相應解決方案和未來潛在價值這幾個最為重要的領域展開論述,由于大數據這個話題本身很“大”很寬泛,也不可能面面俱到,因此主要在于通過這些內容的講解,給廣大網民和讀者提供普及性的分享。
另外一個特別值得關注的事實是,大數據時代已經真真切切的來了,它已經存在我們的現實生活中,未來也將會在個人、企業、政府、教育、科研和軍事等各種領域全面展開普及應用。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25