熱線電話:13121318867

登錄
首頁精彩閱讀大數據在中國的發展_數據分析師
大數據在中國的發展_數據分析師
2014-12-04
收藏

大數據在中國的發展_數據分析師


隨著社會的飛速發展,互聯網技術已應用于各個行業。隨著數據的日益增多,數據分析師這個職業也慢慢被各個行業所熟知,數據分析師能更快更好的去利用這些數據,進行數據分析為企業做出正確的投資策略。CDA數據分析師在順應大數據、云計算的潮流下發起成立的職業簡稱。旨在加強國內外乃至全球范圍內正規化、科學化、專業化的數據分析人才隊伍建設,進一步提升數據分析師的職業素養與能力水平,促進數據分析行業的高質量持續快速發展。

美國總統奧巴馬在白宮網站上曾經發布了一篇《大數據研究和發展倡議》的文章,對于大數據發展的重要性給予了高度評價和充分的肯定,而中國工程院院士鄔賀銓也同樣肯定了大數據在各領域使用的重要價值。目前國內多所重點高校,例如清華大學、 北京航空航天大學都開設了大數據的相關課程,并設立了大數據的碩士學位。同時越來越多的企業也開始利用大數據,例如阿里巴巴、百度、騰訊、雅虎等等。2010年中國聯通就構建了一個一級架構的海量存儲和查詢系統解決業務需求。而種種跡象表明大數據被越來越多的領域關注和應用,根據互聯網數據中心(IDC)統計,到2015年全球大數據的市場將達到170億美元的規模,巨大的市場必然引發一場“大數據革命”。
一 、大數據的應用案例
大數據巨大的市場價值都體現在那些方面我們舉一些實例
1、農夫山泉 — 隨著銷售數據的增加以及數據增長速度的加快,傳統的商業智能報表對于數據的展現速度也越來越慢,已經影響到了農夫山泉業務的正常進行,為了應對業務需求,農夫山泉運用了大數據解決方案來對海量業務數據做計算分析, 這樣一來企業可以更好的去判斷市場需求及市場動向,更快的制定營銷策略,創造更高的利潤。

2、亞馬遜 — 通過分析用戶交易數據,了解用戶的消費傾向,針對用戶推送個性化的營銷廣告,充分運用了大數據的分析的能力,據統計分析亞馬遜有三分之一的銷售額來自個性化推薦系統。

3、天氣預報 — 氣象臺通過氣象衛星及氣象采集設備對云層、風向、風速和空氣濕度等因素做匯總分析,從而快速的計算和預測出近期內較為準確的氣象信息,突出體現了大數據的時效性。


二、大數據的特點

大數據為何擁有如此巨大的市場價值?首先由他的特點所決定。
1、大量化 — 這個比較好理解,指的是數據體量大,例如我們使用qq、微信、微博、淘寶、電子郵件以及手機短信和通話記錄等等,每天都在生成大量的數據,有關分析統計2003年之前人類所產生的所有數據總量還不及今天互聯網時代兩天所產生的數據量,這里就體現了數據的大量化和爆炸式的增長速度的特點。

2、多樣化 — 剛才我們講到的微博、微信、淘寶、電子郵件以及手機短信和通話記錄產生的大量的數據信息,產生這些數據的載體的多樣化也決定了數據的多樣化,為了善于歸類這些多樣化數據,我們通常把它們分為兩種,一種是結構化數據,另一種是非結構化數據,首先我們講一下結構化數據,例如Excel表格中的信息,可以用行和列來劃分,我們通常把類似于Excel表格中的這些信息定義為結構化數據,而像音頻、圖片、視頻、這些我們劃分為非結構化數據,例如一張風景畫圖片,往往包含著很多信息在里面,我們很難具體的將其歸類和定義。

3、快速化-當我們訪問一個網頁的時候,提交點擊操作后網頁需要零延遲或者低延遲的給予反饋信息,假若是高延遲或者遲遲不能打開網頁,我們還會選擇去瀏覽這個網頁嗎?還有美國梅西百貨公司的實時定價機制,通過對市場數據的分析,判斷市場動態,得出價格走勢,快速的去調整商品的價格,提高銷售量和銷售利潤,這里更好的體現了大數據的快速化的特點。

4、價值密度低-這里指的是在海量的數據庫中也許只極少部分信息是有價值的,例如警方在破案時為了追蹤犯罪嫌疑人,往往要從大量的監控錄像中尋找有關犯罪嫌疑人行蹤的視頻,而這部分視頻在海量的視頻數據中只是很微小一部分,這里體現了大數據的價值密度低。
大數據的特點決定了普通的系統是無法做到快速的處理這些大量的多樣化的信息,那么目前主流處理大數據的是hadoop,它是一個開源的分布式系統構架,允許運行在普通的pc上,適合處理海量數據,并且有著很強的擴展性,以往當服務器滿負荷之后需要增加新的服務器來解決,這種服務器的價格往往早100-200萬,成本很高,而hadoop屬于分布式的系統,強大的擴展性,允許其從一臺服務器擴展到上千臺的服務器,而這種服務器價格只有1-2萬,大大節省了成本,同時并發式存儲和計算數據,大大提高了效率,在這個免費的構架上可以搭載很多的系統軟件,確保大數據被更合理的存儲分類和計算以及應用,目前IBM, EMC,couldera,oracel,hortonworks,intel都開發出了在免費的hadoop基礎上的商業版本hadoop。
三、hadoop的兩個核心:
剛才了解了hadoop是目前處理大數據主流的分布式系統架構,接下來我們就了解一下組成hadoop的兩個核心,
1.hadoop第一個核心是HDFS,它是用來存儲數據的,簡稱分布式的文件系統,簡單理解是將數據分布式的存儲到不同的服務器上,而需要的時候又可以同時調用,保證了安全性的同時有提高了吞吐量。
2.第二個核心則是用來計算數據,我們稱之為Mapreduce,它一個分布式的計算框架,支持在多個服務器上并行運算,這樣又大大的提高了計算速度。

存儲了數據將數據分類計算之后那么如何盤活這些數據,這里就涉及到了以hadoop為基礎架構的其他項目,例如Hive—是將傳統的sql數據庫語言轉換為mareduce能夠識別語言的這樣一個工具,還有Hbase—是一個開源的面向分布式系統的存儲數據庫,pig,chukwa,zookeeper等等,這些都是運行在hadoop分布式系統構架上運行的軟件系統,這樣一來從數據的存儲到計算再到應用就構成了一個完整的hadoop生態系統。
四、hadoop應用案例
剛才我們了解完了大數據和處理大數據的hadoop再到hadoop的整個生態系統
接下來我們講幾個hadoop在各領域應用案例


1、金融行業:
摩根大通— 已經開始使用hadoop來應對詐騙風險,it風險管理,自助服務等,摩根大通現擁有150PB的在線存儲數據、35億個用戶帳號和30000個數據庫,而這些龐大數據并非是傳統的處理方式所能駕馭的。
中信銀行信用卡中心 — 統計分析2008年發卡量為500萬張,而到了2010年在短短的2年時間內就增加了一倍,信用卡數量的增長必然決定了業務及數據規模的增長,中信銀行通過hadoop分布式系統對規模龐大的業務數據進行分析計算,從而對信用卡用戶做出信用評估,消費能力,消費傾向評估,從而快速的制定用戶信用額度和推送營銷廣告。 

2、電子商務領域:
阿里巴巴 — 小微貸款,對數據庫內的用戶進行信用分析,還是根據用戶的消費記錄和信用記錄來制定貸款的額度,降低風險的同時提高了效率,目前阿里巴巴運用了15臺8核cpu1、5g內存、1.4TB硬盤存儲的集群搭載hadoop分布式系統來運行。


3、電信行業:
中國聯通早期是無法提供用戶詳細的消費記錄,只能提供每月的總使用量,中國聯通2010年構建的一級構架的海量存儲和查詢系統來解決這一業務需求,這個系統就是基于hadoop而搭建的。 

4、互聯網領域:
百度同樣也運用了hadoop來處理日志的分析,同時使用它做一些網頁數據庫的數據挖掘工作,而每周數據挖掘量達到了3000TB,Hadoop在雅虎同樣也被運用。

縱觀大數據,我們不難發現當今互聯網時代走在前列這些企業和集體都在爭先恐后的投入到大數據的浪潮中,進一步證明了大數據并非是風行一時,也充分體現了大數據市場的巨大潛在價值,大數據正在正默默的改變這企業傳統運作模式,一個大數據時代已經到來,誰先掌握了大數據技術那么誰就搶占了市場先機。文章來源:CDA數據分析師培訓官網

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢