熱線電話:13121318867

登錄
首頁精彩閱讀大數據的簡單介紹_大數據
大數據的簡單介紹_大數據
2014-09-06
收藏

     大數據的簡單介紹_大數據

一、大數據的定義和特征
     1.大數據的定義
     對于大數據還沒有一個正式的定義,目前最為普遍的定義就是“用傳統方法或工具不能處理或分析的數據”。不同的定義基本是從大數據的特征出發通過這些特征的闡述和歸納試圖給出其定義。在這些定義中比較有代表性的是3V定義,即認為大數據需滿足3個特點:規模性(volume)多樣性(variety)和高速性(velocity)。除此之外還有提出4V定義的,即嘗試在3V的基礎上增加一個新的特性。關于第4個V的說法并不統一,國際數據公司(International Data Corporation, IDC)認為大數據還應當具有價值性(value),大數據的價值往往呈現出稀疏性的特點。而IBM認為大數據必然具有真實性(veracity)。維基百科對大數據的定義則簡單明了:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。
     2.大數據的特征
     3V認為大數據具有規模性、高速性和多樣性三大特征,這些特征是傳統數據處理方法和工具所無法勝任的。
     2.1規模性(Volume)是指數據量非常龐大,主要體現在數據存儲量大和計算量大。根據IDC《數字宇宙膨脹:到2010年全球信息增長預測》中統計的數據,2006年全球每年制造、復制出的數字信息量共計16.1萬PB,當年信息產生量大約是歷史上圖書信息總量的3000倍;至2010年,數字信息總量達98.8萬PB。專家指出,2020年年度數據將增加43倍。因此,大數據中的數據不再以幾個GB或幾個TB為單位來衡量,而是以PB(1千個T)、EB(1百萬個T)或ZB(10億個T)為計量單位。
     2.2高速性(Velocity)一方面是指數據在不斷更新,增長的速度快,另一方面是指數據存儲、傳輸等處理速度很快。短短60秒,YouTube用戶會上傳48小時的視頻;Google會收到200萬次搜索請求并極快地返回結果;Twitter要處理100萬條Tweets信息;網購產生27.2萬美元的交易;App Store有4.7萬次下載;全球新增網頁571個。數據處理的速度也要求越來越快,甚至是實時處理,比如災難的預測,需很快的對災難發生的程度、影響的區域范圍等進行量化。如日本大地震發生后僅9分鐘,美國國家海洋和大氣管理局(NOAA)就發布了詳細的海嘯預警。
     2.3多樣性(Variety)指數據包含結構化的數據表和半結構化、非結構化的文本、視頻、圖像等信息,而且數據之間的交互非常頻繁和廣泛。
     具體包括三個方面:
     一是數據來源多,企業所面對的傳統數據主要是交易數據,而互聯網和物聯網的發展,帶來了諸如微博、社交網站、傳感器等多種來源。
     二是數據類型多,并且以非結構化數據為主。傳統的企業中,數據都是以表格的形式保存。而大數據中70%-85%的數據是如圖片、音頻、視頻網絡日志、鏈接信息等非結構化和半結構化的數據。
     三是數據之間關聯性強,頻繁交互。如游客在旅游途中上傳的照片和日志,就與游客的位置、行程等信息有了很強的關聯性。
     二、傳統數據庫和大數據的比較
     1.最基本的區別在于數據規模、數據類型、產生模式。
     2.處理對象的變化。傳統的數據庫中數據僅作為處理對象,而在大數據時代,要將數據作為一種資源來輔助解決其他諸多領域的問題。
     3.處理工具的改變。從以計算為中心轉變到以數據處理為中心。
     三、大數據的處理模式
     大數據的應用類型有很多主要的處理模式可分為流處理(stream processing)和批處理(batch processing)兩種。批處理是先存儲后處理(store-then-process),而流處理則是直接處理(right-through processing)。
     1.大數據流處理
      流處理的基本理念是數據的價值會隨著時間的流逝而不斷減少,因此盡可能快地對最新的數據作出分析并給出結果是所有流數據處理模式的共同目標。需要采用流數據處理的大數據應用場景主要有網頁點擊數的實時統計、傳感器網絡、金融中的高頻交易等。
流處理的處理模式將數據視為流,源源不斷的數據組成了數據流。當新的數據到來時就立刻處理并返回所需的結果。
快且規模巨大等特點,因此通常不會對所有的數據進行永久化存儲,而且數據環境處在不斷的變化之中,系統很難準確掌握整個數據的全貌。
      由于響應時間的要求,流處理的過程基本在內存中完成,其處理方式更多地依賴于在內存中設計巧妙的概要數據結構(synopsis data structure),內存容量是限制流處理模型的一個主要瓶頸。以PCM(相變存儲器)為代表的儲存級內存(storage class memory, SCM)設備的出現或許可以使內存未來不再成為流處理模型的制約。
      數據流的理論數據的實時處理是一個很有挑戰性的工作,數據流本身具有持續達到,速度及技術研究已經有十幾年的歷史,目前仍舊是研究熱點。與此同時很多實際系統也已開發和得到廣泛的應用,比較代表性的開源系統如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka22等.
      2.大數據批處理
      Google公司在2004年提出的MapReduce編程模型是最具代表性的批處理模式。
      MapReduce模型首先將用戶的原始數據源進行分塊,然后分別交給不同的Map任務區處理。Map任務從輸入中解析出健/值(Key/Value)對集合,然后對這些集合執行用戶自行定義的Map函數得到中間結果,并將該結果寫入本地硬盤。Reduce任務從硬盤上讀取數據之后會根據Key值進行排序,將具有相同Key值的組織在一起。最后用戶自定義的Reduce函數會作用于這些排好序的結果并輸出最終結果。
從MapReduce的處理過程我們可以看出MapReduce的核心設計思想在于:
      a)將問題分而治之
      b)把計算推到數據而不是把數據推到計算,有效地避免數據傳輸過程中產生的大量通信開銷。
      MapReduce模型簡單,且現實中很多問題都可用MapReduce模型來表示。因此該模型公開后立刻受到極大的關注,并在生物信息學、文本挖掘等領域得到廣泛的應用。
      無論是流處理還是批處理都是大數據處理的可行思路。大數據的應用類型很多,在實際的大數據處理中?常常并不是簡單地只使用其中的某一種而是將二者結合起來?;ヂ摼W是大數據最重要的來源之一,很多互聯網公司根據處理時間的要求將自己的業務劃分為在線(online)、近線(nearline)和離線(offline),比如著名的職業社交網站Linkedin的劃分方式是按處理所耗時間來劃分的。其中在線的處理時間一般在秒級甚至是毫秒級,因此通常采用上面所說的流處理。離線的處理時間可以以天為基本單位,基本采用批處理方式,這種方式可以最大限度地利用系統I/O。近線的處理時間一般在分鐘級或者是小時級,對其處理模型并沒有特別的要求,可以根據需求靈活選擇,但在實際中多采用批處理模式。
      3.大數據的基本處理流程
      "數據分析師"整個大數據的處理流程可以定義為在合適工具的輔助下,對廣泛異構的數據源進行抽取和集成,結果按照一定的標準統一存儲。數據分析師利用合適的數據分析技術對存儲的數據進行分析,從中提取有益的知識并利用恰當的方式將結果展現給終端用戶。具體來說可以分為數據抽取與集成,數據分析以及數據解釋。
      四、大數據與云計算的關系
      1.相同點。它們都是為數據存儲和處理服務的,都需要占用大量的存儲和計算資源,而且大數據用到的海量數據存儲技術、海量數據管理技術、MapReduce等并行處理技術也都是云計算的關鍵技術。
       2.不同點。
       2.1云計算的目的是通過互聯網更好地調用、擴展和管理計算及存儲資源和能力,以節省企業的IT部署成本,其處理對象是IT資源、處理能力和各種應用。云計算從根本上改變了企業的IT架構,產業發展的主要推動力量是存儲及計算設備的生產廠商和擁有計算及存儲資源的企業。
       2.2大數據的目的是充分挖掘海量數據中的信息,發現數據中的價值,其處理對象是各種數據。大數據使得企業從“業務驅動”轉變為“數據驅動”,從而改變了企業的業務架構,其直接受益者不是?IT?部門,而是業務部門或企業CEO,產業發展的主要推動力量是從事數據存儲與處理的軟件廠商和擁有大量數據的企業。
       因此,不難發現云計算和大數據實際上是工具與用途的關系,即云計算為大數據提供了有力的工具和途徑,大數據"數據分析師"為云計算提供了很有價值的用武之地。而且,從所使用的技術來看,大數據可以理解為云計算的延伸。
       大數據若與云計算相結合,將相得益彰,互相都能發揮最大的優勢。云計算能為大數據提供強大的存儲和計算能力,更加迅速地處理大數據的豐富信息,并更方便地提供服務;而來自大數據的業務需求,能為云計算的落地找到更多更好的實際應用。當然大數據的出現也使得云計算會面臨新的考驗。數據分析師培訓

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢