熱線電話:13121318867

登錄
首頁職業發展大數據不是謊言
大數據不是謊言
2014-11-24
收藏

大數據不是謊言

近日在網上看到一篇題為《SAP Sybase CTO:“大數據是個大謊言”》的評論,筆者被其標題所吸引并點擊閱讀。那么,這篇看似與當今火熱的“大數據”概念相悖的文章都說了些什么呢?

  我現在主要關注存儲領域,對于軟件和應用有些外行。不過像EMC這樣的傳統企業存儲廠商都通過收購Greenplum進入大數據領域,筆者不得不也做些了解,下面簡單談談自己在這方面的認識。

  大數據究竟是不是一個謊言?

  SAP在該文中的觀點,可以簡單歸納為:使用列式數據庫就可以應對包含非結構化數據在內的“大數據”分析。當然SAP也使用了“數據倉庫”一詞,就是說他們在數據量的增長方面,與新興的Teredata(天睿)、被IBM收購的Netazza,以及被EMC收購的Greenplum等公司的認識是一樣的。

  屬于SAP的Sybase這樣說自然有其所處立場的原因。根據我的理解,列式數據庫中每一列的長度可以不固定,適用于存放大小不等的數據對象,因此能夠處理傳統行式數據庫無法應對的非結構化數據。SAP和上述幾款數據倉庫產品也都提到了壓縮對于節省空間和在一些情況下提高數據加載速度的重要性,類似的是被Oracle分別收購的Sun ZFS和Pillar Axiom存儲產品線加入了適用于自家數據庫的混合列式壓縮功能,將相關工作卸載到存儲硬件上來執行。

  筆者認為,“大數據”相對于傳統交易型數據庫,除了強調挖掘其商業價值、分析之外,上面沒有提及的還有對硬件設備的需求特點。請大家先看看下面這個表: 

 
筆者較早下載的一個EMC文檔中,Greenplum DCA的規格表
  上面為EMC Greenplum DCA(Data Computing Appliance,數據計算設備)產品家族的規格表。其中GP1000和GP1000C的區別主要在于后者針對大容量,應該是使用了低轉速(7200rpm)硬盤,因此未壓縮/壓縮可用容量分別達到了124TB和496TB,數據掃描速度為14GB/s;而GP1000估計是相對小容量高轉速(10K/15K rpm)的硬盤,容量比不上GP1000C,當數據掃描速度高達24GB/s。
  這里強調數據加載和掃描速度(帶寬)而不是IOPS,可以明顯地反映出與OLTP應用之間的區別。另外,這兩款Greenplum DCA都是由2臺主服務器和16臺片段(Segment)服務器組成,也就是說都是基于高性價比的工業標準x86服務器的MPP(大規模并行處理,最多6個機架)分布式可擴展架構。這也是許多“大數據”設備共同的特點。
  如果說Greenplum DCA是該產品線的硬件基礎的話,那么像Greenplum Database、Greenplum HD就是運行在上面的數據平臺,如今其中又加入了一位新成員“Made in China”的Greenplum Chorus。
EMC全球副總裁兼中國區總裁蔡漢輝(左)和全球副總裁兼中國研發集團總經理李映(右),借一個月之前EMC宣布收購Privotal Labs和推出Greenplum Chorus之機,于上周向國內媒體介紹該公司的大數據戰略。
  對于大數據,EMC全球副總裁兼中國卓越研發集團總經理李映博士的看法是:“首先大數據的第一個概念就是大,無論是存儲也好,數據分析也好,你原來可能說可以處理TB,現在隨著硬件和軟件的提高,現在你的數據可以乘一、乘二、乘三,是不是可以認為自己處理大數據呢,我們理解是不是的,它是隨著數據量的增長和復雜程度產生對你處理數據和存儲數據必須采取完全不同的處理的方法、解決的方法才可以解決這個問題,所謂的從量變到質變,這才是大數據的概念現在變成熱門最主要的目的。原來你可能是縱向擴展,你原來可能是交易數據,在這個方面很容易處理,但是你在傳統的數據不能處理的時候這樣也可以稱之為大數據?!?/span>
  EMC Greenplum UAP(統一分析平臺)
  在Greenplum UAP(統一分析平臺)架構中,底層硬件的選擇范圍比較靈活,可以是“云架構、x86集群設備或者一體機”,它上面由數據平臺管理員負責的Greenplum數據庫和Greenplum Hadoop(HD)我們已經不陌生了,那么再往上除了“數據訪問和查詢層”、“三方/合作伙伴工具和服務”之外,在與數據打交道的各種用戶之間又加入了一個“Greenplum Chorus-分析生產力層”。也就是說Chorus是處于Greenplum結構化/非結構化數據平臺和用戶分析應用之間的銜接部分。
  專門負責Greenplum Chorus產品線,EMC中國研發集團的資深產品經理莊富任先生是這樣表示的:“去年對于Greenplum來講有一個很重要的時刻,我們提出一個新的概念,叫做統一分析平臺,就是針對海量數據有一個統一分析的平臺,它包含什么呢?有三個主要部分,剛才也提到了第一是Greenplum的數據庫,第二是Greenplum HD非結構化的數據,這有什么不一樣的呢?數據庫很傳統,就是儲存一般化的數據,這已經發展了好幾十年了。我們看到客戶越來越多的需求,剛才提到非結構化數據,什么是非結構化數據呢? 
  我們可以看見文件是非結構化數據;對于Internet來講網站的數據是非結構化數據;對電信業者來講,每個人打電話的明細是非結構化數據。這樣的數據增長的非???,我是不是有能力去幫助這些客戶儲存這些數據,用一個很便宜的架構,去存儲這樣的數據?這就是Greenplum的產品公布,可以幫助客戶用最便宜的價格去存儲這些數據。第三就是Greenplum Chorus,是基于這上面的協作分析平臺,因為有了數據的儲存,需要有一個共同的平臺去分析底下的結構化跟非結構化數據?!?nbsp;
  Pivotal Labs、Chorus及其中國研發團隊
  EMC全球副總裁兼中國區總裁蔡漢輝在演講中提道:“我們在3月下旬剛剛收購了一個公司叫做Pivotal Labs,這是個舊金山的公司,就是在敏捷開發方面提供服務和軟件的。(上圖)底下都是一些有名的公司,他們都是Pivotal Labs的客戶,比如Salesforce.com、Twitter等等?!?/span>
  對于為什么要推出Chorus,或者說收購Pivotal Labs這家公司?李映表示:“更重要的是把這個數據分析的結構更快的應用到應用中,使用到和你的業務流程很好的結合在一起。能不能很快的滿足你的二次開發或者需求,這是很關鍵的要素。EMC最關鍵的要素是我們能夠提供一體機的解決方案,同時我們滿足客戶有開放的選擇,第二個是很好的敏捷的開發,很快的把現有流程改變,以及一些新的應用開發達到很好的滿足,這是我對打包方案的看法?!?/span>
  EMC表示Chorus是全球第一個基于協作分析的大數據平臺,號稱“數據科學家的Facebook”。對于EMC Greenplum Chorus中國造,又是怎么回事呢?
  Pivotal Labs公司創立于1989年,總部位于舊金山,而其研發團隊應該就在國內。我們覺得這給他們被EMC收購后并入中國卓越研發集團北京研發中心帶來了很大方便,估計在對國內用戶的支持上也容易做得比較到位吧。
  對于Greenplum Chorus的四大重要功能:個人沙盒、數據發掘、協作分析和開放架構,以及將于今年“開源”,這些已經偏向軟件應用及開發領域,筆者沒有什么更多的高見。如果再多寫一些難免人云亦云,想進一步了解更多信息的讀者估計也會看到其他媒體的相關報道,我想EMC也是樂于講給用戶聽的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢