熱線電話:13121318867

登錄
首頁職業發展馬如悅:大規模數據分析系統的搭建
馬如悅:大規模數據分析系統的搭建
2016-02-23
收藏

馬如悅:大規模數據分析系統的搭建

大數據全球技術峰會在北京富力萬麗酒店召開。本次峰會將圍繞大數據基礎架構與上層應用的生態系統,解決大規模數據引發的問題,探索大數據基礎的解決方案,激發數據挖掘帶來的競爭力,讓數據發出聲音。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數據的盛宴,



 在第二天的數據挖掘與實時分析專場,第一場演講由百度基礎架構部高級工程師馬如悅帶來,他的主題是大規模數據分析系統的搭建。馬講師預測,到2015、2016年,數據分析將和移動、云計算一樣熱門,因此現在未雨綢繆很有必要。

馬講師首先提出了兩個觀點,數據系統和分層設計。數據系統必須包括storage和query,因此mysql是數據系統,而HBase、NoSQL只能算存儲層。另外,大數據必須采用分層設計,包括:垂直分層-時效性庫,水平分層-OLTP、OLAP、NoSql等。分層可以減少設計復雜性、減少使用運維復雜性、資源效率使用最高。

為什么要提出這兩個觀點呢,因為第一,從小數據到大數據,數據的存儲、處理都是不同的;第二,大數據系統也是storage+query;第三,大數據因為過于heavy,需要分層考慮。

另外,馬講師還提到了最近大數據系統的趨勢,Newsql和Interactive analysis開始被人提及和研究,nosql太過原始,sql容量性能有限,newsql相當于sql和nosql的中間實現,即帶有事物處理的nosql;Hive響應太慢,數據庫容量性能有限,而Interactive analysis可以解決這些問題。

最后,馬講師講到了大數據分析的架構設計,底層是ETL-1,然后裝進數據倉庫,然后通過ETL-2,對數據進行分析,以前我們關注的都是底層,但是數據挖掘和分析缺乏關注。發展趨勢是數據量越來越大,維度越來越多,從以人為主到以機器為主,用戶專業度越來越高,但數量減少。

大數據系統搭建的一些解決方案,分別是商業版和開源版。開源版還沒有很成熟的產品來構建大數據下的OLAP,中等規??梢杂肏PCC解決方案,可以代替一些商業產品。

在QA環節,來自Oracle的參會者和馬講師就商業與開源進行了精彩的辯論,馬講師講到,如果數據是公司的核心競爭力,那么采用開源方案可以不依賴他人,并且有自己的技術專利。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢