熱線電話:13121318867

登錄
首頁職業發展大數據技術論壇(上):Spark、Hadoop技術成主角
大數據技術論壇(上):Spark、Hadoop技術成主角
2015-01-01
收藏

大數據技術論壇(上):Spark、Hadoop技術成主角


2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大數據科研、應用與產業發展為主旨的2014中國大數據技術大會(Big Data Tec就hnology Conference 2014,BDTC 2014)暨第二屆CCF大數據學術會議在北京新云南皇冠假日酒店盛大開幕。

2014中國大數據技術大會第二日上午大數據技術論壇上,百度大數據部副總監薛正華和中國移動集團公司業務支撐系統部項目經理何鴻凌共同主持了上午的論壇。網易NTSE/TNT引擎負責人胡煒、英特爾大數據首席架構師戴金權,VMware資深業務解決方案架構師介文清,搜狐移動研發部經理劉佳, Admaster技術副總裁盧億雷5位專家主要專注于大數據技術展開演講。

大數據技術論壇主持人:百度大數據部副總監 薛正華

大數據技術論壇主持人:中國移動集團公司業務支撐系統部項目經理 何鴻凌

胡煒:網易數據庫壓縮技術

12月14日,在大數據技術論壇上午的演講中,網易NTSE/TNT引擎負責人胡煒發表主題為“網易數據庫壓縮技術”的演講。胡煒認為理想中的壓縮技術應該是無論你提供哪種壓縮技術,它都應該是智能化的、在數據的壓縮、解壓以及在壓縮數據訪問達到高效率、無論用什么方式去壓縮和解壓,都要保持靈活性。

網易NTSE/TNT引擎負責人 胡煒

對于數據庫壓縮特點,胡煒總結出五點:

  1. 無損壓縮技術。一般來說數據庫壓縮一般會采用通用算法;
  2. 數據分布影響。它代表內容的隨機性,代表了所謂壓縮的極限,其實不同的數據對采用不同的壓縮算法,可能會導致它的數據最后壓縮效果會有很大的差別。如果我是一個非常非常冗余的數據,最后可能會得到非常好的壓縮效果;
  3. 硬件影響。硬件對于壓縮來說,也是一個非常重要的影響因素。因為無論是存儲,還是CPU,還是內存,隨著日新月異的發展,它其實對壓縮算法的選擇來說,會有一個非常大的導向性。
  4. 壓縮單位。壓縮單位對數據庫壓縮有非常大的影響,它可以做到像整個文件級的壓縮,或者說是一個數據表級別的壓縮,或者是做到像塊級別,頁面級別的壓縮。甚至更小到行級的,到一個屬性級別的壓縮。采用不同的壓縮單位,也相當來說對于這樣的壓縮來說,會產生比較大的不同。
  5. 吞吐率要求。數據庫壓縮對吞吐率要求非常高,無論選擇哪種算法,都不能過多地犧牲吞吐率。如果你采用文件壓縮的策略,如果每次訪問都要去解壓整個文件,那可能是一個得不償失的做法。 

最后,胡煒介紹網易大數據壓縮方式是在全局建立字典上,通過區分數據屬性進行靈活的在線壓縮、解壓,訪問效率相比傳統壓縮提高2倍到10倍左右。接下來,胡煒計劃通過更多的統計信息,實現采集字典的自動劃分功能。

戴金權:基于Spark軟件棧的下一代大數據分析


英特爾大數據首席架構師 戴金權

英特爾大數據首席架構師戴金權表示,大數據深入分析大致分為兩類:類似SQL數據分析,進行關系型云運算;達到實時、快速的數據分析速度。他認為,利用Spark構建下一代大數據分析,能夠為用戶構建新的應用場景及新的分析應用,并舉例說明SparkSQL結構式數據結合的方式,對

Hive和Parquat進行數據處理。

介文清:12306:改變傳統思路解決問題的NoSQL實踐

介文清以12306為例展開演講,介紹如何運用NoSQL建設余票查詢系統、訂單查詢系統,并且,實現每秒1萬次訂單查詢、余票10分鐘更新一次的頻率。

VMware資深業務解決方案架構師 介文清

介文清表示傳統設計的系統架構無法解決,12306網站數據流量問題。系統切換時,將SQL數據庫進行抽取,送到NoSQL集群中,數據量進行并行運算,開始新舊系統工作負載在90%—10%之間,運行正常之后可完全放在新系統中運行。

劉佳:基于全網內容的新聞客戶端推薦系統

劉佳針對新聞客戶端遇到的內容分類質量識別圖文、視頻、音頻、游戲、數據稀疏、內容冷啟動、用戶冷啟動、噪音處理:三俗內容等棘手問題的處理方式展開演講。

搜狐移動研發部經理 劉佳

首先,劉佳介紹搜狐移動端新聞推薦的兩個特點:

  1. 廣告系統。廣告系統,搜狐追求轉化率、輔助指標ROI、用戶效果。
  2. 搜索系統。搜索引擎中,追求對內容理解、內容爬取、文本關鍵詞主題提取、文本分類、主題分類、內容索引、垃圾過濾、page rank、反作弊等等。

隨后,劉佳介紹新聞推薦系統中三俗內容的處理方式,他說:“推薦系統出現三俗內容,可以提高18%-20%的轉化率,雖然可以暫時提高點擊率,但是對用戶的粘性有很大的影響。我們會通用戶閱讀分布、用戶屬性分布統計性和精細化的分類進行篩選三俗內容。整體處理后,轉化率下降到15%,推薦總量提升20%,用戶使用頻次也有20%的提升?!?/span>

盧億雷:Hadoop在廣告監測技術的實踐

盧億雷圍繞廣告營銷數據流程、廣告監測技術特點、廣告監測數據差異、廣告數據挖掘平臺架構、ADH在廣告營銷數據挖掘的特、AdMaster數據分析平臺六點展開演講。

Admaster技術副總裁 盧億雷

演講中,盧億雷表示,ADH是針對廣告行業做出來的Hadoop,他有以下五個特點:

  1. 日志信息或數據放在Hadoop里,會自動生成所需要的數據格式;
  2. 內置廣告算法,MR可以提供Hadoop服務;
  3. 對于HBase做出改造,例如項目排序、項目索引等做出相應優化;
  4. 優化Hadoop調度系統;
  5. 集成Spark。

在廣告監測數據中,盧億雷總結出:不同IP庫系統導致出現不同地域結論;監測代碼部署時點的不同;監測機制和指標定義的差異;移動APP較不穩定的網絡環境等是導致數據差異的主要因素。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢