熱線電話:13121318867

登錄
首頁職業發展大數據技術論壇(下):大數據時代的掘金術
大數據技術論壇(下):大數據時代的掘金術
2015-01-01
收藏

大數據技術論壇(下):大數據時代的掘金術


2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大數據科研、應用與產業發展為主旨的2014中國大數據技術大會(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數據學術會議在北京新云南皇冠假日酒店盛大開幕。

用友軟件高級工程師 白小勇

2014中國大數據技術大會第二日上午的大數據技術論壇,用友軟件高級工程師白小勇主持了下午的論壇。前通聯數據首席戰略官龍白滔、VMware高級產品線經理董波、亞信科技大數據事業部數據資產管理部門產品總監高偉、阿里巴巴數據平臺事業部ODPS技術專家徐冬、攜程資深軟件工程師廖曉格、品友互動數據架構師廖海仁六位專家主要就大數據技術的相關問題展開了演講。

前通聯數據首席戰略官 龍白滔

前通聯數據首席戰略官龍白滔,帶來了名為“金融投資大數據實踐分享”的主題演講。龍白滔從金融大數據和傳統大數據的區別;金融數據的生產過程;金融大數據的存儲;金融大數據的分析和挖掘;分析在線交互式金融編程分析研究平臺五個方面對金融大數據實踐進行分享。

金融大數據和消費互聯網大數據的區別體現在以下幾個方面:

  • 研究對象:消費互聯網大數據比較偏重研究個體的行為體征,而金融大數據數據比較偏重研究群體行為和趨勢;
  • 數據相關性:消費互聯網大數據與個體強相關的數據比較容易獲得(例如瀏覽器cookie),數據噪音小,金融大數據與群體行為強相關的數據比較難獲得,數據噪音大;
  • 算法復雜度:消費互聯網大數據因為數據質量高,所以算法可以相對較簡單,而金融大數據因為數據噪音大,因此對算法要求很高;
  • 數據容量:相比消費互聯網大數據,金融大數據的數據量更大,互聯網大數據+ 金融專門的大數據(例如行情數據、行業數據、分析師報告等);
  • 數據類型:消費互聯網大數據有多種結構化和非結構化數據,而金融大數據的數據類型更多,互聯網的數據類型+ 金融特別的數據類型,例如時間序列數據;
  • 數據速度:消費互聯網大數據一般數據處理速度要求不高,而金融大數據對數據處理速度要求比較高,例如量化交易、動態風險定價、反信用卡欺詐、實時新聞分析和處理等;

其中,他表示時間序列數據是未來最重要的數據類型,所以掌握時間序列數據的存儲、處理以及關鍵算法是十分重要的。比如KDB是傳統金融機構的標配,Cassandra在國外的物聯網和能源領域已經得到了比較成功的應用。隨后,龍白滔還介紹了如何把結構化、標準化數據形成有意義的金融行業數據。龍白滔還提到相比國外,國內對前言技術的掌握和應用還差得比較遠。

VMware高級產品線經理 董波

VMware高級產品線經理董波,向大家分享了“VMware為大數據應用鋪平道路 ”主題演講。企業對大數據的應用通常要經歷三個階段:概念驗證階段,快速低成本的驗證大數據技術帶來的價值;生產應用階段,滿足應用SLA,滿足系統擴容需求;以及Hadoop即服務階段,快速敏捷高效的滿足各個業務的差異化需求。

vSphere Big Data Extension能夠幫你快速簡便部署,讓你全力關注業務,并且BDE可與第三方管理工具無縫集成。vRealize Operations Manager,能夠實現系統全面監控,智能自動分析管理,基于預測主動運維。vSpherevMotion能夠消除計劃或非計劃宕機時間,檢測失效自動恢復。

董波在演講中還提到,運用Hadoop集群管理平臺,可平衡處理企業中各部門集群使用需求。他說,當多個部門需求Hadoop集群服務,并且需求各不相同時,需要建設自助服務平臺來解決此類問題。VMware推出的VCAC產品,可彈性伸縮處理各部門的集群使用需求,并且減少IT管理人員處理壓力。

亞信科技大數據事業部數據資產管理部門產品總監 高偉

亞信科技大數據事業部數據資產管理部門產品總監高偉,與現場參會者分享了主題為“數據資產管理——大數據時代的掘金術 ”。數據資產管理是企業或組織采取的各種管理活動,用以保證數據資產的安全完整,合理配置和有效利用,從而提高帶來的經濟效益,保障和促進各項事業發展。高偉表示盡管“數據是資產”概念已經廣為人知,但“如何管理數據資產”仍然缺少成熟理論以及工具手段,存在市場空白。

傳統數據管理方式不適合數據資產管理要求,亞信提倡建立一體化全流程的數據資產管理體系,具有以下關鍵特性:完善的數據治理與管控,高效的數據資產應用,以及創新的數據資產運營。最后,高偉總結道,數據資產管理已達到與CRM相同的高度,并呼吁數據資產管理技術人員,要考慮如何將技術與業務及商業相結合。

阿里巴巴數據平臺事業部ODPS技術專家 徐冬

阿里巴巴數據平臺事業部ODPS技術專家徐冬,分享了主題為“ODPS MapReduce 對外開放實踐 ”。演講中,徐冬主要談到ODPS(Open Data Process System)在阿里云巴巴的使用情況;在ODPS上搭建LOT模型;MapReduce實現過程;MapReduce API介紹以及MapReduce API開放用戶實踐。ODPS作為阿里大規模數據處理的底層平臺,每日提交數十萬計任務,底層是跨數據中心的超大規模集群,支持多種編程模型、范式。

其中,徐冬提到MapReduce API在兩個方面進行了調整,包括:取消對MapReduce自定義類型支持、希望將MapReduce API做成類似Hadoop。最后,他表示MapReduce作為開放服務,明年年初將會對用戶開放。

攜程資深軟件工程師 廖曉格

攜程資深軟件工程師廖曉格,分享了主題為“讓大數據更實時和可視化”。廖曉格主要介紹了攜程大數據平臺架構,HBase在攜程的應用,攜程產品的生態介紹,以及未來的挑戰。

攜程每天的日志量40T,總條數上千億條,每天用戶行為數據30T,并且業務數據飛速增長,所有數據都需要及時反饋給用戶,應用或監控。攜程大數據平臺架構與Hadoop生態環境類似,底層使用HDFS,上面是調度系統,并且通過MapReduce、Spark做離線數據分析,Storm和HBase做在線數據分析。其中HBase是按業務劃分,底層構建HBase門禁系統。攜程還構建了一套Mobile監控系統和UBT(User Behavior Tracking)系統,用來跟蹤用戶行為和用戶流量,并形成直觀的可視化圖像。

品友互動數據架構師 廖海仁

品友互動數據架構師廖海仁,帶來了名為“DSP 基于數據的實時競價優化”的主題演講。首先,他首先介紹DSP優化中的五個特征

  • DSP跟其他AdNetwork/Serach大不相同,它作為封閉系統,永遠與其他DSP去競爭;
  • 對于DSP而言,廣告主可能有非常多樣化的KPI,結算方式也是多樣化,廣告主KPI可能是CTR、CPC、CPA、ROL/CPNC等;
  • 在投放的過程中,對Budget consumption的預估更嚴格;
  • 要準確預估CTR/CVR;
  • 點擊和曝光不平衡;

隨后,廖海仁重點介紹DSP優化過程中重要問題:第一,Ranking,搜索廣告,每個廣告有不同的KPI;第二,sample Selection bias,解決問題前需要進行CTR預估;第三,mobile optimization,mobile優化與PC有很大的差別,需要單獨解決。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢