熱線電話:13121318867

登錄
首頁精彩閱讀用Google BigQuery做入門級大數據分析
用Google BigQuery做入門級大數據分析
2016-02-21
收藏

用Google BigQuery做入門級大數據分析

大數據項目是比較繁瑣的,特別是涉及到配置和管理Hadoop集群。如果你對SQL比MapReduce更熟悉,而關系型數據庫尚不能滿足你的分析需求,那么可以考慮使用Google的BigQuery,它提供了大數據分析入門級方法。

BigQuery降低了分析大數據集所面臨的一些實施困難。它的定價模式很具吸引力,你可以從樣本數據中獲取有用信息,而不用對完整的數據集做分析。

用Google BigQuery做入門級大數據分析

有時候,處理大數據的一些手段相當于是用精確度換速度。例如,如果你想判斷兩組客戶瀏覽網站的路徑是否有差異,你可以分析該站點上所有相關客戶活動的每個日志入口。當然,你也可以抓取客戶群的子集(也就是部分客戶信息),在樣本數據中分析差異?;镜慕y計可以為你提供理解這類分析錯誤率的手段,只要差錯在可接受范圍內,你得出的答案就足夠你決策用了。

這種交換可以通過TOP函數得到,該函數返回分組和排序操作中的前幾行。返回結果可能比較近似,但是該函數通常比使用“group by”、“order by” 、“limit”相結合的從句要更快速。

Google BigQuery特性

BigQuery是專門為分析上億行級的數據而設計的,使用類似SQL的語法即可操作。它并不是SQL數據庫的替代品,而且不適合事務處理應用。BigQuery支持交互風格的分析,你可以使用“SELECT”語法編寫查詢,這對任何SQL開發者來說都是再熟悉不過的了。

查詢語言包括支持標準操作,比如連接、排序和分組,以及與嵌套數據結構使用操作符。BigQuery也支持聚合函數,比如計數、求和、求平均值、求方差和標準差。分組函數和描述性統計的相結合,使得比較兩個群體之間的方法和方差相對更直接一些。

在正常的數據模型中,連接是必不可少的操作,但是可能產生高昂的計算代價。BigQuery函數中的“JOIN”連接操作符與SQL連接類似,但是在連接兩個表時,其中一個表的大小必須可以壓縮為8MB或更小。這種限制支持實現更有效率的連接操作,因為較小的表可以更有效率地緩存,并連接較大的表。如果你必須連接兩個較大的表,你可以使用JOIN EACH操作,但是估計性能會很差。

你可以使用簡單的瀏覽器界面與BigQuery交互。瀏覽器工具會保留查詢歷史并提供方便構造查詢的工作空間。這是一個很簡單很基礎的工具,它并沒有其他SQL開發工具中的完整功能特性,比如MySQL Workbench或者DBVisualizer。當然,你還可以使用命令行接口。

Google BigQuery的定價模式

Google的定價模式是基于存儲數據量和待分析數據量而建立的。存儲量價格是每月每GB數據0.12美元。交互式查詢處理每GB數據收費0.035美元,批量查詢處理每GB數據時0.02美元。要想限制處理的數據量,你可以限制你分析的行數,并且只獲取實際需要的字段列作為結果返回。BigQuery采用列式數據存儲,所以在查詢一列或多個列時,不會提取整行中的所有數據。

數據是通過加載任務載入BigQuery,加載任務可以使用Google云存儲中的數據,或者也可以從本地文件系統中獲取使用“POST”請求傳輸。文件格式化為CSV或者JSON格式。壓縮文件的大小被限制在1GB之內,但是未壓縮文件可以達到1TB。加載任務可以包含多達一萬個文件,但是所有文件加起來大小不能超過1TB。因為你每天每個表執行的加載任務可以高達一千個,所以這些限制對絕大多數項目來說是沒有實際影響的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢