熱線電話:13121318867

登錄
首頁精彩閱讀玩轉大數據,你可能需要這12種工具
玩轉大數據,你可能需要這12種工具
2014-12-23
收藏

玩轉大數據,你可能需要這12種工具


你會如何度量一個 無論是在構建大數據的應用程序,還是僅僅只想從開發的移動應用中得到一點點啟發,程序員現在比以往任何時候都需要數據分析工具。這絕對是一個好東西,所以很多公司從程序員的需求和技能出發,構建了一些數據分析工具。

在過去的幾年里,Derrick看到了很多初創公司,各類項目以及開發工具等等,它們都旨在為程序員帶來先進的數據分析能力。有時候,程序員們會使用簡單的腳本開發出強大的顯示效果,或者在開發過程中使用一種更簡易的方式來實現數據的交付功能,Derrick相信這是一個很有意義的發展趨勢。

云計算和移動應用的世界里,圍繞一個簡單的應用開創一個新事業已經比以往要容易的多。甚至在大公司,開發者都在為推銷應用或者推進應用的貨幣化而奮斗。不過在應用的開發過程中,開發者可能需要加入一些數據流,這樣才能讓應用“火”起來。

毋庸置疑,大多數程序員的工作都是圍繞著鋪天蓋地的代碼而絕非數據流。所以程序員們可能需要一點點幫助,Derrick為開發者列舉了12種工具(按字母排序),不過他表示也可能會有遺漏一些不錯的選擇,如果細心的讀者發現的話,請在文章評論中留言。

1. BitDeli

BitDeli是今年11月份在舊金山成立的一家初創公司。它能衡量出任何使用Python腳本的應用程序的指標,聯合創始人兼CEO Ville Tuulos告訴Derrick,腳本可以很簡單,也可以很復雜——甚至未來可以延伸到機器學習。不過和“重量級選手”Hadoop相比,BitDeli自認為是一個輕量級的Ruby。

2. Continuuity

Continuuity是前Yahoo首席云架構師Todd Papaioannou和Facebook HBase的工程師Jonathan Gray的心血結晶,Continuuity想讓所有的公司都能像Yahoo、Facebook一樣運營。該團隊創建了一個大數據工具,它可以簡化Hadoop以及HBase集群的復雜性,而且包含一系列開發套件,旨在幫助程序員開發大數據應用,該平臺采用Hadoop技術,允許開發者在防火墻內外對大數據應用軟件進行部署、擴展和管理。公司聯合創始人兼首席執行官Todd Papaioannou表示,作為一家初創企業,Continuuity正在試圖掀起下一波大數據應用軟件的浪潮,公司所提供的工具能夠大大提高處于開發狀態的軟件不同部分與階段的擴展性。

3. Flurry

Flurry是移動應用統計分析領域里的標桿,正因為在行業內獨特的優勢,它每年的營收高達一億美元。Flurry擁有非常全面的功能,不僅僅只是幫助開發者構建移動應用,它還幫助開發者分析所有的數據,進而產生更大的效益。其實數據也支撐了該公司的廣告網絡,他們通過數據分析可以幫助開發者推送準確的廣告到需要的用戶面前。不過單純從移動應用的數據統計功能來看,Flurry絕對是處于領先地位。其功能模塊設置合理,分析維度全面,分析流程也易于理解。

4. Google Prediction API

Google Prediction API可能是最酷的工具了!Google Prediction API是一個基于云服務的機器學習工具,它可以幫助開發者分析數據,并為應用程序加入情感分析、反垃圾郵件、追加銷售分析、識別可疑活動和診斷等功能。 這套API支持眾多編程語言,比如.NET、Go 、Java、PHP、Ruby、Python、JavaScript、Objective-C以及應用腳本語言等。Google的開發者主頁提供了相關的培訓和開發指南,讀者可以訪問Prediction API介紹頁面進行學習。

5. Infochimps

盡管Infochimps非常努力的想讓自己成為一家企業級的IT公司,但是顯然還有一定的差距。不過與公司同名的平臺的確為開發者們帶來了真正的價值。配置和管理大數據環境的工具稱之為Wukong——這是一個基于Ruby的命令行界面,開發者可以編寫大數據應用調用Data Delivery Service或Hadoop,使用的語法也非常簡單,開發者無需學習MapReduce或者Flume。Infochimps的首席戰略官Dhruv Bansal介紹:常見的情況是,客戶用Infochimps的平臺開發程序處理分析數據,只有在需要批量分析海量數據時才會用到Hadoop?;谶@種經驗,他們的新版本關注的重點是對數據的實時處理功能(而不是Hadoop)。

 

6. Keen IO

Keen IO贏得了Structure 2012 Launchpad的比賽,該賽事致力于為移動開發者提供強大的分析工具。開發者僅需要把一行代碼插入到指定的追蹤位置,該公司同時表示,開發者可以追蹤他們應用程序中的任意代碼。如果是這樣的話,只需要再創建一個顯示面板或者查詢進程就可以把所有的數據轉化成有用的信息。

7. Kontagent

Kontagent的基本業務主要是靠對移動、社交以及Web應用的分析平臺,不過這一切都是建立在Hadoop基礎設施之上。在今年的早些時候,該公司擴展了一項新業務:使用Hive打造了一個數據挖掘服務,并且提供了一個類似SQL的接口進行查詢存儲在Hadoop上的數據,取代了追蹤預定義變量,他們可以對選擇項進行更深入的挖掘。

8. Mortar Data

Mortar Data宣稱“Hadoop,沒有復雜性”。該公司提供了自己的云服務——整合了Pig和Python進而取代了MapReduce——已經有一年的時間了。在11月份,它發布了一個開源的Mortar框架旨在構建一個社區,這樣不僅有利于成員之間共享數據集,也讓構建Hadoop管道變得更容易。Mortar Data在AWS之上運行,目前支持來自Amazon S3以及MongoDB(托管在Amazon EC2之上)的數據源。

9. Placed Analytics

Placed“干掉”了腳本、API還有其他需要開發者“跑腿”的工作,僅僅是交付結果。在Placed的案例中,結果顯示的都是一些細節性信息,例如在何時何地,用戶使用了移動應用以及Web站點。這種類型的信息對吸引廣告商非常有幫助,同時也有助于應用的設計。

10. Precog

Precog提供了一項服務Labcoat,它是一個交互式的開發環境,可以用來編寫基于開源的Quirrel(由Precog實現的統計查詢語言,Quirrel很多方面都與R編程語言比較相似)查詢語言的分析工作,該集成開發環境包含了一個語言學習教程以及一些復雜的函數。Precog的COO告訴Derrick,即使沒有任何編程經驗的人也能在幾個小時內學會操作。

Precog可以從各種數據源抓取輸入數據,其中包括SQL數據庫、Amazon S3、Hadoop、MongoDB、客戶端Web應用和后端服務器等。RESTful API支持開發者從外部源(如Twitter或Facebook)、CSV文件或移動設備抓取數據。抓取的數據保存到一個叫做PrecogDB的定制數據庫中,而且還可以使用人群統計、態度、位置和其他信息,使數據更為豐富。在一次采訪中,Precog的CEO和創始人John A.De Goes解釋到:“系統的架構與數據庫分析有些相似,比如都包括面向列的存儲。但是其區別在于:前者支持完全異構的、非規范化的數據,通過對Quirrel的支持,相對于使用RDBMS進行分析,使用這種類似于“面向大數據的R”的語言,能夠很方便地執行很多更為高級的計算?!?信息來源于infoQ)

11. Spring for Apache Hadoop

雖然Hadoop是用Java語言編寫,但是對Java開發者來說,并不意味著容易學習或者使用。在2012年的早些時候,SpringSource宣布把Spring框貢獻給Apache Hadoop項目,這就讓使用Spring框架構建Java應用程序變得更容易,不過這也意味著整合了其他的Spring框架應用,使用了基于JVM的腳本以及使用Hadoop或者相關的技術如Hive、HBase來進行開發應用程序變得更容易。

12. StatsMix

StatsMix與BitDeli以及Keen IO算得上是一脈相承,StatsMix也是想實現對開發者使用的編程語言進行應用數據的搜集和分析。該服務可以自動追蹤特定的指標,但是需要開發者添加StatsMix API以及預先確定代碼庫。最終的結果將通過一個用戶自定義的顯示面板呈現出來,用戶不僅可以在其上進行分享,也可以把多個數據源整合成一張簡單的視圖。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢