熱線電話:13121318867

登錄
首頁精彩閱讀將大數據的挑戰轉化為大機遇_數據分析師
將大數據的挑戰轉化為大機遇_數據分析師
2015-01-29
收藏

將大數據的挑戰轉化為大機遇_數據分析師


現在,大數據時代已經到來。最近,Facebook宣布其用戶量目前已超過7.5億,每天的分享次數達40億。這是一個非常巨大的數據。根據IDC的預測,從2009年到2020年,數據總量將增長44倍,達到35ZB(zettabyte)。其中,80%的數據都是非結構化數據。無疑,世界已經進入到了大數據時代。因此,如何有效地利用大數據,以及其中所沉淀的信息,成為未來的一大競爭焦點。

什么是大數據?

大數據意味著包括交易和交互數據集在內的所有數據集,其規?;驈碗s程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些數據集的能力。大數據是由三項主要技術趨勢匯聚組成:

大交易數據:在從 ERP 應用程序到數據倉庫應用程序的在線交易處理(OLTP)與分析系統中,傳統的關系數據以及非結構化和半結構化信息仍在繼續增長。隨著企業將更多的數據和業務流程移向公共和私有云,這一局面變得更加復雜。

大交互數據:這一新生力量由源于 Facebook、Twitter、LinkedIn 及其它來源的社交媒體數據構成。它包括了呼叫詳細記錄(CDR)、設備和傳感器信息、GPS 和地理定位映射數據、通過管理文件傳輸(Manage File Transfer)協議傳送的海量圖像文件、Web 文本和點擊流數據、科學信息、電子郵件等等。

大數據處理:大數據的涌現已經催生出了設計用于數據密集型處理的架構,例如具有開放源碼、在商品硬件群中運行的 Apache Hadoop。對于企業來說,難題在于以具備成本效益的方式快速可靠地從 Hadoop 中存取數據。

具體到一家企業/機構,對于大數據沒有明確的規模定義,不過通常其數量介于幾十個太字節到多個拍字節之間。一項由 Unisphere Research 對531名獨立 Oracle 用戶進行的調查發現,百分之九十的企業的數據量在迅速上漲,其中16%的企業每年的增長率達到50%或更高。

不少企業已經感受到失控數據增長對績效造成的沖擊。一項由 Informatica 贊助的 Unisphere Research 調查發現87%的受訪者將企業的應用程序性能問題歸咎于不斷增長的數據量。

數據集成是關鍵

越來越多的機構為了應對大數據現象部署更加先進的大規模并行處理(MPP)數據庫、Hadoop 分布式文件系統、MapReduce 算法、云計算及存檔存儲設施。我們說,數據集成是其關鍵。因為對各個機構來說,讓業務部門能夠訪問所有數據,以便將其應用于整個大數據基礎設施極為重要。

數據集成將讓組織機構能夠利用大數據的最大優勢,即將傳統的交易數據與全新的交互數據組合起來,從而獲得在其它情況下無法達成的洞察力和價值。比如,可以通過社交媒體了解客戶的喜惡,以此充實客戶資料來提高目標行銷效率。沒有數據集成,大數據就僅僅是許多海量數據孤島。

在北京舉行的“大數據世界論壇”上,我們很欣喜地看到,很多演講人和嘉賓都在談論Hapdoop,不少廠商已經提供了基于Hapdoop的解決方案,這與我在美國看到的情況相當,大數據時代真的已經來臨。這些最先由google、Facebook、雅虎等互聯網公司發展起來的技術,在發展到一定程序之后,作為開源技術。由于是開源的,大家都可以使用,吸引了更多企業級用戶開始考慮這種技術,“Big Data”這個概念開始漫延開來。實際上,在Hapdoop出現之前,很多軟件公司已經在做大規模并行處理這樣的數據分析技術了。并不是在“Big Data”之前沒有針對海量數據的分析技術,已經有了,但相對來說是比較昂貴的技術,在性價比方面沒有太好的競爭力。但有了Hapdoop之后,可以比較經濟地進行大數據處理,解決更多的問題。

Informatica 9.1:為大數據而構建

今年6月, Informatica成功地推出了創新的Informatica 9.1 for Big Data,這是全球第一個專門為大數據而構建的統一數據集成平臺。這個平臺的開發目標非常明確,這就是將海量數據帶來的挑戰轉化為重大機遇。在這個產品中,Informatica以18年來積累的數據集成領先技術為基礎,幫助企業用戶充分發揮大數據的業務潛力:

通過大數據集成,實現大數據的業務價值

通過為所有用途提供可信數據,憑借可靠而可信的數據提高業務洞察力和一致性

在IT 部門保持操控權的情況下,以自助服務增強所有用戶獲取相關信息的能力

自適應數據服務可提供按所有項目的業務需求進行調整的相關數據

大數據集成

Informatica 9.1 在大數據集成的三個方面提供了創新和全新功能:

與大交易數據的連接。Informatica 9.1 提供的一個全新關系/數據倉庫設備包可將該連接擴展到專為大數據定制的解決方案。Informatica 9.1 通過與 OLTP 和在線分析處理(OLAP)數據存儲的本地連接,提供了對高流量的交易數據的訪問,最大可達拍字節。

與大交互數據的連接。借助于Informatica 9.1所提供的與新型社交媒體的連接器,訪問如 Facebook、Twitter、LinkedIn 和其它媒體等新數據源。將數據收集范圍擴大到企業所在行業的新興價值數據集,包括設備和傳感器、CDR、海量圖像文件。

海量數據處理。Informatica 9.1提供了新連接功能,可讓IT部門將來自任何來源的數據輸入 Hadoop,同時從 Hadoop 中抽取數據發送給任何目標。此外,該連接還允許對 Hadoop中的數據應用 Informatica 數據質量、數量探查和其它技術。對于在 Hadoop 系統內外合并交易和交互數據的企業來說,這些功能提供了全新的可能性。

一些大數據的應用實例

實例1:網絡營銷公司得以降低成本

這家網絡聯盟營銷公司是全球最大的互聯網服務公司之一,為電子商務、門戶網站和媒體、旅游、金融服務和職業運動等多種行業提供領先服務。該公司提供一個在線營銷平臺,集高質量的直接響應數字媒體、服務和技術為一體。它能夠讓客戶開展具有成本效益的按操作付費式聯盟、搜索及銷售線索生成活動,以贏得新客戶、增進營收并促進成效。

為實現最大化收益,這家客戶極其需要在正確的時間向正確的客戶展示正確的廣告內容。僅此一項就構成了巨大的優化難題。該公司亦與其客戶訂立了服務等級協議(SLA),必須在活動的最后五分鐘內提交最新的準確發票。這一難題涉及了來自500多個數據源的大量交易數據,每天涉及到3億筆交易,以及實時向300,000名用戶提供信息。該公司通過采用 Informatica 技術,令這一切成為了現實,并已經將成本降低了3倍,同時將項目的交付速度提高了5倍。

實例2:以客戶為中心的海量百貨商店零售商

這是一家領先的專業時裝零售商通過當地的百貨商店、網絡及其郵購目錄業務為客戶提供服務。該公司以向其客戶提供差異化服務而知名。在經過一番分析之后,該零售商決定不再提供免費化妝服務和化妝品樣品,因為經理們意識到接受了這些饋贈的客戶不會購買更多的化妝品。該零售商預計在饋贈計劃終結之后,化妝品銷售量將保持原樣,但實際情況是銷量出現下降。

通過研究,包括從 Twitter 和 Facebook 上收集社交媒體信息,該公司才開始更深入地理解化妝品的影響模式。它了解到必須保留兩類有價值的客戶,即高消費者和高影響者。接受了免費化妝服務的客戶雖然不再需要購買化妝品,但他們的口碑宣傳可促使親朋好友及他們的親朋好友踴躍購買。這是交易數據與交互數據的完美結合,為業務挑戰提供了隱蔽的答案。通過運用 Informatica 技術,這家零售商以社交媒體數據充實了它的客戶主數據,令其服務更具目標性。該公司最終通過向這些具有高度影響力的客戶提供正確的產品和服務而增進了利潤。

實例3:改進流程的運輸移動智能先鋒

這家貨運公司的愿景是借助新一代的車載通訊系統與數千名駕駛員以及幾萬輛卡車和其它車輛,成為運輸移動智能方面的領導者。該公司著重于采用移動智能技術,通過跟蹤和了解其資產、車輛、駕駛員、運營經理、合作伙伴及客戶的所有活動來實現最佳運營。它面臨著數項挑戰。該公司無法確定卡車在何處停車或停車時長。發動機的空轉時間意味著資金的浪費,不能充分發揮卡車的使用效率,同樣也會影響到客戶服務。

作為其“不遺留任何數據”計劃的一部分,該公司開始按每秒數次從卡車貨運系統中收集900個數據元素,通過有效地跟蹤能夠想到的每條數據,包括有關輪胎和用油量、發動機運行情況的傳感器數據及地理空間數據來跟蹤車隊的活動。該公司甚至從卡車司機們用于抱怨該系統的博客中搜羅數據,以便做出改進。一個基于 Hadoop 的海量數據處理環境和 Informatica 技術構成了企業信息管理系統的關鍵組成部分,讓這家公司能夠優化車隊的使用、減少排放量并實現環保承諾。這幫助了該公司每年節省數百萬美元,也幫助我們大家共同“走向綠色”。

Q:對于金融等這樣數據量大的行業用戶,他們對大數據管理有怎樣的需求?

A:Informatica在金融領域已經獲得了許多成功應用,包括在大數據管理方面,德意志銀行、瑞聯、摩根斯坦利等銀行都已經開始應用Informatica大數據解決方案。銀行有一個共同的需求,這就是他們需要控制風險,在技術的選型上更為謹慎。
    
Q:大數據是否會對數據集成的基礎架構帶來新的挑戰?Informatica如何順應大數據發展的需求?

A:從業務角度來看,即使是在大數據時代,客戶仍然需要做數據集成、仍然需要做商業智能,只是現在需要處理的數據更多,要求數據集成的基礎架構能夠適應大數據集成的要求。我們的數據集成平臺采用統一的軟件開發工具包,這樣的平臺架構讓我們能夠靈活地應對新技術和新的應用需求,因此,對我們來說,提供能滿足大數據需求的數據集成平臺不是很困難的事情。事實上,Informatica一直在引領數據集成的發展,在數據集成領域已經發展了20多年,對數據集成的發展有著敏銳的洞察力。目前,IT技術有三個主要的大潮,一是云計算、二是大數據、三是移動計算,Informatica都及時針對這些技術擴展自己的集成平臺。在今年6月,Informatica就成功推出了創新的Informatica 9.1 for Big Data,這是全球第一個專門為大數據而構建的統一數據集成平臺,提供了大數據集成、權威可信的數據、自助服務和自適應數據服務這四項創新功能,旨在幫助廣大用戶和合作伙伴輕松對應大數據時代的新需求,充分釋放大數據潛能,把大數據轉化為重大機遇。

Q:企業如何部署大數據解決方案?

A:我們在跟客戶溝通時,客戶常問的一個問題是:部署大數據方案,是否需要改變原來已有的數據中心?我們的回答是完全不需要,而是需要一個完整的基礎架構,在統一的平臺上處理結構化數據、半結構化數據和非結構化數據,充分利用已有的在結構化數據處理方面的投資,同時充分利用Hadoop、MapReduce的強大優勢。

Q:現在有一些廠商在談把軟硬整合在一起的一體機,這種方式與Informatica所提供的數據集成有哪些不同?

A:兩者是非?;パa的關系。Informatica是一個非常中立的公司,我們沒有自己的數據庫產品,也沒有自己的BI產品,我們把所有的精力都集中在數據集成這個平臺上,我們的戰略是與相關的軟件和硬件廠商合作,把精力集中在自己的優勢領域——數據集成、數據質量、主數據管理。我們與提供數據庫、數據倉庫、數據存儲和管理的廠商都有非常緊密的合作關系,與EMC、Teradata 、ORACLE等廠商都有很好的合作。Oracle也在OEM Informatica的產品。


Q:是否有基于云的交付方式?

A:實際上,Informatica基于云的產品已經面世了3年多了,對于中小型用戶是很好的福音,他們可以以相對少的費用用租賃的方式來使用Informatica基于Hadoop的技術和方案。

Q:Informatica是自己提供云服務還是依靠合作伙伴來提供?

A:兩種方式都有,Informatica有自己的云服務,也提供一個云平臺,讓客戶把自己的應用放到云中。Informatica提供了多個云服務。

Q:對于像Informatica這樣的公司,大數據時代將意味著什么?

A:Hadoop的出現,把數據存儲、數據分析、數據倉庫這三個不同的市場融在一起,既可以用Hadoop來做數據存儲、做數據分析,也可以做數據倉庫。Informatica專注于數據集成,能夠對高效率地集成Hadoop上的半結構數據、非結構數據,因此,Hadoop對Informatica來說,是一個很好的機會。

Q:Hadoop在美國,到底有多熱?會不會是雷聲大、雨點小、慢慢就消失?

A:Hadoop在美國非常的熱,就像前段時間的云一樣。不久前,我參加了雅虎的2011 Hadoop論壇,有5500來賓參加。我在訂票的時候給老板打電話問他是否參加這個會,老板說他想參加。但由于比我晚了三分鐘而買不到這次論壇的票,我比他早3分鐘購票,結果我買到了??梢妳⒓舆@次Hadoop論壇的的人非常多。據說,Hadoop論壇的入場券在開始發售之后8個小時就售磬。而參加此次論壇的人員很多是客戶,這是一個很有意思的變化。通常像這樣的技術論壇,參會者大多是開發人員或技術供應商。我相信,Hadoop的雷聲很大,雨點也很大,因為它已經得到證明,能夠為客戶解決不同的問題。

目前,已經有國內的公司開始和我們洽談相關的大數據項目,通常,在面對新技術時,一般是大公司開始應該,他們會先在某個項目上進行嘗試,既要能及時利用新技術的好處,也要控制好風險,確保成功。事實上,在Informatica,我們在開發新方案時,都會與客戶緊密溝通,了解客戶的最大需求。對于大數據項目,可以說,現在已經有大公司開始“吃螃蟹”了。

而在全球范圍內,大數據分析師可能會有越來越大的需要,可能是IT組織的一部分,也可能是業務組織的一部分。從互聯網的情況來看,提供用戶的價值,可以發掘很多用戶價值,比如汽車銷售等等有直接的銷售影響。在世界的各個地方,尤其是一些數據比較多的、比較成熟的行業中,會有大量的數據分析、數據科學家的需求。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢