熱線電話:13121318867

登錄
首頁精彩閱讀大數據運作機理與趨勢分析?_數據分析師
大數據運作機理與趨勢分析?_數據分析師
2014-11-14
收藏

大數據運作機理與趨勢分析_數據分析師


大數據運作機理

大數據的機理是什么?這個概念會更加模糊,更加具有不可定性。以至于,絕大多說的人至今還有找到其源頭。

打個比方:

現某大型電商的電子統計圖里清晰的顯示出,全國各達地區出現食鹽緊缺的旺盛需求,按照此需求的增長速率,此電商必須立即補貨。否則,食鹽就會缺貨。作為此電商的決策人,你是補還是不補?

首先,我們要明白一點,照常態來說,食鹽這種商品是沒有理由出現大規模銷量暴漲的,但是,系統匯總全國用戶的購買信息繪制的銷售圖示是沒有錯的。這時候,問題就出現了,如果按照銷售圖來預判未來趨勢采購食鹽,如果銷售突然下滑,那么付出的物流以及成本損失該如何計算。

就在這個小案例中給我們透露出什么訊息?大數據在運作的過程中,有它的弊端。而這個弊端是什么?是因為它還不夠“大”。就像案例所說的,常態情況,食鹽是沒有理由大規模的銷量暴漲的,但你的銷售系統提供的報表,清晰的顯示如此,以及預測未來的食鹽銷量趨勢將會不斷增長。而你僅僅只看到了數據,就輕易的做出的采購的決定。為什么,銷售提供的報表是一個可能增長的信息,但這違背了你腦袋中的預判邏輯。所以,你對你的判斷也是是是而非,不確定。而能解決這一問題,就只有當你的數據“大”到一定程度,以至于把全部變量全都覆蓋,而那些影響因素都在其中,此時的預測就可以足令人信服。

又例如:工信部調查,中國人均工資每年上漲7%,勉強應對通貨膨脹。而且鏗鏘有詞的指出,經過系統精心計算。

如果你看到上面的信息,你會有什么樣的感受?如果你不是政府官員,只是一個打工的,相信你十有八九會覺得,這是在放屁。為什么,因為你在乎的不是工資上漲的百分比的統計,而是關心的是自己的工資上漲的幅度。而事實,卻不是我們想象的那樣。

通過上面的案例,能透露出什么?透露出大數據的相對“無效性”。即使你用大數據能得到一些東西,但是你得出的東西對我來書毫無價值。這時,你想到什么?管你大數據還是小數據,多看一眼都是浪費時間,甚至有時候是誤導。這就談到了我在上一篇博客中談到的大數據的缺陷。

一、 如果某個事務的關聯信息不能完全融入到“大數據”系統,則大數據的可靠性,實用性就有待商榷。

二、 很多東西,我們根本不需要大數據來告訴我們。因為我們本身就是實驗者,本身就知道。我們苦惱的,是入股解決當下面臨的困境。而大數據顯然無法在中短期給我們提供幫助。

因此,一定程度下,我們可以說:大數據,也就是一個參考價值相對更高的一丁點數據而已。如果你所處在的行業變數太多或成本就是早已知道原因,只不過能力不足才面臨的困境。大數據對你而言,其實沒有那么大的價值。

當我們把案例僅僅聚焦到商人在貨源采購上的單項的判斷上,并沒有涉及其他諸如競爭對手信息,以及當地運營成本等因素。這意味著什么?意味著即使大數據可以應用,但也局限在相對的“變量”不多的局部的層面。否則,它的的能效就遠遠配不上“大數據”的稱謂。

我們無意在本身上潑一些冷水,而是在某種程度上告誡我們,大數據即使在未來會越來越顯示出價值,但由于涉及面太廣。所以,除了部分部門,多數商人或個人其實沒有必要那么緊張大數據。除非你想借用,大數據分析獲得客觀的效益,否則,在相對細分的行業,不能說雞肋,但想要起到非常大的作用,是很難的。

但是我們又無所適從嗎?來吧,看看下面的變化!

從起步,到加速

IDC(國際數據公司)估計,全球2012年產生數據總量約2.8澤字節。有人計算,這相當于3000多億部時長2小時的高清電影,連著看7000多萬年也看不完。而這還只是序曲。更大的浪潮在后頭。IDC預測,未來幾年,全球數據量每隔兩年翻一番,2020年達到40澤字節。大數據是推動這場大變革的重要動力,將成為促進經濟社會轉型新的關鍵資源。搜集、分析和運用指數級增長的龐大數據,將催生創新,為各行各業提供新的發展機遇,給人們日常生活帶來改變。

星巴克有意推出的“大數據咖啡杯”就是個小小的例子。美國媒體報道,這家咖啡連鎖巨頭打算試驗在一些咖啡杯中裝上傳感器,收集??秃瓤Х人俣鹊葦祿?,從而為喝咖啡較慢顧客提供保溫效果好的杯子,提高其滿意度和忠誠度。

大數據的本質還不在于“大”,而是以嶄新的思維和技術去分析海量數據,揭示其中隱藏的人類行為等模式,由此創造新產品和服務,或是預測未來趨勢。

大數據被視為創新和生產力提升的下一個前沿,正成為國家競爭力的要素之一,在世界范圍內日益受到重視。多國政府加大了對大數據發展的扶持力度,甚至上升到國家戰略的高度。2013年,圍繞大數據的國際競爭繼續加碼。

咨詢公司研究顯示,全球對大數據項目投資總額2012年已達45億歐元(約60億美元),預計2013、2014兩年均會保持約40%的增長速度。

在美國,大數據已由熱點詞匯變成重點項目。2012年3月,美國政府已公布2億美元的《大數據研究發展計劃》,2013年11月再度公布涉及各級政 府、私企、科研機構的多個大數據研究項目。美國國家衛生研究院、國家科學基金會等都參與其中,有評論稱之為美國大數據戰略2.0版。在英國,雖然經濟不景氣、財政緊縮,但政府依然為大數據一擲千金。2013年初,英國商業、創新和技能部宣布將注資8億英鎊發展8類高新技術,其中1.89億英鎊(約3億美元)用于大數據項目。

大數據在中國也已啟動駛入“快車道”,政府、企業和科研院所正多方位布局。工信部的物聯網“十二五”發展規劃,將信息處理技術作為四項關鍵創新技術 工程之一,其中包括海量數據存儲、數據挖掘等。

英國雜志2013年3月刊登的研究發現,只要有4個時間點和位置的數據就能確定一個人身份,準確率高達95%。這表明,大數據足以將一個人“描畫”清晰,現有法律手段和核心技術對個人隱私的保護正在逐漸失效。

大數據專家喜歡用莎士比亞“凡是過去,皆為序曲”來形容大數據分析的必然,但大數據提供的也只是參考答案而非最終答案。無論在小數據時代還是大數據時代,探索和創新精神都不應放棄,正如林肯所言,“預測未來最好的方法就是去創造未來”。而這一切切的改變說明:正能量。它能做的更好。

引進大數據?

讓我們追到遠古的需求,展現盡美。 

在經過瘋狂的一年概念炒作,我們開始進入這個領域。它到底是什么,為何要引進大數據。在許多客戶的咨詢過程中,大數據數據引入的必要性和價值意義的深層挖掘到底是什么??蛻粲袛祿?,有平臺,但不知道要不要上大數據,怎么上,為何要上大數據以及大數據究竟能給我們帶來哪些價值和意義。

1、突破技術瓶頸

傳統輿情分析模式、大數據技術的成熟、RDBMS的局限。

互聯網技術催生出了大數據時代的到來,大數據時代的數據形態有四大特點:

一、數據量巨大,非結構化數據的超大規模和增長占總數量的80%到90%,相比于結構化數據快10到50倍;

二、數據的異樣和多樣性,比如圖片、新聞、微博、博客、微信、買賣消息記錄,比傳統數據更重要更具數據復雜性,有時甚至大數據中的小數據如一條微博就可以具有顛覆性的價值;

三、價值密度低,大量的不相關信息,需要沙里淘金;

四、傳播速度快,因襲需要實時分析而非批量式分析。

大數據時代,面對海量快速更迭的信息,純手工監測、分析、判斷互聯網已經不太現實了。自動化輿情軟件成為大數據環境下輿情監測和分析的引擎。在2012年底,國家成立兩個大數據實驗室,一個在中科院,一個在北航。有幸接觸到在中科院大數據實驗室的蘭艷艷老師,他們現在正在做的就是新聞輿情監測。輿情監測可以設定一些和自己機構、產業、范圍相關的關鍵詞。這里可以包括競爭者或是合作伙伴,然后要放在特定的網絡媒體中進行搜索。所有“信息碎片”搜集完畢,開始聚合信息,判斷哪些和產品先關,哪些和地區相關,哪些跟自己相關。根據不同的因素,設置不同的維度。把這些信息進行精確地采集和過濾,進一步加工,分析,包括傳播統計和分析(涉及媒介分析、主體分析,傳播路徑分析,源頭分析),敏感度輿情,輿情信息傳播趨勢分析,與判所收集輿情信息的未來趨勢。在此基礎上產生輿情簡報,日報或周報,對階段性監測到的輿情進行統計和分析,包括輿情分布,熱點輿情排行,負面輿情排行,正面輿情排行等情況。

大數據時代的自身的特定也決定我們將面度巨大數據存儲的壓力,同時面臨海量數據信息的過濾,數據加工,數據分析和平臺運算瓶頸。要想突破傳統技術的約束,我們必須開始關注大數據技術,必須引進大數據技術。

2、擺脫成本枷鎖

服務器硬件成本、操作系統成本、應用軟件成本。

在面臨海量數據的到來,我們想到的第一問題,如何利用,如何處理。這在談到的大數據技術,我們必須要明白一個道理,當我們手上有了可以稱之為大數據的數據之前。我們這些數據收集之前,已經開始探討這個問題了。所以,還有還有人在擔心,大數據技術如何實現的問題,已經是落后別人幾大截了。Google在2009年初,就利用大數據思維,把5000萬條美國人最頻繁檢索的詞條和美國疾病控制中心在2003年至2008年間季節性流感傳播時期的數據進行了比較,就已經成功預測H1N1流感病毒的爆發。在搜索引擎技術上會談到分而治之的思想,Map和Reduce。Map的過程就是把大批量的任務分開成多個相同或不同的小份子,然后分發給不同的機器進行處理。而Reduce的過程可以簡化理解成,小份子復合的過程。當我們數據大到,我們的機器、服務器已經沒有辦法進行處理的時候,我們首先想到的就是Map/Reduce,而Google早已經在第一代搜索引擎中提出這個思想,早已經是、運用在各個方面。所以,當我們在和別人談到,如何利用數據的時候,首先,明確,現在互聯網業界已經存在相當成熟的經驗,已經運用到大型互聯網公司。其次,我們必須要考慮的就是業務,沒有業務數據也是毫無價值,建立在業務基礎上的大數據挖掘才能產生數據的價值。在這里,業務需求,已經建立在技術和數據之上的首要位置。而且這一點,常常是我們最容易忽視。

在基于傳統模式的輿情分析和歷史數據存儲,是建立在高性能服務器硬件和昂貴的關系型數據基礎之上的。一方面,硬件技術掌握在幾大互聯網巨頭手中,服務器的性能是以昂貴的成本為支撐的;另一方面,硬件基礎之上的操作系統、應用軟件和關系型數據庫也同樣掌握在幾大巨頭手中,同樣價格不菲。此外規模的擴展、軟件的升級和每年的服務費也是異常昂貴。在面臨上面的問題時候,傳統互聯網公司、電信公司等如何享用這些技術,如何利用這些技術在自己的業務上產生價值。

在互聯網技術之上發展起來的大數據,以開源的Hadoop、HBase為基礎,以Hive、Sqoop、Pig、Flume等軟件為工具,建立在傳統X86-PC服務器上和開源Linux操作系統之上(接下來我們會更深入探討這些技術背后的原理)。一方面是的硬件成本得以降低。另一方面無須為操作系統和應用軟件支付昂貴的License費用??梢哉f,在大數據時代,人人都可以玩大數據,人人都可以玩的起大數據,人人都可以在很大程度上擺脫傳統IT廠商巨額的成本依賴。開源,使這一切開始變得簡單起來,不再是那么遙遙不可及。

3、促進業務創新

業務拓展的需求、客戶服務的需求。

在上面,我們已經談到了,“業務”已經超越在技術和數據的地位之上。為什么我們把業務看的這么重要。因為,一、業務是直接和用戶打交道,第一時間了解用戶所需,只有根據用戶所需,我們才能提供針對性的客服服務。二、業務是直接產生價值的。用戶是支付的初始,為什么用戶愿意支付?,愿意買?這已經涉及到銷售與客戶關系管理方面。當業務提出需求,后面才是數據的分析與利用,技術的支持與共享。拋開業務而談大數據的應用,已經是本末倒置,南轅北轍了。但,兩者之間又是相互依存,相互利用,技術提供更好的用戶體驗,數據來提供更精確的用戶群體。同時,通過大數據的應用可以衍生出新的服務,新的產品,促進業務與產品的創新。

企業大數據分析:趨勢

隨著企業用戶越來越多地需要連續不斷地訪問數據,好的大數據工具集將以最低的成本和接近實時的速度提供可伸縮的、高性能的分析。通過分析這種數據,企業可得到更大的智能以及競爭優勢。接下來我們介紹一下,Hadoop和大數據專業廠商MapR共同創始人和首席執行官約翰·施羅德(John Schroeder)對2014大數據市場的預測。

開始我們商業與技術之旅。這里只讀概念定義簡易介紹,后續的博客將持續更新對相關技術的概述。我們拭目以待吧!

1. SQL擁有大數據的最大潛力

基于Hadoop(分布式計算)的SQL的發展能夠讓商業分析師利用自己的技能和選擇的SQL工具執行大數據項目。開發人員可以選擇Hbase、Hive、Drill和Impala等Apache項目,以及選擇Hadapt、HAWQ和Splice Machine等公司的專有技術。已經基于實時大數據處理的Storm系統,可以用實時推薦系統以及相關要求實時性高的系統。Hadoop集群下,同樣衍生出,另一種大數據分析框架,Spark,基于內存的下一代大數據分析框架。還有熱門的Splunk 機器數據搜索引擎下的大數據分析。這一切都給我們打開了大門。

2. 盡管如此SQL還面臨挑戰

SQL需要數據結構。而集中的結構化數據可引起延遲并且需要人工管理。SQL還限制分析類型。過分強調SQL將延遲機構全面利用其數據價值的努力和延遲反應。這就引發了Nosql(非關系型數據庫)的到來。而在《NoSql精粹》里談到,持續增長的海量數據,催生了一種名為NoSql的非關系型數據庫。該技術可以構建出更高效、更易擴展且更易編碼的系統。

3. 身份識別是主要的數據安全問題

隨著Hadoop(分布式計算)中提供的接入控制能力的猛烈攻擊,機構迅速認識到線路級身份識別是必要的基礎。沒有充分的身份識別,任何更高級的控制都很容易被繞過,妨礙預定的安全計劃。

4. 數據錯誤變成學習機會

2014年機構將出現許多數據錯誤。數據錯誤將表明基礎的來源系統的問題嗎?數據錯誤是在下游分析中出現偏差導致的數據提取問題嗎?數據錯誤將表明定義差異或者缺少跨部門和業務部門的一致性嗎?2014年將看到解決數據異常問題。

5. 出現可運行的Hadoop

2014年將看到Hadoop在各個行業中的生產部署顯著增加。這將顯示出Hadoop在運營中的實力。在那里,生產應用與分析結合在一起能夠提供可以衡量的商業優勢,如在客戶化零售建議、詐騙檢測和試驗傳感器數據進行規范的維護等應用中提供這些優勢。

6. 更多的數據倉庫將部署企業數據中心

數據中心把數據提取處理和數據從企業數據倉庫卸載到Hadoop。作為一個核心的中心企業中心,數據中心要便宜10倍,能夠對額外的處理或者新的應用進行更多的分析。

7. 新的以數據為中心的應用將成為強制性的

利用大數據的能力將在2014年成為競爭的武器。更多的公司將使用大數據和Hadoop準確地針對個人消費者的偏愛追逐賺錢的追加銷售和交叉銷售的機會,更好地緩解風險以及減少生產和開銷成本。

8. 數據成為數據中心的核心

機構將從開發者過渡到大數據計劃中。IT部門將越來越多地擔負定義支持多種應用的數據基礎設施的任務,把重點集中在部署、處理和保護一個機構的核心資產所需要的基礎設施方面。

9. 搜索將成為非結構化的查詢語言

2013年有大量的用于HadoopSQL計劃。2014年將是這種非結構化查詢語言成為重點的一年。把搜索集成到Hadoop將為查找重要信息的企業用戶提供一種簡單和直觀的方法。搜索引擎還是包括推薦引擎在內的許多發現和分析應用的核心。

10. Hadoop將獲得地位

Hadoop將繼續取代其它IT開支,顛覆企業數據倉庫和企業存儲。例如,甲骨文的主要營收目標在過去的10個季度里有5個季度沒有實現。Teradata在過去的5個季度有4個季度沒有實現營收和利潤目標。

11. Hadoop仍需要幫助才能成為主流應用

更多的機構認識到Apache Hadoop本身還沒有準備好在企業應用。ApacheHadoop不是為系統管理或者災難恢復等統一企業IT流程設計的。企業將繼續推進混合的解決方案,把架構技術創新與ApacheHadoop的開源軟件結合在一起。

開啟另一扇窗

2013年12月19日,在亞馬遜AWS(Amazon Web Services)宣布通過“前店后廠”模式落地中國的第二天,亞馬遜云全球最高領袖、亞馬遜全球高級副總裁Andy Jassy高管一行來到北京航空航天大學。這場行程,似乎不僅是與北航校長,軟院院長就云計算之間的洽談以及合作交流,而是在背后又預示著基于云存儲技術的大數據平臺應運而生,且已經落地實處。(文章來自:CDA數據分析師

大數據的終結點在哪里,我們無從談起,但第一步要解決的問題是,存儲的問題。而云存儲似乎解決了這一難題。緊隨其后的是,云端一體,單機與集群與云存儲服務器之間的交互,這為我們再一次披上神秘又令人興奮的面紗。我們期待這與變革同步產生的興奮與愿景。讓我們趕上這個時代,打開礦山,揭開隱藏在內部金子。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢