熱線電話:13121318867

登錄
首頁精彩閱讀大數據的下一個重大轉折
大數據的下一個重大轉折
2016-03-31
收藏

大數據的下一個重大轉折

為了跟隨大數據的發展以及提高我們對信息的使用,我們需要具有洞察力的應用,可以在連接洞察與操作的時候快速且低廉地提取相關性。

我堅持認為具有洞察力的應用是幫助企業高效探究大數據的關鍵,可以提高決策效率和解決重大問題。為了更好的理解和重視我們開發該應用的重要性,有兩件事是很重要的,一是了解大數據大體上發生了什么,二是評估我們使用商業智能系統的經驗如何促進我們思考這個應用。

因為我認為具有洞察力的應用是大數據的下一個變化(可以看看最近IBM沃森平臺使用的一些應用),我會發表系列博客進一步探究這個問題。在第一篇博 客里,我將通過我的觀察展示25年來數據分析是怎樣發展的,特別是到了大數據階段,發展具有洞察力的應用是必須的。第二篇,我會更加詳細的描述這些應用, 并給出早期的一些例子。第三篇和最后一篇,我會討論投資者對這些應用的興趣,還有講下我最近對相關創新企業的投資。在這些文章中,我作為兩家分析應用創新 企業的創辦人,我將提到我如何將過去30年的工作經驗和15年風險投資經驗運用到這些企業中。

數據分析25年來的發展

數據量在過去25年一直在增長,用于決策的數據完整性促進了兩個步驟的行程,即創建數據倉庫和了解數據倉庫的容量。

數據倉庫及其他特殊變形–企業數據倉庫,數據集市等等-,是精選數據的基礎。

數據可能來自單獨的數據源(如:一個CRM應用的數據庫)或者由許多數據源整合而來(如:一個CRM應用的數據庫整合,數據庫內含有CRM數據庫里的每位客戶的社交媒體互動)。

數據可能是結構化的(如:描述客戶支付金額的數據),也可能是非結構化的(如:自由文本里客戶與工作人員的互動備注),也可能是半結構化的(如:網 絡路由器生成的日志文件數據)。被捕捉到的精選數據都是已經自動被清洗干凈,被標簽和分析好了的,減少了人們的人工思考的時間。

這些年,隨著開源軟件,云計算和商用服務器硬件的使用,我們減少了數據倉庫的費用,也提高了我們管理更多不同高速產生的數據的能力。我們的收支狀態 已經發生改變,從為數據倉庫花費幾千萬美元,轉變為最大的公司并開始盈利,如金融服務組織花旗銀行Citibank和大型零售商沃爾瑪Walmart,從 倉庫到中小型企業皆可支付的狀態。最近,低成本服務提供商,如亞馬遜 Redshift, 谷歌 BigQuery以及微軟Auzre,已經將數據倉庫轉移到云。最終,數據倉庫能被大眾公司接受。

隨著數據倉管的增加,數據報告的發表形式從打印到數字化。

數據完整性的第二步包括通過數據分析,理解數據倉庫的內容。在商業環境中,通常是通過報告和相關聯的可視化實現數據的完整性,有時也使用更多定制的 可視化和機器學習算法,比如人造神經網絡。(機器學習不是新的內容,但是大家認為,它從數據倉庫出現就一直被使用,作為數據儲存和管理的工具。)

隨著數據倉庫被不同行業的大量企業采用,我們看到了報告形式的轉變,它是可以被創造的,媒體可以提供分析學者和決策者報告,或者員工自己準備這些報 告。早期(80年代晚期,90年代初期),商業智能報告是由指定的IT職員負責的,在報告中對數據倉庫的必要查詢是有相關標準和主題的。這些報告通過電腦 用紙保存(如:報告可以被修改,但是只能由那位負責該報告的職員完成)和展示。后來,報告仍然可以保存,同時這些報告可通過指定的報告項目展示在PC上, 再后來,Web瀏覽器可運行在不同的設備上,包括智能手機和平板,所以報告也能在這些設備上展示。這些年來,創建查詢和撰寫報告的任務已經從IT員工轉移 到企業用戶。但是,當這些查詢和相關報告可以更快的生成,更加靈活和廣泛的使用時,這些報告的主要使用者-企業分析師-他們仍然在不斷的,嘗試在報告中得 出信息的最簡單的模式。更重要是,這些用戶在嘗試基于這些信息采取相應的操作(圖1)。

自動洞察:大數據的下一個重大轉折

圖1:復雜的數據模型和可視化的一些例子,圖片授權自Evangelos Simoudis

隨著更多的數據生成,我們已經可以更好更有效的管理它的費用,但是要想對數據進項有效分析,仍然不是件容易的事。

受網絡全球廣泛使用,以及網絡支付的連接,還有如物聯網等新領域得出大量我們從未見過的數據的驅使,發現我們的周圍充斥著數據??鞌祿吐龜祿?,簡單數據和復雜數據,以及全部一起出現的前所未有的海量數據。數據量可以有多大?

自動洞察:大數據的下一個重大轉折

圖表2:展示了生成非結構化數據從2005年到預計2020年的增長情況,圖表授權來自互聯網數據中心IDC,圖表未經許可,不可使用。

在過去10年,數據變得更大,同時企業IT戰略的核心實現了“事半功倍”。企業現在面臨著數據倉庫系統的兩個難題。第一,有些系統不能有效管理捕捉到的大數據,導致不能有效使用那些應用。第二,費用高的離譜,對于系統而言可能會成為數據管理的挑戰。

關于這些問題,出現了部分解決方案,是由科技巨頭公司(如谷歌,雅虎等)開發的數據管理軟件,去得到新的數據生成,如Hadoop。一開始,這個軟 件是運行在商用服務器硬件,它是快速開源的,因此可以幫助一些企業用低廉的成本解決一些大數據的問題。比如像Cloudera, Hortonworks和一些其他提供開源軟件服務的公司已經成為大數據非結構化領域的主要成員。我之所以說只是出現了部分解決方案,是因為,在管理數據 的時候,一些系統不具備解決復雜性問題的功能,專屬的數據倉庫管理系統只有一些企業擁有。這些新的系統擅長建立數據湖,通過低成本選擇的方式替代和擴展數 據倉庫,它是適應大數據環境的設施。

雖然我們提高了有效管理數據費用的能力,但是我們分析數據的能力和費用沒有改善。

雖然大眾媒體都宣布來自數據的洞察力將是“新石油”(“黃金”),但是市場研究公司互聯網數據中心IDC則預測到了2020年,只有一小部分數據可以被收集和分析。我們需要分析更多捕捉到的數據和提取其中包含的信息。

我們在努力提高分析數據的能力,但是面臨數據專業人員的短缺。

為了收集和分析更多的數據,包括報告里面的數據,我們開始通過機器學習和其他基于AI的數據分析技術,來廣泛地使用自動信息提取方法。但是這些方法 只能由數據科學家使用,這是一種新的職業。雖然我們看到一大批數據科學家的涌現,但是我們需要更多。目前無法做到培養出滿足需求數量的數據科學家,以及提 供我們生成足夠的數據。McKinsey預計到了2018年,美國將將面臨人才短缺,大概缺14到19萬名掌握深入分析技巧,能夠從收集的數據里提取洞察 的專業人才。

我們也面領著人才短缺,缺少大概15萬名經理人,他們掌握著必要的定量技能,能基于數據科學家的大數據分析結果做出重要的商業決策。

機器學習提升了我們找到數據相關性的能力,恰好節省了決策時間,增加了數據效率。

商業智能作為一個領域已經發展了40年。統計分析機器學習科技則使用了更久。這段時期,我們已經提高了確認數據集相關性的能力,這恰好減少了用在 決策上的時間和增加了數據的效率。比如,公司的財務官需要一個月才能做出財務預測,然而一個自動線上廣告平臺只需要10毫秒就能決定將他們的數字廣告投放 給哪一位客戶(圖3)。還有,當財務官在根據幾兆數據做出決策時,線上廣告系統已經在利用TB級數據在工作,大部分數據是實時生成的。

自動洞察:大數據的下一個重大轉折

圖3:圖表顯示不同行業做出決策的平均時間。圖表授權來自Evangelos Simoudis.

在某些應用領域,簡單的確認數據集之間的關聯性就足以做出決策。這其中又有一些領域可以實現高回報,這通常會讓他們決定是否需要數據科學家或者其他 特定專業人才,從現有數據中提取信息。計算機安全威脅檢測和信用卡盜刷偵測領域就是其中兩個。在這些領域里,作出決策的時間非常短,“錯誤”決策的成本 (通常是保密的),但是至少一開始不是很高。而減少處理環節就跟安全侵入一樣是詐騙行為(如:信用卡持卡人遇到了麻煩,那么系統管理者就應該要進行網絡取 證)。但是,在一個已經建立好的行為模式里發現異?,F象失敗,造成的成本可能更高。

為了跟隨大數據的發展以及提高我們對數據的使用,我們需要能夠快速且廉價的提取相關性的應用,將洞察與操作聯系起來。

預計將短缺大量掌握定量技能的數據科學家和商業用戶,我們渴望能繼續探究大量已經收集和管理起來的數據,我們會開發更好的分析應用,能生成洞察力和聯系操作。這些應用,我稱它們為具有洞察力的應用,遠不止從數據里提取相關性那么簡單。

就數據的完整性方面我們已經取得了不錯的成績。一方面我們減少了管理大數據的費用,另一方面,我們提高了分析和提取關鍵信息的能力。但是,大數據的 增長量太大了,以至于沒辦法跟得上大數據快速靈活的查詢和報告。通過使用具有洞察力的應用,能低成本且快速地創造具有操作性的洞察。我將會在下一篇報道中 更深入的探討這個問題。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢