熱線電話:13121318867

登錄
首頁精彩閱讀認知應用:大數據的下個轉折點
認知應用:大數據的下個轉折點
2016-06-11
收藏

認知應用:大數據的下個轉折點

這篇文章是一個投資者對數據分析在過去25年的回顧。作者西蒙迪斯從投資者的角度討論了數據分析的變革,認知應用的價值,以及最受風投關注的大數據核心領域。
  在我的之前的一些博客中,我提到了生成認知的必要性和重要性,并提供了一個認知應用的例子。我始終認為認知應用是對于希望通過挖掘大數據從而改進決策和解決重要問題的公司的關鍵所在。為了更好的理解和領會開發這類應用的必要性,考慮在大數據領域正在發生什么,并且評估我們在商業智能系統上的經驗,及它應該如何驅動我們理解認知應用是十分重要的。
  由于我認為認知應用是大數據發展的下一個轉折(參見最近使用IBM Watson平臺建立的這類應用舉例),我將要在一系列博客中進一步探討這個話題。在這篇博客中,我對于數據分析在過去25年的演變進行了觀察。,特別是當我們來到大數據時代,開發認知應用是必然之舉。在第二篇博客中,我將更為詳細地描述這類應用,并且提供一些例子。在第最后的第三篇博客中,我將討論投資者對認知應用的興趣,并描述我最近對這一領域的創業公司的投資。在這些博客中,我的分析和理解均基于本人作為三十多年的企業家、量兩分析應用創業公司的創始人以及在這一領域進行了15年投資的風險投資人的經驗。
  數據分析在過去25年
  隨著過去25年中數據量的大幅增加,針對決策制定的數據理解都由兩個步驟組成:創建數據倉庫以及理解數據倉庫的內容。
  數據倉庫以及它的前身—企業數據倉庫、數據市場等,是構造專業數據庫所必須的基礎架構。這些數據可能來自于一個單獨的數據源(例如客戶關系管理應用的數據庫)或者來自整合過的一系列不同的數據源(例如將一個客戶關系管理應用的數據庫和一個包含每個客戶的社交媒體交互數據的數據庫整合起來)。這些數據可能是結構化的(例如貨幣被描述為每個用戶支付的數量)、非結構化的(例如一個客戶和一個服務專員之間以文本形式的交互內容)。專業化數據是那些一旦被抓取,就是干凈的、有標簽的、并且自動地或被(比人們認為更頻繁地進行)人工描述的。
  在過去幾年里,我們已經通過大量使用開源軟件、云計算、商用硬件等來降低數據倉庫的開銷,并進一步改進我們管理更多樣、大量和高速產生的數據的能力。我們已經從只有諸如金融服務的花旗銀行以及零售業的沃爾瑪之類的大公司才能負擔的、千萬美元開銷的數據倉庫轉向對于中小型企業可以負擔得起的數據倉庫。最近,低開銷的服務提供方,諸如亞馬遜的Redshift,谷歌的BigQuery,甚至是微軟的Azure,已經把數據倉庫移到云上。最終,數據倉庫對于普通企業來說都是可用的。
  隨著數據倉庫的崛起,數據分析報告的交付已從打印轉向數據化
  數據理解的第二步涉及到通過數據分析來理解數據倉庫的內容。在商業環境中,這往往是通過報告和關聯的可視化來完成,有時候也會使用更加定制化的可視化和諸如神經網絡機器學習算法(機器學習雖然并不是新概念,但幾乎從數據倉庫作為數據存儲和管理工具出現開始就被使用)。
  隨著數據倉庫被更多的各行各業的公司所采用,我們見證了可以創建的報告的形式的逐漸改變,報告被展現給分析師和決策者,以及準備報告的人。在早期(80年代末90年代早期),商務智能報告由技術專員創建,他們也是通過向數據倉庫提供函數和查詢來得到報告。這些報告被封裝(例如,它們可以被修改,但是有很大難度,且只能被同一個創建報告的技術專員所修改),并在計算機打印紙上呈現。后來,盡管這些報告仍然被封裝,它們可以在電腦上通過專門的報告程序來呈現,再后來,可以呈現在包括智能電話和手持終端運行的網絡瀏覽器上。近年來,查詢創建和報告撰寫的任務從技術專員轉交給了商業用戶。然而,盡管查詢和關聯的報告變得更快、更靈活、被更廣泛的使用,這些報告的主要用戶——商業分析師們,仍然困擾于在大量信息中發現在報告中存在的最簡單的模式。最重要的是,這些用戶糾結于基于報告所包含的信息應該決定采取什么行動(參見圖1的例子)。

  隨著更多數據的產生,我們已經可以更有效地管理數據所帶來的開銷,但是仍然掙扎于進行有效的數據分析
  受到全球因特網的普及,它所帶來的網絡連通性的驅動,物聯網之類的新領域產生的前所未見的海量數據,以及基于這些所創建的大量應用,使得我們被數據所淹沒??焖贁祿吐龜祿?,簡單數據和復雜數據,所有這些數據都是前所未有的大量。數據的量變的多大了呢?我們已經從在2014年產生大約5澤字節的非結構化數據到2020年將增加到大約40澤字節的非結構化(參見圖2)。

  特別是在上一個十年間,隨著數據量變得更大,企業的IT策略核心變為用很少的資源做更多的事。公司的數據倉庫開始面臨兩大問題。第一,其中的一些系統不能有效地管理所獲取的海量數據,因而數據不能被應用有效的利用。第二,開銷變得不能承受的高,成為數據管理方面另一大挑戰。
  與此同時,當新一代的數據管理軟件(例如Hadoop)被谷歌、雅虎等重量級科技公司開發出來,一些“部分”解決方案開始出現。一開始,這些軟件在商用硬件上運行,并且很快開源,從而使得企業可以以較低的開銷來解決它們的大數據問題。Cloudera, Hortonworks以及一些其他提供開源軟件服務的公司在大數據基礎設施領域扮演了重要角色。我將這些解決方案稱為“部分”是因為在管理數據的同時,這些系統并不包含企業所使用數據倉庫系統的那些復雜的、專用的功能。但是這些新系統擅于構建數據湖泊,適用于多樣化的大數據環境,并旨在通過更低的開銷替代或增強某些類型的數據倉庫。
  盡管我們有效管理大數據開銷的能力得到了改進,但是我們分析數據的能力,不計開銷的情況下,仍然沒有提升。盡管大眾媒體宣稱從數據中得來的認知結果將是新的石油(或金子,挑選你喜歡的隱喻),但市場研究公司IDC預測,到2020只有很少一部分采集的數據會被分析。我們需要分析更多抓取的數據,并從中提取更多的信息。
  我們正在致力于改進我們分析數據的能力,但是面臨著數據專業人員的短缺
  為了收集和分析更多的數據,同時不放棄報告的生成,我們開始廣泛采用機器學習和其他基于人工智能數據分析技術的自動化的信息抽取方法。然而,這些方法要求使用一類新的專業人員——數據科學家。盡管我們看到數據科學家的數量潮涌般增加,但是我們需要更多,并且,與正在產生的數據相比我們永遠不能提供足夠的數據科學家。麥肯錫曾估計,到2018年,美國將面臨(大約14萬至19萬缺口)人才缺口,這些人擁有可以從收集的數據中提取認知結果的深度分析技能。我們還將缺少大約150萬擁有量化分析技能的、可以基于數據科學家生成的大數據分析來做出重要商業決策的經理。
  機器學習改進了我們發現數據中關聯性的能力,但做出決策的要求的時間變短了,而數據產生的速度增加了
  商業智能是一個出現了近40年的領域。統計分析機器學習技術被使用的時間則更長。在這一時期,我們已經提升了我們從數據集中識別關聯性的能力,但是做出決策的時間要求正在變短,而數據產生的速度不斷增加。舉例來說,公司的首席金融官們可能有一個月的時間來創建金融預報,然而一個自動的在線廣告平臺只有僅僅10毫秒的時間來決定把哪一個數字廣告展現給特定的用戶(參見圖3)。此外,一個首席金融官僅需要參考幾十億字節的數據就可以得出決策,而在線廣告系統不得不分析萬億兆字節的數據,大部分的數據還是近實時生成的。

在一些應用領域,簡單地識別出數據集中的關聯性對做出決策來說已經足夠。在其中一些高價值高投資回報的領域,通過數據科學家和其他專業人員來從大量數據中抽取信息是合理且必要的。計算機安全威脅檢測以及信用卡欺詐檢測就是兩個這樣的領域。在這些領域里,作出決策的時間是非常短的,做出錯誤決定(過度保守)的代價,至少最初并不是非常高。將一個交易視作欺詐或者將一個行為視為安全入侵的代價也很低(例如持卡人的不便或是對于系統管理員的一些網絡取證)。但是,沒有檢測到在已建立的行為模式中的異常的代價將會更高。
  為了跟上大數據的節奏和改善我們對信息的使用,我們需要能快速而廉價地抽取相關性并將其與行動關聯起來的應用
  考慮到預期的數據科學家和具有量化分析能力的商業用戶的短缺,以及我們迫切的繼續挖掘已經收集到的海量數據的需求,我們要能更好地開發分析應用,使其能夠生成認知并關聯到行動上。這類應用,被我稱為認知應用,將超遠勝于從數據中抽取相關性。
  我們已經在數據理解上取得了很大進展。我們已經降低了管理大數據的開銷,與此同時改進了我們分析和提取關鍵信息的能力。但是,大數據的增量過快以至于我們不能通過更快或者更靈活的查詢以及報告來緊跟步伐。我們需要能夠創建廉價快速的可執行認知能力,特別是通過使用認知應用。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢