
編譯 | Harris來源 | 機房360
如今,大數據越來越重要,因為企業需要處理來自多個來源的不斷增長的存儲數據。
采用大數據可以稱之為一場完美風暴。廉價的存儲和大量的結構化和非結構化數據的大量涌入,導致了諸多的大型數據工具得以開發,幫助企業“解鎖”他們積累的數據,從客戶記錄到產品性能的結果等更多的數據。
像傳統的商業智能(BI),這些新的大數據工具可以分析過去的趨勢,并幫助企業識別重要模式,如特定的銷售趨勢。許多大數據工具現在提供了一個新一代預測和規范性的見解,以及深埋在企業數據中心的所有數據。
對于人們面臨的挑戰,調查機構Gartner公司分析師道格·蘭尼表示,人們還是不要用擴展的基礎設施來處理所有這些數據,而是從各種數據本身進行處理。
“對于真正的挑戰,企業對自己和客戶的交易數據進行處理、整合,并共同構建和理解輸入,加上來自合作伙伴和供應商的數據,還有一些外源性數據,如社會媒體的開放數據和聚合數據等等,而這些只是觸及了表面?!碧m尼在一封電子郵件中說表示。
大數據是一個大問題:您的網絡準備好了嗎?
盡管Gartner的客戶端通過一個2比1的比例說明各種數據是一個更大的問題,對他們來說數據增長的速度越來越快,而數據處理供應商將會繼續提供資金更大、更快的解決方案。
ConstellationResearch公司分析師道格·亨森特表示,大數據解決方案肯定是不斷發展變化的。
“在我的書中,2014年是發布SQLHadoop公告的一年,但今年企業和銷售商開始認識到大數據的機會不只是擴大傳統的BI和數據庫?!焙嗌卣f,“因此,ApacheSpark開源框架和其他的分析方案已在2015年超越了SQL。2015年,數百家供應商和大公司開始采用ApacheSpark開源框架,IIBM公司擁抱是倡導其他分析選項最明顯的廠商,而其他致力于數據集成和大數據平臺的很多企業加入這個行列?!?/span>
事實上,大數據浪潮似乎來臨,每天都會供應商推出的各種解決方案,其中也包括一些相對全面的設計。盡管很難得到一個全面的名單,這四個工具應該出在用戶的應用清單中。
(1)數據科學家的H2O.ai
H2O.ai是初創公司Oxdata在2014年底推出的一個獨立開源機器學習平臺,主要服務于數據科學家和開發者,為其應用提供快速機器學習引擎。Oxdata公司表示,可以在商用硬件上對任何來源(如Hadoop,SQL)的數據進行處理分析,甚至在上千個網絡節點或亞馬遜的AWS云運行。個人可以嘗試并繼續免費使用H2O.ai。Oxdata公司將收取企業用戶的費用。
“很多公司使用Spark代替Hadoop短期記憶,這就像大數據的內存一樣?!盚2O公司市場營銷和增長副總裁奧列格·羅格斯科說,“在讀取你的短期記憶方面,h20.ai的功能超越了Spark,基本上提供了超快速的分析能力?!?/span>
羅格斯科說,H2O.ai是旨在提供預測分析的數據工具的一個新品種。他指出,SQL幫助推動了描述性數據分析的早期階段或“告訴我發生了什么”,其次是“預測期”的產品,看看發生了什么事,盡量幫助客戶預測接下來會發生什么-例如:庫存用完或產品突破等。
“我們在未來幾年將看到第三個階段是指令性的階段發揮作用,這個系統說,‘這是我的教訓,我認為未來會發生什么,你應該最大限度地實現目標?!绷_格斯科說,他還指出,谷歌地圖的主動建議替代路線的能力就是一個規范性解決方案的例子。
H20.ai將自己定位為各種行業數據科學家使用的一個預測工具和“盒子”。例如,網絡巨頭思科公司有6萬款預測購買決策的模型,該公司使用H2O.ai對這些模型評分。思科公司首席數據科學家表示,“其結果是太棒了,我們看到H2O.ai比我們的同類產品的性能要好3到7倍。在單獨建模評分方面,h2o.ai環境是upwards的10到15倍?!?/span>
(2)ThoughtSpot3–大數據應用
借助谷歌公司這樣的搜索引擎,很容易在網上搜到用戶需要的社交數據和網絡數據,但企業數據一般難以查找,也更難以利用。為此,7位工程師共同成立了ThoughtSpot公司,目標是開發一個類似于谷歌的搜索引擎,用于查找商業數據。
該公司在谷歌公司成立初期就為其提供硬件設備,在企業啟用防火墻后提供超快搜索功能。ThoughtSpot結合了新搜索引擎的應用,它的功能是通過一個快速內存數據庫來搜尋海量信息。該公司還計劃提供一個基于云的服務。
ThoughtSpot3起始售價為90000美元,是一種為企業快速尋找大數據的數據科學家依賴的工具?!拔覀円呀浛吹狡髽I使用該產品的數據科學家正在增加?!盩houghtSpot公司營銷副總裁史葛霍爾頓說,“二十億人都在搜索,但在工作中,我們仍然依賴于數據專家?!?/span>
霍爾頓在加利福尼亞公司總部PaloAlto進行了一個演示,顯示系統使用熟悉的搜索欄界面是如何工作的.剛剛發布的ThoughtSpot3.0具有一些新功能,包括“DataRank”的工作方式,類似于谷歌的PageRank和typeahead。該軟件使用機器學習算法建議的關鍵詞為客戶搜索,以加快這一進程。
Popcharts無疑是最酷的新功能。當你在搜索框中輸入“由東海岸銷售......”ThoughtSpot瞬間創建基于查詢相關的圖表,并利用機器學習給出10多個可以選擇的圖表。
另一個“即時”功能是AutoJoins,其目的是為一般都有數百個數據源的企業導航。AutoJoins使用ThoughtSpot的數據索引,通過索引模式和機器學習,以了解表格是否相關,并在一秒內呈現研究結果。
霍爾頓說,ThoughtSpot更側重于對歷史數據的傳統BI分析(速度超快,使用十分方便),其預測性和規范性分析功能會在未來的軟件中體現。
(3)Connotate軟件
Connotate公司是一家為美聯社、路透社、道瓊斯等大型公司對全球上千個網站的非結構化數據進行實時分類和分析的企業。在Web數據抽取和監控上,Connotate軟件是世界上最簡單、最合算的解決方案,以有效地利用海量數據,從中挖掘出對企業增長有價值的信息,并可以進行高度可擴展性的數據監控和數據收集。
Gartner公司分析師道格·萊尼表示,Connotate和BrightPlanet在他所列的大數據工具名單上,因為它們有助于從企業自身的數據庫和互聯網上收割和構建豐富多彩的內容。
“隨著數字化和經濟增長,企業認識到只關注自己的數據不再是萬無一失的創新良方,他們越來越多地轉向外源數據(即公司外部的數據)?!比R尼說。
Connotate公司表示,其從網頁抽取內容的專利技術遠遠超出了網頁抓取或自定義腳本。取而代之的是對于網站工作如何使用機器學習采用一種直觀的視覺理解,Connotate公司表示,使其內容提取“準確可靠,并且可擴展?!?/span>
據該公司介紹,Connotate平臺”可以很容易處理成百上千的網站和百萬兆字節?!辈⑻峁┡c業務相關的有針對性的信息。其提供的內容采集平均成本比傳統方法少55%。
例舉一個使用案例,Connotate幫助銷售情報提供者從數千個醫院網站提取聯系人資料(姓名,職務,電話,電子郵件和隸屬關系),并建立一個全國性的醫生檔案數據庫。
Connotate公司表示,其大數據解決方案賣給了幾家大型制藥公司,并沒有花費額外的硬件或IT資源。大數據提取的規?;?,甚至可以提供50萬名醫生的數據。
(4)BrightPlanet工具
BrightPlanet公司也從網絡中提取數據,該公司宣稱其搜索具有所謂的“深網”見解的能力。其深網可以挖掘那些具有密碼保護的網站和通常不會被傳統的搜索引擎索引的其他網站的數據。
BrightPlanet公司表示,其收集的數據條目數以百萬計,其中包括推特和新聞數據庫和醫學期刊的數據,并可以根據企業的具體需求和條件進行過濾。
該公司為使用該軟件的數據采集工程師提供一個免費的數據即服務(DaaS)咨詢,并介紹他們的服務是一個不錯的選擇。咨詢的目的是幫助企業數據中心找到合適的收集數據,并得到正確的格式,這樣客戶可以得到一個好主意的過程和結果。
最終用戶或客戶可以選擇哪些網站收獲的內容。反過來,BrightPlanet公司又將其內容進行充實。例如,像在社交媒體網站評論這樣的非結構化數據,通過一個自定義格式設計,使其在更便于使用的客戶端提交。
end
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25