
重視非結構化數據分析 走出兩大“經典”誤區
雖然基本上國內大部分公司,言必提“大數據”,但是對于大部分CIO、CTO們來說,對數據的分析仍然停留在過去的階段:對于非結構化數據分析的成熟度還遠遠落后于結構化數據。
但是現在移動端所帶來的爆發式增長給大數據從業者帶來了非常大的挑戰,這些數據有很多是非結構化數據,充斥了人們交流的空間,相應的,對非結構化數據的分析也變得越來越重要——對非結構化數據進行分析、提取出有價值的東西,成為CIO、CTO們最關注的問題。
但是目前,很多人仍有非結構化數據分析等同于輿情分析的粗暴認知。
非結構化數據分析就是輿情分析?錯!
“非結構化數據分析就是輿情分析,這個技術中國現在已經發展的很快了?!鳖愃七@樣的言論在CIO、CTO們的交流中屢見不鮮。
但是美國數據分析科學家、美國非結構化數據分析鼻祖企業Taste Analytics創始人及全美五大可視化研究中心的Derek Wang(汪曉宇)博士告訴記者,事實上這是完全不對的,輿情分析其實僅是非結構化數據分析的一部分。
輿情分析,是人們通過先前經驗制定監控的KPI以及監控模型,而后通過模型預知和監控未來風險的過程。
但是真正的非結構化數據分析,是一個由數據驅動(Data-driven)的語義分析加輿情分析的整體過程,這比單純的輿情分析更具科學性,內涵更豐富。
首先,輿情分析具有滯后性,而非結構化數據分析具有前瞻性。
輿情分析是一個先建詞庫、后驗證的過程。舉例來說,比如公司要監控某次危機,輿情分析就需要先將與這個危機有關的詞匯建立到學習范本里,一旦隨后的搜索監控結果與范本里的詞匯有所匹配,那么就說明已經出現了這個趨勢。
可以看到,這是一個后驗的過程,但是,非結構化數據分析則是機器從未知的數據里實時提取出重要的關鍵信息,作為未來輿情建模的基礎性標準,具有明顯的前瞻性。
“語義分析其實是輿情分析的對立面。輿情是你知道這件事再去監測,而非結構化數據分析則是不知道的時候去挖掘、建立監測的模型。一旦數據容量呈爆炸式增長或流行詞匯更新換代,非結構化數據分析可以實時更新學習范本,重新定義監控模型?!盌erek Wang博士說。
第二,輿情分析會依賴于人們的經驗來建立模型,而非結構化數據則是數據驅動,更為客觀科學。
“雖然輿情監控也有機器學習的技術在里面,但是最大不同在于,它是一個后驗的過程?!盌erek Wang博士說,“這要求人們先要有這個經驗去建模和監測?!?
而語義分析是非結構化數據分析里的一個重要部分,相對于輿情分析需要先建立相關的詞匯庫,語義分析則是一個用機器學習的方法從數據源里提取出關鍵信息的過程。由于它是通過統計學和深度學習的方法產生,所以能保證科學性,更客觀自然地把文檔里的關鍵信息提取出來。
第三,人機互動可以補足技術短柄。
真正的非結構化數據分析,比如Taste Analytics研發出來的技術,不僅包括輿情分析和語義分析,更為關鍵的是,還加上了人機互動的創新機制,涵蓋了整個非結構化數據分析全過程——從語義分析到人機互動,再到輿情分析,三者缺一不可。
據記者了解,目前美國工業界已經充分認可了這種三位一體的非結構化分析理念:在語義分析的結果基礎上,企業內部分析師對機器學習的結果進行學習和KPI篩選,而后再建立輿情模型,進行長時間監控。
這樣合理地整合“輿情”加“語義”兩大技術系統,再把企業內部分析師的主觀能動性有機結合起來,才能實現客觀的數據分析。
美國一家知名銀行的受訪人士也表示,此前他們委托第三方建立的輿情體系,其實最終效果并不讓人滿意?!鞍凑杖藶榻涷灲⒌妮浨轶w系下,監控和分析的結果都很片面,”對方稱,“所以我們最終還是轉向了Taste Analytics結合輿情、語義和人機互動的更加客觀高效的非結構化數據分析服務?!?
非結構化數據分析就是情感分析?錯!
不僅國內,即使在美國,非結構化數據分析也屬于非常前沿的技術,企業簡單粗暴地把非結構化數據分析等同于輿情分析的也不在少數。他們甚至還走入了另外一個誤區:把非結構化數據分析和原來美國流行的情感分析也混為一談。
美國很多企業都和客戶關系很緊密,非常注重客戶的反饋。而情感分析就是這樣應運而生的:它讓機器試圖理解人說的這段話是正面、褒義的,還是負面、貶義的。
很多美國企業在過去3、4年里,都把所謂的非機構化數據分析,當成情感分析。但是,即使是業界最高水平,也僅僅能夠把用戶情感度劃分成11個層級,來讓機器了解人們對這個產品是喜歡、還是討厭,卻無法真正讓企業理解用戶的深層次需求。
Derek Wang博士介紹說,情感分析的局限性非常大,最多只能作為企業數據分析的一個參考指標,而不能保證100%正確。
比如,嘲諷的語氣就是機器無法識別的。美國就曾有公司過于信賴情感分析模型,完全錯把顧客的嘲諷當成夸贊,搞反了產品研究的方向。
另外,情感分析缺乏對客戶想法的深入挖掘。
機器可以嘗試對喜惡賦值,但是這一數值沒有辦法為企業解釋上下文是什么,也就是說永遠搞不清客戶為什么而喜歡/討厭它,這樣一來情感分析的參考價值就大大縮水。
但是,非結構化數據分析卻可以實現“溢價分析”,也就是說,它不僅可以告訴企業客戶的情感度多少,還能指出客戶在哪里有情感不滿。這樣就為企業提供了科學的決策輔助工具,有助于企業在今后有效地提升用戶滿意度。
“我們的語義分析可以把很多種自然語言分析模塊有機結合在一起,把自然語言學習、分詞、聚類、情感分析都立體整合,把整體化的語義分析帶給市場?!?Derek Wang博士介紹說,“這其實也是非結構化數據分析和傳統情感分析最大的不同?!?
海量的客戶需求,巨大的市場空白
據IBM商業價值研究院和牛津大學賽德商學院共同發布的《分析:大數據在現實世界中的應用》顯示,全球僅四分之一的受訪者表示自己具備了分析高度非結構化數據的能力,而對大部分組織而言,掌握先進的非結構化數據分析能力仍是從“大數據”中獲得價值的重大挑戰。
事實上,任何需要和客戶直接打交道的企業,都應該從現在開始,重視非結構化數據分析的重要性。
為什么呢?至少有兩點顯而易見的理由。
首先,非結構化數據分析可以排查出致命紕漏,保住了企業的“底線”。
企業服務里可能存在很多難以察覺但是致命的紕漏,用別的方法是很難排查的。比如,美國某著名家電廠商CIO就告訴記者,他們在啟用The Taste Signals Platform的第一天,就發現了一年以來客戶郵件一直在抱怨的一個小紕漏,從而及時挽回了品牌聲譽。
其次,非結構化數據分析提升了企業客戶服務的效率。
目前,大多數企業已經建立了多個客戶溝通渠道,平均下來有6-7種之多。企業每天都要安排大量的客服人員和客戶溝通,但是卻“治標不治本”。
企業對客戶投訴等這些典型的非結構化數據的分析很少,更多的是疲于解決問題,而不是找到投訴背后的主要原因,而從根本上解決它。
“很多時候,客戶一抱怨,客服就是去安撫,甚至安排退貨,很少有企業來看說每月為什么有退貨,而只是在被動解決問題?!盌erek Wang博士表示,“而非結構化數據分析,對客戶的抱怨不僅知其然,更將其作為分析結果呈現給企業,企業可以做出改進,從而從根本上解決大批客戶的抱怨,大大提升了客戶滿意度?!?
“事實上,不僅如此,以美國企業的經驗來看,數據驅動的科學的非機構化數據分析,可以幫助企業提升內部分析師的效率,并且實現明顯的商業價值?!盌erek Wang博士表示。
目前,中美企業都意識到了非結構化數據分析的重要性,但是苦于市場上幾乎沒有成熟的解決方案。
Derek Wang博士也表示,排除BAT之外,能夠在內部建立非結構化數據分析團隊的公司,幾乎可以稱得上鳳毛麟角,很多都是交給第三方服務公司。但問題在于,很少有第三方公司可以完全獨立承擔非結構化數據分析服務,而且技術也遠遠不能滿足現在企業的需求。
另外,即使有一些非結構化數據分析的工具,由于它們都不是給最終用戶設計的,所以普遍都很難用,需要長時間對員工下進行培訓,這樣產生的經濟價值很小。
“CIO們幾乎都沒有一個工具,可以來調動員工分析數據的熱情。而讓第三方給他們提供的話,效果也不好?!盌erek Wang博士說,“很多時候很多大數據分析工具看起來賣相很好,但是很難被大范圍使用,這是企業的損失?!?
美國率先實現非結構化數據分析
盡管企業對非結構化數據分析有很大的需求,但是這個市場幾乎是一片空白,而由美國夏洛特圖像可視化中心的幾個年輕的科學家成立的Taste Analytics,看到了這個領域的巨大潛力,決定用自己的研究成果來顛覆傳統的數據分析服務。
目前已有6家福布斯全球500強公司以及多家美國主流企業都采用了Taste的新型非結構化數據分析平臺The Taste Signals Platform,而且他們的銷售額在以400%的速度增長。
“Taste Analytics的優勢非常明顯,他們可以對數據、文字以及語音進行實時分析,結合了輿情分析、語義分析、人機互動三重機制,再加上可視化分析結果和簡單易用的使用界面,他們不僅能幫助企業了解新的市場增長點、做出正確的決策,而且可以充分調動數據分析師們的積極性?!睒I內專家表示。
另外,Taste Analytics的服務適用于各種非結構化數據分析場景,只要有聊天記錄、對話記錄和郵件記錄,他們的服務就可以和數據源直接對接,非常易用而且安全。
“我們也給中國企業提供了非常本地化的服務。從安全角度來說,如果是企業內部的私有數據,我們可以把平臺放到企業防火墻內或者內部云里;如果是外部數據,我們的爬蟲會自動抓取這些數據,”Derek Wang博士說,“我們一直希望的就是,讓企業用最小的付出,得到最好的結果?!?
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25