熱線電話:13121318867

登錄
首頁精彩閱讀大數據時代的非結構化數據分析-文本分析
大數據時代的非結構化數據分析-文本分析
2016-08-04
收藏

大數據時代的非結構化數據分析-文本分析

全球多達80%的大數據是非結構化的,如博客、微博、微信、設備日志、與客服代表的會話等都屬于非結構化數據,人類的自然語言非常復雜,一句話可能包含多種因素:語氣、語調、隱喻、反語等,簡單的數據分析模型無法應對這些復雜多樣的變化。

文本分析技術的發展方向:
1.智能化理解:確定一段文字是關于什么信息的,然后進行匪類和量化,再進一步分析。這有助于發掘客戶的特點,并將其轉換成結構化的數字輸出到預測模型。
2.處理復雜文本:非結構化和半結構化的文本源,如XML文件、Excel電子表格或博客文章。他們內容龐雜、議題廣泛,有必要整合兩種或更多數據源在一起,進行統一分析,以獲得深刻的見解。
3.簡化管理:分析文本復雜繁瑣,但輸出的結果往往需要通俗易懂。對監管者來說,文本分析可以總動審計跟蹤、定期檢驗、提交規格報告。
文本分析技術:
1.術語文檔矩陣(A Term Document Matrix):是一個需要進一步分析的結果集。例如,購買了產品的客戶A的購買頻率如何,與未購買產品客戶B有何區別。我們需要對術語進行排序,以便基于它們的信號強度建模。這些術語的存在和頻率可以用數字顯示在建模數據集,并直接并入最佳預測模型。這種“語義評分卡”是傳統評分卡輔以非結構化信息(按屬性將數據進行分類,并分配權重)??蛇M行復雜的數據運算,以確定哪些屬于信號最強、哪些特定術語應進行組合以從原文中識別出較大的概念。
2.命名實體識別(Named Entity Extraction, NEE):基于自然語言處理,借鑒了計算機科學、人工智能和語言學等學科,可以確定哪些部分可能代表如人、地點、組織、職稱、產品、貨幣金額、百分比、日期和事件等實體。NEE算法為每個標識的實體生成一個分數,該分數表明識別正確的概率。我們可以視情況設定一個閾值,來達到我們的目的。
3.文檔主題生成模型(Latent Dirichlet Allocation, LDA):主要用于監測客戶行為變化,它可以發現數據的相似性以便進行分類和分組。LDA使用統計算法從非結構化數據抽取主題、概念和其他含義,它不理解語法或者人類語言,而只是尋找模式。任何數量、類型非結構化的、半結構化和結構化源數據都可以應用LDA監測模式來進行分析。
這種技術通常用于營銷分析,針對提供存款、取款和購買行為的客戶提取原型。如:銀行可借助分析發現一些消費者雖然時常出差,但是忠誠度很高,這些客戶往往會與客服代表溝通由于出差而錯過還款的事由,并避免滯納金。這樣的分析可以幫助銀行了解如何重視客戶、降低客戶流失率、提高客戶忠誠度。再如:LDA分析還可以快速、方便地應用和更新消費者相關信息,可以判斷消費者的最新行為是否與他們的歷史行為一致,如果消費者有不同尋常的事情發生,或者行為與他們現有的文件不一致,系統可以發出警示。(根據消費行為的變化來優化推薦系統)。
4.文本情感分析。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢