
從目標到技術再到實踐!大數據之可視化分析
大數據可以用在很多場景中,但是不管怎么應用,對于用戶來說,需要將我們加工處理后的數據,進行可視化的展現,那么大數據如何進行可視化分析的呢?今天小編就給大家帶來大數據之可視化分析技術。
一、 實例目標
大數據開啟了一個前所未有的信息大爆炸時代,在當今的環境中,大數據已經將我們對分析的認識從向后分析變成了向前分析,同時向我們提出了數據采集、分析和使用等難題。
大數據需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增量率和多樣化的信息資產。大數據分析相比于傳統的數據倉庫應用,具有數據量大、查詢分析復雜等特點。
大數據的海量數據信息帶來更多的是數據價值,但是我們不能忽視數據分析的重要性。提高數據分析的效率,對大數據信息進行剔除、篩選,建立大數據戰略體系,其首要實現的是數據分析,因為企業對各類數據的解讀與應用都必須是在有價值的數據上進行,只有通過對所需要數據的全面準確分析,形成數據流規模,這樣的數據結果對決策行為才有指導性作用。
本章就是建立大數據的可視化分析模型,通過從網頁中直接提取結構性數據,對人物建立索引,以幫助信息工作者對其進行分類檢索。主要實現以下幾個功能需求:
(1)具有數據采集功能,可以完成金融行業公司(如證券交易公司)的系統數據庫所需要數據抽取、統計、轉換、入庫,建立先進、安全、穩定、可管理、可擴展以及能夠滿足大規模的企業級應用需要的數據庫基礎環境。
(2)提供基于web的數據可視化分析,通過靈活的動態圖表展示對數據進行多角度、深層次的分析展示,滿足從公司到營業部到客戶經理的各級業務決策管理崗位的數據分析要求。
二、 技術關鍵
數據可視化是指對大型數據庫或者數據倉庫中的數據的可視化,其基本思想是將數據庫中的每一個數據作為單個圖形元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。
在數據的可視化方面,主要的研究方向是將數據庫或者數據倉庫中的數據,從不同的抽象層次將屬性、維度進行聯合指揮,以不同的呈現形式展現給用戶,這被稱為“前端展示”。
可視化可從三個層次上進行實現,同時對應三種處理方式,即后處理、跟蹤和駕馭。在實現的過程中涉及到計算機圖形學、圖像處理、人機交互、網絡通訊等領域的許多技術問題。
數據可視化技術的主要特點是:
(1)交互性。用戶可以方便地以交互的方式管理和開發數據。
(2)多維性??梢钥吹奖硎緦ο蠡蚴录臄祿亩鄠€屬性或變量,數據可以按每一維的值,將其分類、排序、組合和顯示。
(3)可視性。數據可以用圖象、曲線、二維圖形、三維體和動畫來顯示。并可對其模式和相互關系進行可視化分析。
2.1 數據采集
數據采集(有時縮寫為DAQ或DAS),又稱為“數據獲取”或“數據收集”,是指對現實世界進行采樣,以便產生可供計算機處理的數據的過程。通常,數據采集過程之中包括為了獲得所需信息,對于信號和波形進行采集并對它們加以處理的步驟。數據采集系統的組成元件當中包括用于將測量參數轉換成為電信號的傳感器,而這些電信號則是由數據采集硬件來負責獲取的。
根據能夠分析的業務數據集的特征和內部的結構,數據可視化工具被分成兩個主要的類別:多維可視化和專門的層次和地形可視化。
2.2 數據分析
數據分析是指為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。數據分析與數據挖掘密切相關,但數據挖掘往往傾向于關注較大型的數據集,較少側重于推理,且常常采用的是最初為另外一種不同目的而采集的數據。在統計學領域,有些人將數據分析劃分為描述性統計分析、探索性數據分析以及驗證性數據分析;其中,探索性數據分析側重于在數據之中發現新的特征,而驗證性數據分析則側重于已有假設的證實或證偽。
數據分析的類型包括:
(1)探索性數據分析:是指為了形成值得假設的檢驗而對數據進行分析的一種方法,是對傳統統計學假設檢驗手段的補充。該方法由美國著名統計學家約翰·圖基命名。
(2)定性數據分析:又稱為“定性資料分析”、“定性研究”或者“質性研究資料分析”,是指對諸如詞語、照片、觀察結果之類的非數值型數據(或者說資料)的分析。
數據可視化分析,從常用和實用的維度來看,有5中分析方法:
(1) 面積&尺寸可視化
對同一類圖形(例如柱狀、圓環和蜘蛛圖等)的長度、高度或面積加以區別,來清晰的表達不同指標對應的指標值之間的對比。這種方法會讓瀏覽者對數據及其之間的對比一目了然。制作這類數據可視化圖形時,要用數學公式計算,來表達準確的尺度和比例。
(2) 顏色可視化
通過顏色的深淺來表達指標值的強弱和大小,是數據可視化設計的常用方法,用戶一眼看上去便可整體的看出哪一部分指標的數據值更突出。
(3) 圖形可視化
在我們設計指標及數據時,使用有對應實際含義的圖形來結合呈現,會使數據圖表更加生動的被展現,更便于用戶理解圖表要表達的主題。
(4) 地域空間可視化
當指標數據要表達的主題跟地域有關聯時,我們一般會選擇用地圖為大背景。這樣用戶可以直觀的了解整體的數據情況,同時也可以根據地理位置快速的定位到某一地區來查看詳細數據。
(5) 概念可視化
通過將抽象的指標數據轉換成我們熟悉的容易感知的數據時,用戶便更容易理解圖形要表達的意義。
2.3 數據治理
數據治理涵蓋為特定組織機構之數據創建協調一致的企業級視圖(enterprise view)所需的人員、過程和技術,數據治理旨在:
(1)增強決策制定過程中的一致性與信心
(2)降低遭受監管罰款的風險
(3)改善數據的安全性
(4)最大限度地提高數據的創收潛力
(5)指定信息質量責任
2.4 數據管理
數據管理,又稱為“數據資源管理”,包括所有與管理作為有價值資源的數據相關的學科領域。對于數據管理,DAMA所提出的正式定義是:“數據資源管理是指用于正確管理企業或機構整個數據生命周期需求的體系架構、政策、規范和操作程序的制定和執行過程”。這項定義相當寬泛,涵蓋了許多可能在技術上并不直接接觸低層數據管理工作(如關系數據庫管理)的職業。
2.5 數據挖掘
數據挖掘是指對大量數據加以分類整理并挑選出相關信息的過程。數據挖掘通常為商業智能組織和金融分析師所采用;不過,在科學領域,數據挖掘也越來越多地用于從現代實驗與觀察方法所產生的龐大數據集之中提取信息。
數據挖掘被描述為“從數據之中提取隱含的,先前未知的,潛在有用信息的非凡過程”,以及“從大型數據集或數據庫之中提取有用信息的科學”。與企業資源規劃相關的數據挖掘是指對大型交易數據集進行統計分析和邏輯分析,從中尋找可能有助于決策制定工作的模式的過程。
三、實現過程
3.1 技術原理
數據實現可視化的整體的流程如下:
3.1.1 捕獲數據流
實時數據流使用scrapers、collectors、agents、listeners捕獲,并且存儲在數據庫中。數據庫通常是hbase或者nosql數據庫,例如,Cassandra、MongoDB,或者有時候是你只是hadoopHive。關系數據庫不適合這種高展現的分析。
3.1.2 數據流處理
數據流可以通過許多方式處理,比如,分裂、合并、計算以及與外部數據源結合。這些工作由一個容錯分布式數據庫系統,比如,Storm、Hadoop,這些都是比較常用的大數據處理框架。但是他們卻不是實時數據分析的理想選擇。因為他們依賴MapReduce面向批量的處理。不過Hadoop2.0允許使用其他計算算法代替MapReduce,這樣使得Hadoop在實時分析系統中運用又進了一步。處理之后,數據就可以很可視化組件讀取了。
3.1.3 數據可視化組件讀取處理過的數據
處理過的數據以結構化的格式(比如JSON或者XML)存儲在NoSQL數據庫中,被可視化組件讀取。在大多數情況下,這會是一個嵌入到一個內部BI系統的圖表庫,或者成為像Tableau這種更加廣泛的可視化平臺的一部分。處理過的數據在JSON/XML文件中的刷新頻率,稱為更新時間間隔。
3.1.4 可視化前端展現
可視化組件從結構數據文件(JSON/XML),在圖表界面繪制一個圖表、儀表或者其他可視化行為。處理過的數據在客戶端展現的頻率叫做刷新間隔時間。在一些應用程序中,比如帶有圖表渲染功能的股票交易應用程序,會預先設置基于數據流的觸發功能。
3.2 系統實現整體過程
以金融行業的某證券公司為例,對該公司的可視化系統的實現進行分析,系統的組成框架圖如下所示:
本系統包括數據采集和數據可視化分析兩大部分。其中數據采集包括客戶端數據采集、營業部數據采集、公司數據采集、滬深指數采集;數據可視化分析包括客戶數據分析、營業部數據分析、公司數據分析。
3.3 數據采集子系統
3.3.1 數據采集
數據采集子系統的主要功能是對業務數據及其他外部數據源數據進行數據抽取、清洗、轉換等操作后形成統一標準的數據,存放在數據庫中。這里的數據采集,包括客戶數據采集、營業部數據采集、公司分析數據采集和滬深股市數據采集。
(1) 客戶數據采集
這里采集的數據有:客戶基本資料表,客戶資金情況表,客戶股票庫存明細表、客戶資金流水、客戶股票交易流水燈。經過數的采集、清理、數據集成生成一個便于數據分析的數據庫,包括為所有客戶的年初資產(資金額+股票市值)、傭金貢獻、現金存取頻率及差額、盈虧情況和交易操作頻率。
(2) 營業部數據采集
營業部數據采集所有的庫表與客戶數據采集所用的庫表類似,只是根據需要將統一營業部的客戶數據按屬性進行了匯總、計算和轉換,生成該營業部每日的客戶數、客戶資產總值、交易量匯總、交易品種匯總等。
(3) 公司分析數據采集
公司分析所需的數據,是根據營業部數據的再次匯總。
(4) 滬深股市數據采集
這里包含上海和深圳股市每日指數(開盤、收盤、最高、最低)、成交量、成交額等。
3.3.2 數據處理
為了確保各變量在分析中的地位相同,可以對數據進行數據變換:中心化與標準變換。
(1)中心化
就是使各種屬性的觀測值都有相同的基點。
(2) 標準化
就是在中心化的基礎上再作變換,使各種屬性的變換范圍相等。常用的有標準差標準化變換。
3.4 數據分析子系統
這里的數據分析子系統,我們以客戶分析為例進行闡述實現過程。
(1)客戶資產與交易分布圖:將所有該營業部的客戶按照:有交易有資產;有交易無資產;無交易有資產;無交易無資產分為四類,并顯示各類別客戶資產總值、交易總量、人數合計及其占比。
數據來源:營業部客戶信息表。
計算方法:對該營業部資產=資金+市值、交易量,客戶數據分類求和,并計算各類別客戶數據占比。
圖標類型:餅圖或環圖
(2)營業部價值客戶分布圖:顯示營業部不同資產、不同傭金的客戶的分別,并顯示其盈虧狀況。
數據來源:營業部客戶信息表
計算方法:對客戶傭金、資產(資金+市值)、盈虧字段數據進行中心化和標準化后輸出。
圖標類型:氣泡圖。X軸可以表示資產區間,Y軸表示傭金區間。氣泡紅色表示盈利,藍色表示虧損,氣泡大小表示盈虧程度。
(3客戶價值分類分析:從客戶信息表中將所有產生傭金的客戶按照傭金排序,前1%為“最重要的客戶”,之后的4%為主要客戶,之后的15%為大客戶,剩余的80%的客戶為小客戶。分類分指標分析四類客戶特性。
數據來源:客戶信息表
計算方法:分類對客戶數量、傭金求和,對資產、資金、市值、傭金,交易次數、資金存取差額、存取次數、盈虧求平均值。
圖表類型:棒圖
四、價值分析
利用可視化,可以進行數據的預測和便于領導層進行管理決策。同時,利用可視化技術,可以實現以下幾點:
(1) 多維疊加式數據可視化應用
此類應用多用于社交網絡或者生活消費類應用與數字地圖的疊?;诘乩砦恢玫木W絡數據信息分享傳播具有某種互動娛樂性。比如在微信中,用戶可以依靠對方和自己的距離信息來篩選好友;在大眾點評上,可以基于地理信息輕松找到附近的酒店、餐廳,用戶可以在地圖上對店鋪進行留言評價,還可以在地圖的對應位置留下圖片供其他用戶參考。此類數據可視化應用中,用戶所獲取的視覺信息不再是單一維度而是多維的。
(2) 即時的數據關聯趨勢可視化服務
通過對若干存在關聯性的可視化數據進行比較重,能夠挖掘出數據之間的重要關聯或者是呈現一個有理有據的數據發展趨勢。在大數據環境下,這種數據可視化服務已經能夠輕松做到即時生成,即數據采集完成后就可以立刻生成可視化方案。這類服務能即時的為用戶創建出數據可視化,同時又能快捷、便利的揭示出數據間的關聯和趨勢。
(3) 全媒體多平臺的數據可視化展示
大數據時代不僅處理著海量的數據,同時也加工、傳播、分享它們。在智能手機、平板電腦和車載電腦等平臺日漸普及的當下,新的交互手段將成為數據可視化的趨勢。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25