
作者 | 向倩文
來源 | 數據產品手記
大多數人對數據可視化的第一印象,可能就是各種圖形,比如Excel圖表模塊中的柱狀圖、條形圖、折線圖、餅圖、散點圖等等,就不一一列舉了。以上所述,只是數據可視化的具體體現,但是數據可視化卻不止于此。
數據可視化不是簡單的視覺映射,而是一個以數據流向為主線的一個完整流程,主要包括數據采集、數據處理和變換、可視化映射、用戶交互和用戶感知。一個完整的可視化過程,可以看成數據流經過一系列處理模塊并得到轉化的過程,用戶通過可視化交互從可視化映射后的結果中獲取知識和靈感。
圖1 可視化的基本流程圖
可視化主流程的各模塊之間,并不僅僅是單純的線性連接,而是任意兩個模塊之間都存在聯系。例如,數據采集、數據處理和變換、可視化編碼和人機交互方式的不同,都會產生新的可視化結果,用戶通過對新的可視化結果的感知,從而又會有新的知識和靈感的產生。
下面,對數據可視化主流程中的幾個關鍵步驟進行說明。
01
數據采集
數據采集是數據分析和可視化的第一步,俗話說“巧婦難為無米之炊”,數據采集的方法和質量,很大程度上就決定了數據可視化的最終效果。
數據采集的分類方法有很多,從數據的來源來看,可以分為內部數據采集和外部數據采集。
1.內部數據采集:
指的是采集企業內部經營活動的數據,通常數據來源于業務數據庫,如訂單的交易情況。如果要分析用戶的行為數據、APP的使用情況,還需要一部分行為日志數據,這個時候就需要用「埋點」這種方法來進行APP或Web的數據采集。
2.外部數據采集:
指的數通過一些方法獲取企業外部的一些數據,具體目的包括,獲取競品的數據、獲取官方機構官網公布的一些行業數據等。獲取外部數據,通常采用的數據采集方法為「網絡爬蟲」。
以上的兩類數據采集方法得來的數據,都是二手數據。通過調查和實驗采集數據,屬于一手數據,在市場調研和科學研究實驗中比較常用,不在此次探討范圍之內。
02
數據處理和變換
數據處理和數據變換,是進行數據可視化的前提條件,包括數據預處理和數據挖掘兩個過程。
一方面,通過前期的數據采集得到的數據,不可避免的含有噪聲和誤差,數據質量較低;另一方面,數據的特征、模式往往隱藏在海量的數據中,需要進一步的數據挖掘才能提取出來。
常見的數據質量問題包括:
1.數據收集錯誤,遺漏了數據對象,或者包含了本不應包含的其他數據對象。
2.數據中的離群點,即不同于數據集中其他大部分數據對象特征的數據對象。
3.存在遺漏值,數據對象的一個或多個屬性值缺失,導致數據收集不全。
4.數據不一致,收集到的數據明顯不合常理,或者多個屬性值之間互相矛盾。例如,體重是負數,或者所填的郵政編碼和城市之間并沒有對應關系。
5.重復值的存在,數據集中包含完全重復或幾乎重復的數據。
正是因為有以上問題的存在,直接拿采集的數據進行分析or可視化,得出的結論往往會誤導用戶做出錯誤的決策。因此,對采集到的原始數據進行數據清洗和規范化,是數據可視化流程中不可缺少的一環。
數據可視化的顯示空間通常是二維的,比如電腦屏幕、大屏顯示器等,3D圖形繪制技術解決了在二維平面顯示三維物體的問題。
但是在大數據時代,我們所采集到的數據通常具有4V特性:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。如何從高維、海量、多樣化的數據中,挖掘有價值的信息來支持決策,除了需要對數據進行清洗、去除噪聲之外,還需要依據業務目的對數據進行二次處理。
常用的數據處理方法包括:降維、數據聚類和切分、抽樣等統計學和機器學習中的方法。
03
可視化映射
對數據進行清洗、去噪,并按照業務目的進行數據處理之后,接下來就到了可視化映射環節??梢暬成涫钦麄€數據可視化流程的核心,是指將處理后的數據信息映射成可視化元素的過程。
可視化元素由3部分組成:可視化空間+標記+視覺通道
1.可視化空間
數據可視化的顯示空間,通常是二維。三維物體的可視化,通過圖形繪制技術,解決了在二維平面顯示的問題,如3D環形圖、3D地圖等。
圖2 可視化空間示例
2.標記
標記,是數據屬性到可視化幾何圖形元素的映射,用來代表數據屬性的歸類。
根據空間自由度的差別,標記可以分為點、線、面、體,分別具有零自由度、一維、二維、三維自由度。如我們常見的散點圖、折線圖、矩形樹圖、三維柱狀圖,分別采用了點、線、面、體這四種不同類型的標記。
圖3 標記類型示例
3.視覺通道
數據屬性的值到標記的視覺呈現參數的映射,叫做視覺通道,通常用于展示數據屬性的定量信息。
常用的視覺通道包括:標記的位置、大?。ㄩL度、面積、體積...)、形狀(三角形、圓、立方體...)、方向、顏色(色調、飽和度、亮度、透明度...)等。
圖3中的四個圖形示例,就很好的利用了位置、大小、顏色等視覺通道來進行數據信息的可視化呈現。
「標記」、「視覺通道」是可視化編碼元素的兩個方面,兩者的結合,可以完整的將數據信息進行可視化表達,從而完成可視化映射這一過程。
關于可視化編碼元素的優先級,以及如何根據數據的特征選擇合適的可視化表達,下次會專題來分享下。
04
人機交互
可視化的目的,是為了反映數據的數值、特征和模式,以更加直觀、易于理解的方式,將數據背后的信息呈現給目標用戶,輔助其作出正確的決策。
但是通常,我們面對的數據是復雜的,數據所蘊含的信息是豐富的。
如果在可視化圖形中,將所有的信息不經過組織和篩選,全部機械的擺放出來,不僅會讓整個頁面顯得特別臃腫和混亂,缺乏美感;而且模糊了重點,分散用戶的注意力,降低用戶單位時間獲取信息的能力。
常見的交互方式包括:
1.滾動和縮放:當數據在當前分辨率的設備上無法完整展示時,滾動和縮放是一種非常有效的交互方式,比如地圖、折線圖的信息細節等。但是,滾動與縮放的具體效果,除了與頁面布局有關系外,還與具體的顯示設備有關。
2.顏色映射的控制:一些可視化的開源工具,會提供調色板,如D3。用戶可以根據自己的喜好,去進行可視化圖形顏色的配置。這個在自助分析等平臺型工具中,會相對多一點,但是對一些自研的可視化產品中,一般有專業的設計師來負責這項工作,從而使可視化的視覺傳達具有美感。
3.數據映射方式的控制:這個是指用戶對數據可視化映射元素的選擇,一般一個數據集,是具有多組特征的,提供靈活的數據映射方式給用戶,可以方便用戶按照自己感興趣的維度去探索數據背后的信息。這個在常用的可視化分析工具中都有提供,如tableau、PowerBI等。
4.數據細節層次控制:比如隱藏數據細節,hover或點擊才出現。
05
用戶感知
可視化的結果,只有被用戶感知之后,才可以轉化為知識和靈感。
用戶在感知過程,除了被動接受可視化的圖形之外,還通過與可視化各模塊之間的交互,主動獲取信息。
如何讓用戶更好的感知可視化的結果,將結果轉化為有價值的信息用來指導決策,這個里面涉及到的影響因素太多了,心理學、統計學、人機交互等多個學科的知識。
學習之路漫漫,一直在路上, 我們會持續分享數據可視化領域的知識,記得持續follow我們喲!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23