熱線電話:13121318867

登錄
首頁精彩閱讀一個優雅地探索相關性的新可視化方法
一個優雅地探索相關性的新可視化方法
2017-08-27
收藏

一個優雅地探索相關性的新可視化方法

一個古老的詛咒一直縈繞著數據分析:我們用來改進模型的變量越多,那么我們需要的數據就會出現指數級的增長。不過,我們通過關注重要的變量就可以避免欠擬合以及降低收集大量數據的需求。減少輸入變量的一種方法是鑒別其對輸出變量的影響。變量的相關性有助于這種鑒別:如果相關性較強,那么輸入變量的一個顯著變化將會導致輸出變量同等程度的變化。我們要選擇跟模型的輸出變量強相關的輸入變量,而不是使用所有的可用變量。

然而當輸入變量之間存在強相關性時,這里就會出現一個陷阱。假設想預測一下父母的教育水平,我們發現在我們的數據集中的鄉間俱樂部會員資格、家庭汽車數量以及度假費用之間有很強的相關性。擁有所有這些奢侈品的家庭都有相同的特征:家庭富有。所以真正的根本關聯是受過高等教育的父母通常有較高的收入。我們可以使用家庭收入來預測父母的教育水平,或者使用上面的變量數組。我們稱這種相關為“組間相關”

組間相關是解釋性變量之間的相關性。添加足夠多的變量時,會引起維度災難并需要大量的數據。所以有時從一組組間相關的輸入變量中選擇一個代表變量是有好處的。在本文中我們會利用新創造的可視化方法“太陽系相關圖”來探討相關性和組間相關性,并展示如何輕松地創建一個你自己的太陽系相關圖。

把太陽系相關圖應用于房價數據

我們可以使用協方差和系數矩陣將太陽系相關圖應用于房價數據。盡管這些工具同樣有效,但很難理解。幸運的是這些矩陣可以通過精美簡潔的可視化展示來探索相關性。

太陽系相關圖是為了解決以下兩個需求而設計的:

每個輸入變量與輸出變量的相關性的可視化展示

輸入變量的組間相關性

我們來探索一個標準數據集并生成其太陽系相關圖??▋然仿〈髮W收集了上世紀九十年代的波士頓房價數據,它是UCI(加利福尼亞大學爾灣分校)機器學習資源庫中可免費訪問的數據集之一。我們使用這個數據集的目標是利用數據集中的幾個輸入變量來預測輸出變量——房屋價值(MEDV)。

首先我們生成一個相關矩陣:

優雅_相關性_可視化_方法-1

圖1 來源:Stefan Zapf和Christopher Kraushaar

你可以通過搜索MEDV行和TAX列交叉的單元格得到輸出變量(房屋價值)和輸入變量(稅收)的相關性。為了探討組間相關性,你需要找到絕對值大于某個值(比如0.8)的所有單元格。在復雜的數據集中,搞懂大量的單元格數值需要很長的時間。而太陽系相關圖可以幫助你理解這些數值。我們會先從輸入變量與輸出變量的相關性開始。以下是用太陽系相關圖表示的房價信息概要:

優雅_相關性_可視化_方法-2

圖2 來源:Stefan Zapf和Christopher Kraushaar

輸出變量MEDV(波士頓的房價)是太陽系中心的太陽。太陽周圍的每一圈都是軌道。行星是輸入變量,衛星是與它圍繞旋轉的行星有相互關聯的輸入變量。軌道越近的行星跟太陽的相關性越強。例如第二個軌道是代表較低收入鄰居(LSTAT)的行星、第三個軌道的行星代表房屋房間的數量(RM)、第四個軌道的行星代表了房屋的大小(PTRATIO)。房屋面積、房間數量以及居民的潛在購買力很大程度上決定了房屋的價值。我們并不是想選一個會讓你吃驚的例子。恰恰相反,變量的常識分析會有助于我們認識到太陽系相關圖的有效性。

相關性的強度取決于Pearson相關系數的絕對值大小。第一個軌道行星的相關系數絕對值為0.9-1.0。第二軌道行星的相關系數絕對值為0.8-0.9,依此類推。另一個指示是行星的顏色和大小。太陽是一個大圓圈,行星是中等大小的圓圈而衛星是小圓圈。

探索組間相關的輸入變量

你可能注意到太陽系里沒有太多行星有衛星。我們將多變量組間相關的閾值設置為默認值,即Pearson相關系數必須大于0.8。通常強相關性要Pearson系數高于0.5。設置默認值是非常謹慎的,但您可以在相關性分析中調整該數字。如果我們有相互關聯的變量,那么跟輸出變量最相關的輸入變量作為行星,而其他變量則是它的衛星。這是為了確保行星是最能解釋輸出變量的輸入變量。

在我們的例子中,只有兩個變量是強烈地相關以至于幾乎相同。并不是每個太陽系里都只有很少的衛星。在大數據環境中,太陽系相關圖中通常有更多的變量(且附帶有許多衛星)。隨著變量數量的增加,太陽系相關圖會變得更加重要。

現在我們來看一下輸入變量之間的相互關聯問題。在第六個綠色的軌道上有一個行星附帶一個衛星。行星代表的變量是房地產稅率(TAX),衛星代表的是到達高速公路的便利性(RAD)。由于住宅和商業地產的稅率不同,行星變量可能是個區分商業區和住宅區的指標。企業通常希望能快速進入高速公路,而私人住宅房主通常希望避免高速公路的噪音和空氣污染。一個街區的商業或住宅性質很可能是這些變量相互關聯的根本原因。如果是這種情況,那么就需要保留其中一個最能解釋對房價影響的變量。

謹慎的意思是符合程序的。數據分析不是機械性或確定性的過程。例如即使是富裕的家庭可能也不會購買跑車,因為他們關心環境污染。因此當我們試圖預測家庭財富時,我們可能會觀測到跑車變量在一個偏遠的軌道上,這表明跑車不是財富的良好指標。但是我們知道擁有跑車是財富的一個很好的指標。沒有選擇跑車作為財富的指標是因為它是一個偏遠的行星,這肯定是錯誤的策略,因為一個復雜的模型可以調節其關于家庭對環境的態度的影響。相關性是一個很有用的工具,但常常需要權衡結果和你的常識,并相信你的直覺,這其中包含大量的假設檢驗和貝葉斯分析。

在探索性數據分析(EDA)和建模時,太陽系相關圖可以幫助我們通過視覺方式理解相關性。對相關性的理解可以作為我們選擇建模變量優先級的基礎:低軌道的行星是最好的候選項,下一個是衛星,最后是最外面軌道的行星。

正面和負面的標簽

到目前為止,我們已經解釋了相關性的強度和重要性。然而,我們也想知道一個相關是正相關還是負相關 正相關意味著一個變量增加時另一個也增加。這是“越多越好”的相關性。我們先來看一下變量RM,它是房間的平均數量。房子的房間越多房價就越高,這表明房子更大以及房子空間更容易分隔。當我們有十個房間而不是兩個房間時,房子可能會有更高的價格。這是正相關的本質。你可以看到MEDV和RM之間的為相關性為正,因為標簽RM為綠色。

負相關意味著一個變量增加時另一個變量會降低:“有時少即是多”變量。犯罪率越低,我們的房子的價格會越高,所以我們猜想犯罪的標簽是紅色的。我們的猜想在太陽系相關圖中被證明是正確的。

通過太陽系相關圖,我們可以一目了然地看到強度、相關性和相關性的類型。

如何簡單地創建一個太陽系相關圖

太陽系相關圖的創建跟烘烤冷凍曲奇餅面團一樣簡單。 它是一個可以使用pip安裝的Python模塊:pip install solar-correlation-map。 然后,嘗試從我們的GitHub資源上下載jedi.csv文件。這個文件是自帶表頭的標準csv文件:

優雅_相關性_可視化_方法-3

圖3 來源:Stefan Zapf和Christopher Kraushaar

這個數據集是關于絕地武士的變量數據:

JEDI:變量越大,絕地武士就越靠近光明面

GRAMMAR:越高的值表示一個絕地武士有越好的語法

GREENESS:變量越高,皮膚越綠

IMPLANTS:體內植入物的數量

ELEGEN:原力者可以通過的電能的兆焦耳量

MIDI-CHLORIANS:血液中的纖原體數量

FRIENDS:朋友的數量

請注意在這個名單中的所有人的纖原體數量都是相同的??磥砦覀冞x擇了相當強大的原力使用者。

然后使用以下命令在你下載的jedi-csv文件所在的目錄中運行太陽系相關圖:

winterfell:solar-correlation-map daebwae$ python -m solar_correlation_map jedi.csv JEDI

此時在你的屏幕上,會出現一個包含太陽系相關圖的窗口:

圖4 來源:Stefan Zapf和Christopher Kraushaar

語法(GRAMMAR)在一個很近的軌道上且標簽是紅色的,所以語法(GRAMMAR)和絕地武士(Jedi)之間有很強的負相關關系。語法越好這個人就越不可能是個絕地武士。 另外綠色(GREENESS)與不良語法(GRAMMA)相關聯,所以兩者都可能跟潛在的相同因素相關聯。記住所有人都有非常相似的纖原體數量(MIDI-CHLORIANS)。因此它不可能告訴我們有關原力者是否是絕地戰士的任何事情。這就是為什么纖原體數量(MIDI-CHLORIANS)在最外面的軌道。

三個步驟實現一個新的可視化

我們已經介紹了太陽系相關圖,讓我們回顧一下這張圖。我們從數據分析問題出發,找出對輸出變量影響最大的輸入變量。我們可以用相關矩陣的工具來分析這個問題。通過視覺總結這個問題有助于找到相互關聯和最有影響力的輸入變量。由于可視化跟信息傳達是息息相關的,所以我們選擇了廣大讀者都熟悉的太陽系做類比。

以下是實現一個新的可視化的三個步驟:

識別數據分析中的問題

找到解決這個問題的分析工具

使用視覺類比來探索和展現你的結果

古往今來講故事的人都具有創造性和勇氣,數據分析往往就像講故事一樣。同樣地,數據科學家可以追隨過去講故事的人的足跡,大膽地探索新的方式來向讀者傳達數據的故事。

在探索性數據分析中,我們的可視化工具箱在溝通和說服方面發揮著重要的作用。本文介紹了太陽系相關圖,并把它作為對這個過程的一個高級抽象,來創建可以解決實際探索性數據分析問題的新型可視化方法。當你在講述數據的故事時,你可以探索讀者未曾看過的新奇的可視化世界。讓你的新奇創意吸引讀者并幫助擴展數據科學家的視覺類比方法

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢