熱線電話:13121318867

登錄
首頁精彩閱讀R語言中的數據類型和數據結構簡單介紹!
R語言中的數據類型和數據結構簡單介紹!
2020-09-01
收藏

作者:丁點helper 

來源:丁點幫你

前面的文章提到,R語言是一門針對『對象』的語言,這里說的對象,最主要的就是數據。R可以創建、讀取、處理多種類型的數據。今天先講一些基本概念。

R語言中的數據類型

稍微接觸過統計的同學應該很熟悉下圖所示的變量類型,R中的多種數據類型可以滿足各類變量的表達,我們逐一講解:

1. 數值型(numeric):數據的內容為數字。上圖中,定量變量和定性變量都可以用數值表示。下面的例子中,x, y, z, w 均為數值型數據。

x <- 175.3  
#設 x為身高,x為定量變量(連續型)
y <- 5    
#設 y為家庭人口數,y為定量變量(離散型)
z <- 6     
#設 z為教育程度,6表示本科及以上,z為定性變量(有序)
w <- 1     
#設 w為性別,1表示女性,w為定性變量(無序)

2. 字符型(character):數據的內容為字符。字符型數據可用來表示定性變量,但不能表示定量變量。只要將內容放入英文雙引號 "" 中,該數據即會被R識別為字符型。下面例子中的z, w 均為字符型數據。

z <- "本科及以上" 
#設 z為教育程度,z為定性變量(有序)
w <- "女"       
#設 w為性別,w為定性變量(無序)

3. 邏輯型(logical):僅有兩個取值,TRUE和FALSE,注意必須是大寫。

4. 因子型(factor):因子是針對定性變量而言的,剛剛講到定性變量既可以用數值、也可以用字符表示,在此基礎上做一個簡單的處理就會成為因子型數據。這個處理不會對數據的內容造成任何改變,但會有助于后續的統計分析工作,之后會詳細講。

科學研究中,x, y, z, w 這幾個變量一般不可能都只有一個數據,而且不同變量之間還需要互相組合來完成統計分析。接下來我們就來看看多個數據、多個變量是怎么組合的。

R語言中的數據結構
在剛開始接觸統計的時候,我們會經常強調一對概念——總體和樣本。但是,這個問題在做回歸時可能會被忽略。

初學者們通常會被向量、數組之類的名詞搞得一頭霧水,其實這些都是表達數據結構的名詞,本質就是數據的組合形式。下圖展示了R中5種數據結構。

將每一個小的正方體看做一個數據,那么:

(a) 向量(vector)就是一連串數據的組合,可以看做是一行或一列數據,其中的數據類型可以是數值型、字符型、邏輯型或因子型。注意,單個向量中的數據必須擁有相同的類型。

比如上圖(a)中的三個小方塊可以是1, 20, 100這三個數字,也可以是"小學", "初中", "大學"這三個字符,或是TRUE, FALSE, FALSE這樣的邏輯型數據。

(b) 矩陣(matrix)是具有一定行數和列數的數據集合。其數據類型可以是數值型、字符型、邏輯型或因子型。矩陣中所有數據的類型必須相同。

(c) 數組(array)是矩陣的推廣,即在矩陣擁有的兩個維度(行、列)的基礎上增加了第三個維度。其中的數據也只能擁有一種類型。該類數據結構在一般的統計分析中不常用。

(d) 數據框(data frame)的結構類似于矩陣,但它可包含多種數據類型(數值型、字符型、邏輯型或因子型),是最常用的數據結構。通常,數據框中的行表示觀察對象(也叫觀測/observation),列表示變量(variable)。

(e) 列表(list)像一個大抽屜,可以將若干(可能無關的)數據信息整合到單個數據結構中。這里的數據信息可以是包括列表在內的五種數據結構中的任意一種或幾種。在R中,由于許多函數的運行結果都是以列表的形式返回的,因此該類數據結構也是學習的重點。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢