把數據輸入R語言后，如何進行簡單的操作(二)-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁大數據時代把數據輸入R語言后，如何進行簡單的操作(二)

把數據輸入R語言后，如何進行簡單的操作(二)

2020-09-11

收藏

先回憶一下之前用到的例子。

將其輸入R語言中：

age <- c(25, 34, 59, 60, 20) #患者年齡

type <- c(1, 2, 2, 2, 1) #糖尿病類型

status <- c("poor", "improved", "excellent", "poor", "excellent") #病情

comorbidity<- c(TRUE, FALSE, FALSE, TRUE, FALSE) #出現并發癥

mydata <- data.frame(age, type, status, comorbidity) #將數據框命名為mydata

查看mydata：

mydata

## age type status comorbidity

## 1 25 1 poor TRUE

## 2 34 2 improved FALSE

## 3 59 2 excellent FALSE

## 4 60 2 poor TRUE

## 5 20 1 excellent FALSE

接下來我們就以mydata為例，介紹一下如何對數據框進行簡單的操作。

了解一個數據框

多重線性回歸，一般是指有多個自變量X，只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹，兩者的差距主要在于自變量X的數量，在只有一個X時，就稱簡單線性回歸。

面對數據，第一步就是要了解它有多少條記錄(或多少個case/ observation )，有多少個變量（variable）、分別是哪些。

## 獲取數據框的維度（幾行、幾列）

dim(mydata)

[1] 5 4

## 查看數據框中的所有變量名（列名）

names(mydata)

[1] "age" "type" "status" "comorbidity"

## 查看數據框的整體結構（維度、變量名、數據類型、數據內容）

str(mydata)

'data.frame': 5 obs. of 4 variables:

$ age : num 25 34 59 60 20

$ type : num 1 2 2 2 1

$ status : Factor w/ 3 levels "excellent","improved",..: 3 2 1 3 1

$ comorbidity: logi TRUE FALSE FALSE TRUE FALSE

如何提取數據框中的行和列

多重線性回歸，一般是指有多個自變量X，只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹，兩者的差距主要在于自變量X的數量，在只有一個X時，就稱簡單線性回歸。

2種方法：

1. 數據框后加[ , ]。逗號前是行，逗號后是列。如果沒有指定是哪一行或哪一列，默認為所有行/列。

## 提取第一行

mydata[1,]

age type status comorbidity

1 25 1 poor TRUE

## 提取第一列

mydata[,1]

[1] 25 34 59 60 2

## 提取某幾行或某幾列

## 提取1~3行

mydata[1:3,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

## 提取第1和第5行的1、2、4列

mydata[c(1,5),c(1,2,4)]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

## 變量很多時，用列名來提取更方便

mydata[c(1,5),c('age','type','comorbidity')]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

2. 另一種提取列的方法是，在數據框后加 $，然后再加要提取的列名。

## 提取age這一列

mydata$age

[1] 25 34 59 60 20

獲取滿足特定條件的數據

多重線性回歸，一般是指有多個自變量X，只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹，兩者的差距主要在于自變量X的數量，在只有一個X時，就稱簡單線性回歸。

1.提取滿足某一個條件的數據。

例如，在病情status這個變量中，有poor, improved 和 excellent這三類，現在想獲取病情最穩定、恢復最好的患者信息。也就是說，我們希望獲得status為excellent的病例，即選擇滿足mydata$status=='excellent'的行，以及被選中的行的每一列。

mydata[mydata$status=='excellent',]

age type status comorbidity

3 59 2 excellent FALSE

5 20 1 excellent FALSE

此外，還可進一步提取，例如，想獲得病情status為excellent的患者中，并發癥comorbidity的情況。換句話說，就是，想提取comorbidity的信息，但這些信息必須是病情最穩定的幾位患者的。

## 具體操作如下：先提取comorbidity,再設置status的條件

輸入語句：mydata$comorbidity[mydata$status=='excellent']

[1] FALSE FALSE

2.提取滿足多個條件的數據。

例如，想提取年齡age大于等于20歲，且小于35歲的病例。在R中，用&這個符號表達『并且』。用一個小豎杠 | 表達『或者』。

mydata[mydata$age>=20 & mydata$age<35,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

3.subset()函數，既可用來選擇行，也可選擇列，當然也可以用來提取滿足特定條件的內容。

# 選擇行/滿足特定條件的行

subset(mydata, mydata$age>=20 & mydata$age<35)

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

# 選擇列

subset(mydata, select = c('age','status'))

age status

1 25 poor

2 34 improved

3 59 excellent

4 60 poor

5 20 excellent

有缺失數據怎么辦

多重線性回歸，一般是指有多個自變量X，只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹，兩者的差距主要在于自變量X的數量，在只有一個X時，就稱簡單線性回歸。

由于原來的數據框中沒有缺失數據，這里我們來構造一個新的記錄(observation)，讓這個記錄中全部都是缺失值。

mydata[6,] <- NA

mydata

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

6 <NA> <NA> <NA> <NA>

1. 只保留無缺失的observations。如果希望將無缺失版本的數據框保存起來，要記得把na.omit(mydata)的結果賦值給新的對象。

mydata_no_NA <- na.omit(mydata)

mydata_no_NA

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

2. 查看哪個數據為缺失值。需要用到2個函數，這里提醒大家，如果R的語句太復雜，那么可以先從最中心的部分讀起，一層括號一層括號地向外擴展。

例如，下面的語句，可以先看最中間的is.na(mydata$age)，意思是對age這列中的每個數據進行一次檢驗，返回『是否為缺失值』的邏輯型結果，即TRUE 或者 FALSE。再看which()這個函數，它返回的是前面這一串TRUE和FALSE中，出現TRUE的順序號。

從下面的結果我們可以看到，只有第6個數據是TRUE。

which(is.na(mydata$age))

[1] 6

is.na(mydata$age)

[1] FALSE FALSE FALSE FALSE FALSE TRUE

以上就是對數據框的一些簡單操作，但是在數據處理中非常實用。下一講我們繼續介紹更多數據處理的內容。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

線性回歸缺失值數據處理 R語言數據類型

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇python新手如何度過小白期，不再當菜鳥程序員？

下一篇突發！CPA或取消北京考區惹爭議，曾經“飄香”的證書還香嗎？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊