R處理數據的案例-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀R處理數據的案例

R處理數據的案例

2018-01-13

收藏

R處理數據的案例
將學生的各科考試成績組合為單一的成績衡量指標、基于相對名次（前20%，下20%，等等）給出從A到F的評分、根據學生姓氏和名字的首字母對花名冊進行排序
代碼如下：
[python] view plain copy
print?

    options(digits = 2)
    Student<-c("John Davis","Angela Williams","Bullwinkle Moose","David Jones",
               "Janice Markhammer","Cheryl Cushing","Reuven Ytzrhak","Greg Knox",
               "Joel England","Mary Rayburn")
    Math<-c(502,600,412,358,495,512,410,625,573,522)
    Science<-c(95,99,80,82,75,85,80,95,89,86)
    English<-c(25,22,18,15,20,28,15,30,27,18)
    roster<-data.frame(Student,Math,Science,English,stringsAsFactors = FALSE)
    head(roster)

    tail(roster)
    z<-scale(roster[,2:4])

    score<-apply(z, 1, mean)

    roster<-cbind(roster,score)

    help(quantile)

    y<-quantile(score,c(.8,.6,.4,.2))

    str(y)

    roster$grade[score>=y[1]]<- "A"
    roster$grade[score<y[1]& score>=y[2]]<-"B"

    roster$grade[score<y[2]& score>=y[3]]<-"C"

    roster$grade[score<y[3]& score>=y[4]]<-"D"

    roster$grade[score<y[4]]<-"F"


    name<-strsplit((roster$Student)," ")

    lastname<-sapply(name,"[",2)


    fristname<-sapply(name,"[",1)
    roster<-cbind(fristname,lastname,roster[,-1])

    roster<-roster[order(lastname,fristname),]

    roster[,-9]
以上代碼寫得比較緊湊，逐步分解如下。
步驟1 原始的學生花名冊已經給出了。options(digits=2)限定了輸出小數點后數字的位數，
并且讓輸出更容易閱讀。
步驟2 由于數學、科學和英語考試的分值不同（均值和標準差相去甚遠），在組合之前需要先讓它們變得可以比較。一種方法是將變量進行標準化，這樣每科考試的成績就都是用單位標準差來表示，而不是以原始的尺度來表示了。這個過程可以使用scale()函數來實現。
[python] view plain copy
print?

    z
           Math Science English
    [1,] 0.013   1.078   0.587
    [2,] 1.143   1.591   0.037
    [3,] -1.026 -0.847 -0.697
    [4,] -1.649 -0.590 -1.247
    [5,] -0.068 -1.489 -0.330
    [6,] 0.128 -0.205   1.137
    [7,] -1.049 -0.847 -1.247
    [8,] 1.432   1.078   1.504
    [9,] 0.832   0.308   0.954
    [10,] 0.243 -0.077 -0.697
步驟3 然后，可以通過函數mean()來計算各行的均值以獲得綜合得分，并使用函數cbind()將其添加到花名冊中：
[python] view plain copy
print?

     >roster[,-9]
        fristname   lastname lastname.1 Math Science English score
    5      Cheryl    Cushing Markhammer 495      75      20 -0.63
    6        John      Davis    Cushing 512      85      28 0.35
    2        Joel    England   Williams 600      99      22 0.92
    4       David      Jones      Jones 358      82      15 -1.16
    10       Greg       Knox    Rayburn 522      86      18 -0.18
    8      Janice Markhammer       Knox 625      95      30 1.34
    9 Bullwinkle      Moose    England 573      89      27 0.70
    7        Mary    Rayburn    Ytzrhak 410      80      15 -1.05
    1      Angela   Williams      Davis 502      95      25 0.56
    3      Reuven    Ytzrhak      Moose 412      80      18 -0.86
步驟4 函數quantile()給出了學生綜合得分的百分位數?？梢钥吹?，成績為A的分界點為0.74，B的分界點為0.44，等等。
[python] view plain copy
print?

    > y
      80%   60%   40%   20%
     0.74 0.44 -0.36 -0.89
步驟5 通過使用邏輯運算符，你可以將學生的百分位數排名重編碼為一個新的類別型成績變量。下面在數據框roster中創建了變量grade
步驟6 你將使用函數strsplit()以空格為界把學生姓名拆分為姓氏和名字。把strsplit()應用到一個字符串組成的向量上會返回一個列表：
[python] view plain copy
print?

    name<-strsplit((roster$Student)," ")

[python] view plain copy
print?

    > name
    [[1]]
    [1] "John" "Davis"

    [[2]]
    [1] "Angela"   "Williams"

    [[3]]
    [1] "Bullwinkle" "Moose"

    [[4]]
    [1] "David" "Jones"

    [[5]]
    [1] "Janice"     "Markhammer"

    [[6]]
    [1] "Cheryl" "Cushing"

    [[7]]
    [1] "Reuven" "Ytzrhak"

    [[8]]
    [1] "Greg" "Knox"

    [[9]]
    [1] "Joel"    "England"

    [[10]]
    [1] "Mary"    "Rayburn"

步驟7 你可以使用函數sapply()提取列表中每個成分的第一個元素，放入一個儲存名字的向量，并提取每個成分的第二個元素，放入一個儲存姓氏的向量。"["是一個可以提取某個對象的一部分的函數——在這里它是用來提取列表name各成分中的第一個或第二個元素的。你將使用cbind()把它們添加到花名冊中。由于已經不再需要student變量，可以將其丟棄（在下標中使用?1）。

步驟8 最后，可以使用函數order()依姓氏和名字對數據集進行排序.
[python] view plain copy
print?

    > roster[,-9]
        fristname   lastname lastname.1 Math Science English score grade
    5      Cheryl    Cushing Markhammer 495      75      20 -0.63     C
    6        John      Davis    Cushing 512      85      28 0.35     B
    2        Joel    England   Williams 600      99      22 0.92     B
    4       David      Jones      Jones 358      82      15 -1.16     F
    10       Greg       Knox    Rayburn 522      86      18 -0.18     A
    8      Janice Markhammer       Knox 625      95      30 1.34     D
    9 Bullwinkle      Moose    England 573      89      27 0.70     D
    7        Mary    Rayburn    Ytzrhak 410      80      15 -1.05     C
    1      Angela   Williams      Davis 502      95      25 0.56     A
    3      Reuven    Ytzrhak      Moose 412      80      18 -0.86     F

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

python

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇主成分分析和因子分析及其在R中的…

下一篇關于R從不同數據源導入數據的幾種方式總結

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊