熱線電話:13121318867

登錄
首頁精彩閱讀選擇R語言做統計分析的理由
選擇R語言做統計分析的理由
2016-01-13
收藏

R語言是S語言的一種開源實現,一種用于數據分析和圖形化的編程環境。資深分析師Catherine最近撰文結合自己的實踐經驗詳細介紹了R語言的優點和缺點。

Catherine指出,R主要用于做統計工作。你可以把它看成是像SAS Analytics分析系統的競爭者之一,R如此強大,諸如StatSoft STATISTICA 或者 Minitab與R相比,就不值一提了。

許多專業的政府部門、商業和制藥行業的統計人員和方法論者把他們的事業都傾注在了IBM 的SPSS或者是SAS上,但是他們并不用寫一條R代碼就能用。所以,從某種程度上來說,決定去學習R是一個事關企業文化和你如何去工作的問題。我在我的統計咨詢實踐中使用好幾種工具,但是我所用的大部分都是R。

關于R語言的優點,Catherine列舉了若干條:

  • R是一個強大的腳本語言。我最近被邀請去分析一次概略研究的結果。這些研究者翻閱了1600篇研究論文,并把這些內容用幾種標準來編碼——事實上是大量的標準,并且這些標準還包括多個選項和分支。他們的數據曾經放到微軟的Excel表格中,這表格中居然包括8000列,然后這些列大多是是空的。這些研究者們想要在不同的類別和標題下對總數進行壓縮,R是一種強大的腳本語言,它能夠像Perl的正則表達式一樣來處理文本。凌亂的數據需要編程語言這樣的資源,盡管SAS和SPSS有處理那些超越下拉菜單任務的腳本語言,但是R是被用作一門編程語言來寫的,因此,對于這一目的,R是一種更好工具。
  • R領導新的方式。許多新的統計學方面的產品在成為商業平臺之前,最初是作為R的包而出現的。我最近得到關于病人回訪的醫學研究的數據。對于每一個病人,我們有醫生曾經建議的治療條目的數量,同時也有病人實際記住的條目數量。自然模型是β-二項分布。自20世紀50年代以來,這一點已經被廣泛熟知,但是把估計程序與感興趣的協變量關聯起來卻是最近的事情。通常,像這樣的數據都要用一般估計方程來處理,但GEE方法是漸進的,并且假設前提是樣本足夠大。我曾經希望R能夠擁有處理廣義線性模型與β-二項式的能力。恰好最近的一個包估計了這個模型: Ben Bolker所寫的β-二項式。SPSS都沒有完成這個功能。
  • 與文檔整合在一起發布。R能夠很好的與LaTex文檔發布系統整合在一起,這意味著來自于R的統計輸出和圖形可以嵌入到可出版級的文檔中。這并不是適合每一個人,除非你想寫一本關于數據分析的書,或者你是不喜歡把你的結果拷貝到一個字符處理文檔中,最短和最優雅的途徑是通過R和LaTex來實現。
  • 沒有花費。作為一個小企業的老板,我很喜歡R是免費的這一特點。甚至對于一個大企業,要知道你可以帶一個有臨時基礎的人來,然后快速的讓他們坐到工作站旁來使用領先的分析軟件是一件很美妙的事情。沒必要擔心預算問題。

Catherine進一步指出,R是在S-Plus開發的附加模型的基礎上對S的一種實現。有時候,同樣的人也參與進對R的開發中。R是在GNU許可證下的一個開源項目,在此基礎上,R通過不斷的添加大量的包而持續增長。R把那些能被當做同一組安裝,并且可以被R在會話期訪問的數據集合、R函數、文檔和動態加載項用C或者Fortran打包到一起。R的包添加新的功能到R,并通過這些軟件包,研究人員可以很容易地分享他們的同齡人之間的計算方法。某些軟件包是范圍有限的,其他代表統計學的整個領域,含有其他一些包含了前沿的發展。事實上,許多統計學方面的開發包在變成商業軟件之前最開始都是以R的包的形式出現的。

對于InfoSphere Streams和R語言的關系,Catherine表示,InfoSphere Streams的是一種先進的計算平臺,允許用戶開發的應用程序,以快速的采集、分析和關聯信息,因為它會接收到數以千計的實時數據源,處理非常高的數據傳輸率:高達每秒數以百萬計的事件或消息。它包括一個R-項目工具包。

InfoSphere Streams是一個計算平臺,集成了對數以千計的數據源高流速的數據進行分析的開發環境。這些數據流的內容通常是非結構化或半結構化的。分析的目標是檢查對那些基于實時事件的數據和直接決策的模式變化。SPL是InfoSphere Streams的編程語言的簡寫,它通過一個反映了數據的動態本質和快速分析和響應的必要范式來組織數據。

我們從經典統計分析的電子表格和通常的平面文件還是有很長的路要走的,但R都能適應。至于3.1版,SPL應用程序可以將數據傳遞到R,從而使用R的豐富的包庫。InfoSphere Streams支持通過創建相似的R對象來接收包含著SPL元組(SPL中基本的數據結構)中的信息來支持R分析。InfoSphere Streams的數據可以傳遞到R作進一步的分析并把結果傳回給SPL。

當然,R語言不是完美無缺的,Catherine也列舉了R語言的缺點:

  • R不是一個數據倉庫。在R輸入數據的最簡單的方法是輸入在別處,然后將其導入到R。R已作出努力來添加電子表格的前端,但還沒有做到完美。對電子表格功能的缺乏不僅影響數據輸入并且這對在R可視化的查看數據也很難,而這些事情,你在SPSS和Excel中都可以完成。
  • R使得普通的任務在醫療研究中變得艱難。例如,當列出無應答和丟失的數據的發生的時候,你處理數據的第一步是對所有變量匯總統計。這在SPSS只需要點擊幾次鼠標,但R有沒有內建的函數來計算這個相當明顯的信息,并以表格形式顯示出來。你可以很輕松地寫一些東西出來,但有時你只是想用鼠標操作即可。
  • R的學習曲線是艱難的。一個新手可以打開一個菜單驅動的統計平臺,并在幾分鐘內得到結果。并不是每個人都想從一個程序員變成一個分析師,當然,也許不是每個人必須這樣。
  • R是開源的。R社區非常大,成熟,并且活躍度也很高,毫無疑問,R是其中較為成功的開源項目。正如我所展示的那樣,R的實現花了20年以上的時間,并且S語言比R時間更長。它是一個論證過了的概念和產品。但是,任何開放源碼的產品,它的可靠性依賴于透明度。我們相信代碼,因為我們可以檢查代碼,,并且別人也可以檢查代碼進而報告錯誤。這與那些采取它在自己的基準,并驗證其軟件的公司項目是不同的。而對于那些較少被使用的R包,你沒有理由相信它們做出了正確的結果。 

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢