熱線電話:13121318867

登錄
首頁精彩閱讀技能 | R 家族又添新丁,5個數據科學專用包
技能 | R 家族又添新丁,5個數據科學專用包
2015-09-02
收藏

李垠序編譯

來自雪晴數據網


R生態體系有其非常之美,在于它的新包貢獻系統,而這也可能是R使用者顯著增加的根本原因。這一特點與堅如磐石的基礎包版本庫(CRAN)結合,給了R一個非常優越的條件。任何有足夠專業技術的人,通過合適的方法都可以為CRAN貢獻包。


僅僅關注CRAN可能無法發現其優秀的地方:事實上,對R的初學者而言,開源會讓他們遇到很多麻煩。怎樣通過一個有機的包系統來構造高質量的集成軟件?學習這些需要花費許多時間和精力。不過即使是相對新手的人來說,發現那些支撐R語言發展的基礎包并不難。那些可靠地為R語言增加價值的包已經出現在CRAN’s package dependency network。發現一個新包,并且最終有用是另一件重要的事情。出于探索精神,這里有5個可靠的新包,我認為數據科學家會對其感興趣。在CRAN上,這些包都沒有經過長時間的檢驗,因此請以合作的心態去探索他們吧。


AzureML V0.1.1


云計算對每個實踐數據科學家都很重要(或者即將變得很重要)。微軟的AzureML為R(和Python)程序員提供了一個非常豐富的機器學習環境。如果你還不是一個Azure的使用者,這個包花了大工夫來克服上手這一環境的困難。它提供了函數來將R代碼從你的本地環境推送到Azure云端,并將函數和模型發布為web服務.圖文教程會一步一步地教你,從獲得試用賬號和必要的證書到發布你的第一個簡單的實例。


distcomp V0.25.1


對大數據集的分布式計算是非常棘手的,尤其是在不能或很難共享集群間數據的環境當中。Distcomp聰明地包執行了一個局部似然算法(詳見:paper by Narasimham et al)使得在非聚合的數據集上建立一個復雜的統計模型成為可能。更多詳細的信息可以參考早期博文。


rotationForest V0.1


介于其在多種數據集上穩定良好的表現,森林算法對許多數據科學家來說是一個必選的組合方法。它的一個新變種,基于特征空間隨機子集的主成分分析有著非常好的應用前景。paper by Rodriguez et. al解釋了PCA特征空間旋轉的意義,并將旋轉森林算法與標準隨機森林、Adaboost算法進行了比較。


rpca V0.2.3


給定一個兼有低秩性和稀疏性的矩陣,rcpa使用穩健PCA方法來彌補這一特性。Netflix數據科學家發布了這個算法(基于paper by Candes et al)。今年早些的時候,他們公布了這一算法在異常檢測問題上的驚人成功。


SwarmSVM V0.1


支持向量機也是一個主流的機器學習算法。SwarmSVM 基于聚類方法,提供了三個組合算法來訓練支持向量機(詳見paper by Gu and Han)。程序包的圖文教程提供了一個實例來介紹該方法。


原文:5 New R Packages for Data Scientists

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢