R包介绍

包可谓是R语言发展至今最重要的因素。包其实就是一个一个的函数脚本,安装了一个包以后,你就可以使用这个包里数据或者函数。R语言写起来很快,所以很多科学家再研究出新算法新工具之后,都会第一时间发布一个R版本的工具。所以R语言再科学界的地位很高。

大部分R包的安装方法很简单,就是一行代码:

install.packages("XXX")

就可以完成安装,对于一些复杂的生物学方面的包,需要再Bioconductor网站上寻找,然后用Bioconductor的命令去安装。

但是值得注意的是,再有些时候,R之间的以来关系很复杂,如果需要安装一些很大很复杂的R包,你需要安装一系列的依赖软件,才能确保你要安装的软件可以顺利运行。

另外,包的更新换代非常频繁,有时候你发现自己的包和别人的运行效果不一样,可能的原因是你们的版本不同。

此外,一些很特殊的包需要其他一些语言和工具的支持,比如RJava包需要Java支持,RPostgreSQL需要PostgreSQL数据库支持,RSpark需要Spark支持等等……面对那些问题,最好参看相关的文档,找到解决办法。不过,再大多数时候,install.packages()可以解决大部分问题。

第二种方法就是直接装tar.gz文件,这种方式通常用于没有公布于网上的私人包,或者自己写的包。

具体方法就是点Rstudio的tool选项

然后再选tar.gz模式选择文件安装

如果你使用install.package()直接从互联网下载安装,那么如果你想要安装的包缺乏一些以来软件,R会自动帮你下载那些依赖包进行安装。但是如果你直接通过tar.gz文件进行安装,就不会帮助你自动下载依赖。

 

安装一些较大的R包的时候,有时候即使使用互联网安装也会出现一些dependence缺失的情况,那种情况一般是因为多级引用,比如A引用了B,B引用了C,但是A没有引用C等等一连串的问题……但是一般来说,安装过程中报什么错,你就安装什么包,这样循环下去就行了。

另外包的操作可以是

# 删除包
remove.packages(pkgs, lib)

#检查library里哪些包有更新版本
old.packages()

#更新library里所有包
update.packages()

 

下面来介绍R语言中最热门的几个包,有兴趣的话可以延伸阅读

DataCamp的优秀人员在RDocumentation.org Trends页面上跟踪与R包相关的活动。在撰写时,跟踪了11,768个软件包的统计数据(分布在CRAN,BioConductor和Github上),总共包含170多万个R函数。

在最近的博客文章中,DataCamp概述了目前最常下载的5个软件包:

dplyr,用于操作数据,方便强大
devtools,用于开发包的工具
foreign,用于读取由Minitab,S,SAS,SPSS,Stata生成的数据
cluster,用于聚类分析
ggplot2,用于在R里面进行高级绘图
上面是直接下载中排名靠前的包,即R用户进行install.packages调用时启动的包。但是,许多流行的软件包都有依赖项,在安装软件包时也会下载这些依赖项。如果你通过总下载来衡量前5个包,包括那些因为是依赖性,那么前5个的排名是:

Rcpp,无缝R和C ++集成。 (许多软件包通过此软件包包含C或C ++代码。)
ggplot2,用于在R里面进行高级绘图
stringr,包含了常见的字符串操作
stringi,字符串的基本处理
reshape2,灵活地重塑数据,常常和ggplot2搭配使用
如果您是一个不经常编写R函数的R用户,那么您可能很熟悉第一个软件包集合。但是如果你是一个花费大量时间编写函数(或包)的R开发人员,你就可能更熟悉第二个列表。