一个有意思的R小函数-sweep
今天是生信星球陪你的第411天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于19.7.17
不知道有没有小伙伴发现豆豆不见了
哇,一转眼好多天没更新啦,不行不行要向隔壁花花学习。最近处于学习、生活的过渡期,差不多适应了新生活,并且和花花约定并且各自交了保证金,每天都要发推送😜希望我们的小星球越来越好,也希望“球员”们每天过的舒心
今天学习到了一个函数sweep
前言
对数据框、矩阵的行或列批量进行计算可能会使用apply
函数,这一点我们也是经常使用的,举个例子:我们想计算一个矩阵的行、列均值
> test <- matrix(1:12,ncol = 4,byrow = T)
> test
[,1] [,2] [,3] [,4]
[1,] 1 2 3 4
[2,] 5 6 7 8
[3,] 9 10 11 12
> colmean <- apply(test, 2, mean)
> colmean
[1] 5 6 7 8
> rowmean <- apply(test,1, mean)
> rowmean
[1] 2.5 6.5 10.5
对行或列进行操作,只需要指定1或者2即可,至于对它们做什么嘛,除了使用现成的统计函数,如mean
以外,其实还有更复杂的公式可以用,只要你能想出来
testfun<-function(x){
m=1
for (i in x){m=m*i}
return(m)
}
# 它的目的就是为了计算所有数的乘积
然后apply
操作一下
> multest <- apply(test, 2, testfun)
> multest
[1] 45 120 231 384
从上面可以看到,apply实现的,不管function中间过程多么复杂,它最后都是对某个数值进行操作,或者对行/列进行一个统一的操作
那么,如果是想对行/列进行不同操作呢?比如,对每一列增加不同的数值,使用apply是不是还要用到循环呢?略显麻烦
sweep登场
R语言是很强大的,可以在apply
的统一操作基础上,增加个性化服务(比如对每行/列使用不同的数值进行计算,而且可以指定计算方法)
例如,想要将1-3行分别减去对应的行号1-3,就可以这样:
> sweep(test,1,c(1,2,3),"-")
[,1] [,2] [,3] [,4]
[1,] 0 1 2 3
[2,] 3 4 5 6
[3,] 6 7 8 9
-
第一个位置
test
这里需要是矩阵或数据框; -
第二个位置
1
和2
选一个,原理和apply一样 -
第三个位置是要操作的向量,如果要对行操作,那么这个向量长度就要和行数一样
-
第四个位置是计算符,比如:
+ - * / < >
等
怎样利用sweep进行矩阵的标准化?
基因表达矩阵中的基因表达量差异有时会很大,如果直接使用可能会造成这种情况:画的热图发生只有某个点颜色很深,表达量很高,而其他的差异都被”盖住了”
因此需要进行标准化,例如用z-score:(表达量-均值)/标准差
# 行为基因,列为样本,现在对基因进行标准化
standardize <- function(x) {
rowmean <- apply(x, 1, mean)
rowsd <- apply(x, 1, sd)
rv <- sweep(x, 1, rowmean,"-") #表达量-均值
rv <- sweep(rv, 1, rowsd, "/") #再除以标准差
return(rv)
}
设定一个模拟数据
> test <- as.data.frame(test)
> colnames(test) <- paste0("sample",1:4)
> rownames(test) <- paste0("gene",1:3)
> test
sample1 sample2 sample3 sample4
gene1 1 2 3 4
gene2 5 6 7 8
gene3 9 10 11 12
# 使用设定好的函数
> standardize(test)
sample1 sample2 sample3 sample4
gene1 -1.161895 -0.3872983 0.3872983 1.161895
gene2 -1.161895 -0.3872983 0.3872983 1.161895
gene3 -1.161895 -0.3872983 0.3872983 1.161895
然后用内置函数做一下看看
> t(scale(t(test),scale=T))
sample1 sample2 sample3 sample4
gene1 -1.161895 -0.3872983 0.3872983 1.161895
gene2 -1.161895 -0.3872983 0.3872983 1.161895
gene3 -1.161895 -0.3872983 0.3872983 1.161895
这里要注意的是
scale
函数是对列进行操作的,因此对基因表达量进行标准化,就要先转置,最后转回来
可以看到和我们设定的函数结果一致,从另一个方面说明scale函数也是应用的z-score进行的标准化
结尾
如果脑海中有一个公式的话,可以说,apply完成了值的获得,sweep完成了符号的运算
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步。
我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。由于是2018年新号,竟然没有留言功能。需要帮助或提出意见请后台留言、联系微信或发送邮件到jieandze1314@gmail.com,每一条都会看到的哦~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!