我想要的是SRR,你却只给我SRS
今天是生信星球陪你的第494天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于19.11.28
平时我们下载数据一般都是直接找到SRR 列表,然后prefetch
一下,方便快捷。但是当你只有SRS编号时呢?「大大的致谢」!!
首先来认识一下什么是SRS编号
SRA数据库的架构是这样的:
SRP(项目 Project)—>SRS(样本 Sample)—>SRX(数据产生 Experiment)—>SRR(数据本身)
首先要知道国际上的三大生物数据库:SRA, ENA or DDBJ,分别在美国、欧洲、日本
生物项目(BioProjects)是最顶层的,根据不同的数据库,它的前缀是PRJ 或者 SRP/ERP/DRP;
其中包含一个或多个的生物样本(BioSamples),它的前缀是SAMN 或者SRS/ERS/DRS;
一个BioSample虽然只是一个样本,但它可以使用多种实验处理,也就是Experiments,前缀是SRX/ERX/DRX;
每个实验都会有一个数据产出Run,它的前缀是SRR/ERR/DRR
因此,一个SRS或许会包含多个实验产生的多个数据,也就可能对应多个SRR号
其实我们最感兴趣的也就是Runs的最终数据,它包含了reads的信息。而prefetch
是针对SRR或ERR这样的数据本身的,并不能直接去下载SRS,需要先利用SRS ID得到SRR ID
怎么将SRS转成SRR
来自:https://www.biostars.org/p/347050/
比如想要下载:
可以直接用SRS551840
esearch -db sra -query SRS551840 | efetch --format runinfo | cut -d ',' -f 1 | grep SRR
然后你就会看到:
SRR1159129
SRR1159377
SRR1181071
SRR1181300
那么接下来,就可以顺利使用prefetch
进行下载
关于prefetch的快速下载
目前就我测试来讲,下面这个组合最好用,还是可以保持ascp的快速下载
prefetch : 2.9.6
Aspera Connect version 3.9.6
具体使用参考之前写的:来吧,加速你的下载
还有一点内容
如果看到文章中作者给出的数据不是GEO链接,而是放上一个BioProject,那么这时要怎么去获取SRR ID呢?

可以先进入这里:https://www.ncbi.nlm.nih.gov/Traces/study/
然后输入BioProject编号

就能跳转到SRA ID了,接着下载Accession List就好啦
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步
🤓生信星球 🌎~ 一个不拽术语、通俗易懂的生信知识平台
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!