生信小白第21天–转录组实战(二)
今天是生信星球陪你的第21天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
上一期,我们学了如何去高速下载公共数据库的转录组数据,这一期,就让豆豆来帮助你开始数据的研究吧~_~
1. 数据格式转换
我们拿到的原始数据是SRA格式的,NCBI 上存储的数据现在大都为SRA格式,可以认为是一种压缩文件。我们首先需要对这种文件进行解压缩,使用的工具叫做sratoolkit, NCBI出品。
【软件下载安装】
下载地址:
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.0/
多练习下手动安装软件对自己是很有好处的,能够多熟悉下Linux,熟悉环境变量,能够从容应对软件安装中出现的错误。
软件安装三步走:
1 – 建立程序文件夹,像这样能帮助你更好的整理自己的软件,而且在软件后加上版本号方便日后更新
2 – 下载并解压缩,wget + 地址 && tar zxvf +工具
(⚠️:zxvf 适用于.tar.gz结尾的软件;还有一类.bz2结尾 tar -jxvf 解压)
3 – 安装并添加进PATH,一般的软件解压完成就结束安装了。
【补充一下:还有一类源码文件需要进行配置configure才能完成安装, 配置也是三步走~
第一步– 进入解压完的文件夹
./configure –prefix=/YOUR/PATH,意思就是你要把这个软件安装到哪里,就像WIndows下要求你选择安装路径。
举个🌰豆豆在安装cmake时,首先就是
第二步– make 编译;
第三步– make install 编译完安装
【开始转换】
进入到sratoolkit文件夹,我们会发现有很多的软件,一般来讲
我们最最常用的就是一个–fastq-dump
对于多个SRA文件,我们可以写一个很简单的小脚本sra2fq.sh进行转换:看到这里你也许要问了:这个小脚本什么意思呢?
说到底,就是一个针对所有sra格式的小循环:
第一行,*是通配符,*sra就是标出了当前目录下所有的sra后缀文件
第二行,bash固定格式 表示下面👇“请开始你的表演!”
第三行,输出打印这些匹配到的sra文件,发给下一行用; $有一种引用的意思
第四行, 用我们之前安装好的fastq-dump 加上参数–split-3 表示将一个sra拆分成两个mate-paired的fq文件,因为现在一般都是双端测序策略
第五行, 也是固定格式done “表演结束,谢幕”👆
好了,写好了脚本,直接nohup sh sra2fq.sh & 放在后台运行就好了,运行完每个sra文件会得到属于它的两个fastq文件
2. 质控
我们得到的fastq文件质量怎么样呢?这里需要用到fastqc工具生信小白第7天-测序质控,这里有相关介绍,可以参考,质控完成得到html文件,浏览器打开即可。生信小白第11天-质控第二部,每个部分都可以学习研究一下。这是数据分析的第一步,记住一句话:分析好不好,质控很重要!
初学生信,很荣幸带你迈出第一步。
我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!