生信小白第5天-聊下数据格式
今天是生信星球陪你的第5天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
写在最前面:今天豆豆和花花在火车硬座上可怜兮兮地被碰来撞去,用花花的手机流量给电脑供网,坚持为大家贡献教程,虽然人很多,但还是抵挡不住两小只为生信小白们铺路的热情,希望你们可以早日在生信星球垦荒种粮,收获知识!
开始正题:豆豆曾经拿到公司返回的测序数据,貌似文件很大,人家拿移动硬盘送来的。满心欢喜的打开,以为都是分析好的成果,但是打开文件夹后的豆豆,足足愣了一分钟,我的数据呢?哪个是?怎么都是些 .gz, .fq…给我这些我怎么分析呀?
一、测序数据为什么是这种?
不管你做基因组、转录组,现在公司测的数据大部分都是采用Illumina公司的测序仪,得到的都是fastq格式文件,基本都是以.fq.gz压缩文本格式为后缀的。我们拿到数据首先要解压缩啦!gunzip *.fq.gz
(还记得*是通配符吗?当然如果文件较大你也可以一个一个解压)
一般解压缩完占用空间能放大3倍左右(就人类基因组hg19.fa.gz而言,一般800-900M的压缩文件,解压缩后是3G)
二、话说Fastq与Fasta
官方解释:
FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的ASCII编码质量评价的文本格式;
FASTA中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。
就说有没有晦涩难懂?-_-!!
来自豆豆的解释:fastq是大哥,fasta是小弟,大哥比小弟重(多了些质量)
fastq = fasta + quality
一张图让你搞懂:
这两种文件格式相当于我们平常用的.txt, 只不过在生信领域用来存储核苷酸序列或蛋白序列,没错仅仅是文本文件而已。
虽然一眼看上去比较复杂,但是我们都知道,万事万物都是有规律可循的,这种人造的数据格式也当然不例外。
首先它是序列,那么既然是序列,就会有!顺!序!我们可以按顺序查找我们想要的序列名称、所在位置等信息,比如人类基因组中就是按照染色体顺序从1到Y染色体组装起来的。
fasta这位小弟主要由两部分构成:头和身体。
头指的就是>
,它独占一行,作为一个标志存在,一般后面加序列名称,并且中间隔一个空格;
身体就是具体的序列内容,直到遇到下一个头为止。
fastq
作为大哥的fastq是不是看着很复杂?别怕,其实很简单!
-
首先呢,这是目前储存测序数据最普遍、公认的格式,文件大小受测序量、测序深度等影响,小的有几百M,大的几十G或上百G,后缀一般是.fastq / .fq / .fq.gz;
-
它的每四行成为一个标识,就像他的小弟的头和身体一样,只不过他比较强壮,包括的比较多,其中最重要的就是第四行的质量文件,这个我们接下来继续聊。
-
第一行:以
@
开头,也是一个标识符,并且唯一(因为同一份fq甚至不同的fq中都不会重复); -
第二行:测序序列,就是小弟的内容;
-
第三行:以
+
开头,一般不加东西(为了省空间)(不要问我为什么要加这个没用的符号,约定俗成吧~); -
第四行:质量值,描述第二部分中每个碱基的可靠程度(我们现在一般用ASCII 33 码来表示,至于ASCII的详细信息,以后详聊,也很重要)
初学生信,很荣幸带你迈出第一步~
我们是生信星球,一个不拽术语、说人话的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!