数据格式第五篇-wiggle和bigwig
今天是生信星球陪你的第50天
你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。
你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。
终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!
不知道小读者们有没有发现规律,自从微信公众号开通了新的赞赏功能,却只给我们这个新公众号一个赞赏名额,豆豆老板果断把这个名额给了花花😄。花花不想独占,而作者名又只能四个字。于是统一改成了豆豆花花,头像是我们的一群宝贝娃娃😄。从5月11日注册公众号,到现在已经50天。每天坚持更新,没给过自己偷懒的理由~在零宣传的情况下有了41名小粉丝,阅读量也由原来的2(我们自己看)变成了三四五六七😄,虽然不多但我们也很知足!
如果你刚好看到这一篇,请在后台说句话让我们知道~鼓励批评也好,闲聊也罢,豆花组合(取名于2018.6.29)很愿意认识新朋友~
花花最近老跟数据格式过不去,是因为得到大神指点,需要熟悉这些知识。
阅读前收藏,先看系列连载:
捋一捋他们的逻辑,公司测序返回的结果是fastq,带有质量值的碱基序列。参考基因组则是fasta格式的序列。用比对工具将fastq比对到参考基因组,则生成了sam格式的比对文件。在参考基因组上做注释,则是gtf、gff格式。只描述某个基因组区域,则是bed格式。记录某些位点或碱基的变化,是vcf格式。
今天要介绍的数据格式是wiggle(wig)和bigwig(bw)。
üWig/bw/bedgraph:追踪参考基因组的各个区域的覆盖度,测序深度
ü可以无缝连接到UCSC的GenomeBrowser工具里面进行可视化!
ü体现数据大小的变化和高低,如组蛋白修饰的峰值
wiggle 分为variableStep format 和fixedstep format两部分,以一个声明开始,定义track的属性。span(跨度)将value相同的连续碱基包含在一起,是数据更简洁。
两列数据分别是染色体开始的碱基位置和对应的value值。
而FixedStep部分则直接列出了start(其实位置编号)和step(每换一行要加多少),因此没有位置编号列,只有value。
上图的例子释义为:
区域 |
value |
49307401-49307600 |
1000 |
49307701-49307900 |
900 |
49308001-49308300 |
800 |
… |
… |
bigwig则是wiggle转换而来的二进制文件,做节省空间之用。花花的理解他们的关系应该和sam和bam差不多吧~
初学生信,很荣幸带你迈出第一步。
我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!