• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      生信星球

      • 首页
      • 博客
      • 生信星球
      • 生信小白第5天-聊下数据格式

      生信小白第5天-聊下数据格式

      • 发布者 weinfoeditor
      • 分类 生信星球
      • 日期 2018年5月15日
      测试开头

      今天是生信星球陪你的第5天



          你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。

        你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。

        终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!

      写在最前面:今天豆豆和花花在火车硬座上可怜兮兮地被碰来撞去,用花花的手机流量给电脑供网,坚持为大家贡献教程,虽然人很多,但还是抵挡不住两小只为生信小白们铺路的热情,希望你们可以早日在生信星球垦荒种粮,收获知识!
      开始正题:豆豆曾经拿到公司返回的测序数据,貌似文件很大,人家拿移动硬盘送来的。满心欢喜的打开,以为都是分析好的成果,但是打开文件夹后的豆豆,足足愣了一分钟,我的数据呢?哪个是?怎么都是些 .gz, .fq…给我这些我怎么分析呀?

      生信小白第5天-聊下数据格式

      一、测序数据为什么是这种?

        不管你做基因组、转录组,现在公司测的数据大部分都是采用Illumina公司的测序仪,得到的都是fastq格式文件,基本都是以.fq.gz压缩文本格式为后缀的。我们拿到数据首先要解压缩啦!
      gunzip *.fq.gz (还记得*是通配符吗?当然如果文件较大你也可以一个一个解压)

        一般解压缩完占用空间能放大3倍左右(就人类基因组hg19.fa.gz而言,一般800-900M的压缩文件,解压缩后是3G)

      二、话说Fastq与Fasta

      官方解释:

        FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的ASCII编码质量评价的文本格式;

        FASTA中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。

      就说有没有晦涩难懂?-_-!!

      来自豆豆的解释:fastq是大哥,fasta是小弟,大哥比小弟重(多了些质量)

      fastq = fasta + quality 

      一张图让你搞懂:

      生信小白第5天-聊下数据格式

        这两种文件格式相当于我们平常用的.txt, 只不过在生信领域用来存储核苷酸序列或蛋白序列,没错仅仅是文本文件而已。
      虽然一眼看上去比较复杂,但是我们都知道,万事万物都是有规律可循的,这种人造的数据格式也当然不例外。

        首先它是序列,那么既然是序列,就会有!顺!序!我们可以按顺序查找我们想要的序列名称、所在位置等信息,比如人类基因组中就是按照染色体顺序从1到Y染色体组装起来的。

      生信小白第5天-聊下数据格式

       

        fasta这位小弟主要由两部分构成:头和身体。

        头指的就是>,它独占一行,作为一个标志存在,一般后面加序列名称,并且中间隔一个空格;

        身体就是具体的序列内容,直到遇到下一个头为止。生信小白第5天-聊下数据格式

      fastq

      作为大哥的fastq是不是看着很复杂?别怕,其实很简单!

      • 首先呢,这是目前储存测序数据最普遍、公认的格式,文件大小受测序量、测序深度等影响,小的有几百M,大的几十G或上百G,后缀一般是.fastq / .fq / .fq.gz;

      • 它的每四行成为一个标识,就像他的小弟的头和身体一样,只不过他比较强壮,包括的比较多,其中最重要的就是第四行的质量文件,这个我们接下来继续聊。

      • 第一行:以@开头,也是一个标识符,并且唯一(因为同一份fq甚至不同的fq中都不会重复);

      • 第二行:测序序列,就是小弟的内容;

      • 第三行:以+开头,一般不加东西(为了省空间)(不要问我为什么要加这个没用的符号,约定俗成吧~);

      • 第四行:质量值,描述第二部分中每个碱基的可靠程度(我们现在一般用ASCII 33  码来表示,至于ASCII的详细信息,以后详聊,也很重要)

        


        初学生信,很荣幸带你迈出第一步~

        我们是生信星球,一个不拽术语、说人话的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com~

      • 生信小白第5天-聊下数据格式

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoeditor

      上一篇文章

      生信小白第4天-变身数据库小达人
      2018年5月15日

      下一篇文章

      生信小白第6天-初涉测序
      2018年5月16日

      你可能也喜欢

      8-1651673488
      生信零基础入门学习小组长期报名中(2022仍继续)
      7 4月, 2022
      2-1651673738
      简化版的ROC曲线
      21 2月, 2022
      8-1651674718
      支持向量机模型
      19 11月, 2021

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      白介素-17受体信号的自主激活,维持炎症并促进疾病进展
      048月2023
      MCT4依赖的乳酸分泌抑制LKB1缺陷肺腺癌的抗肿瘤免疫
      187月2023
      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?