• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      数据分析那些事儿分类

      • 首页
      • 博客
      • 数据分析那些事儿分类
      • 没经费也能干大项目-50块钱测序一个人的基因组

      没经费也能干大项目-50块钱测序一个人的基因组

      • 发布者 weinfoadmin
      • 分类 数据分析那些事儿分类
      • 日期 2021年9月10日
      • 评论 0评论

      专题介绍:数据分析那些事儿是瑞典农业科学大学的一名科研工作者。在生物大数据分析领域已经有七年的科研经验。希望通过分享过去7年在国内外硕士、博士、博士后申请、求学、科研、求职、统计学、R&Python编程、生物大数据分析、国内外高校企业求职 生命科学发展对我们当下社会的影响 中收到的个人启发 来让1000个人受益 让求学求职生活变得容易一点点。如果你也想持续学习,克服懒惰的话。关注他参与“100天生信/数据科学自我挑战”的话题吧。

      建库(10 RMB) +  测序到0.5X + 填充到全基因组密度 (大于95%准确率)= 重测序人基因组成本低于50RMB。这也就是说,如果研究的物种已经被测序,不管是家系还是野生资源,一个1000个体(基因组大小3Gb以内)的重测序课题预算,只有5万RMB。本来以为这个事儿,打开了新世界的大门,结果进了门,发现院儿里已经有好多人。可能对于太美好的事儿,大家都警惕性比较高,站在门口使劲儿喊进来的人也有限。所以我写下这篇推文,再喊一嗓子。时间有限,可能漏掉了很多前辈的工作,请多多包涵。

       

      大概17年底的时候,导师开会认识了一位普林斯顿研究果蝇的AP(助理教授),这位AP说可以用1美元建立全基因组重测序文库,并且可以无偿帮我们构建4000只鸡的文库。这些文库测序到0.5X,就可以填充到全基因组重测序的SNP密度,每个样本建库加测序大概5美元左右。

       

      当时我们建库比较省钱的办法是订购illumina的Nextera试剂盒,用1/10的体系去做,这样可以把50个容量的试剂盒变成500个,建库成本是大约50RMB一个。当时瑞典公司商业建库报价是大概一个600RMB。这里除了建库,通过低深度测序(0.5X)后做基因型填充省下的钱,也非常可观。说到基因填充大家都不陌生,不管是从低丰度(2-4X)填充到重测序水平,还是从低密度芯片填充到重测序水平都有很多文章和例子。低到1X以下测序,2010年最早水稻的重组自交系有过类似的报道,但是自交系毕竟是inbred,只有一个单倍型,而且重组不多。对于野生2倍体生物,尤其是野生群体,每一个基因组上具体的区间上有很多个单倍型,比自交系高很多,测序到0.5X,意味着一个个体两个染色体(haplotype)都没有被同时捕捉到的情况下,填充到0.95的精度,乍一看还是非常吃惊的。

       

      太美好的事情,来的又这么突然,本着绝对有诈的想法,课题组开始了自己摸索的过程。

       

       

      一、10 RMB建库

       

      2014年的时候,有一位卡洛琳斯卡医学院的博士生Picelli,优化了一个转座酶建库的体系,这个转座酶叫Tn5。这个转座酶是可以携带外源的一段DNA接头(图一A,蓝色和绿色部分),在切碎长链基因组的同时把接头插入到切碎的片段中去(图一B,灰色为基因组,蓝色和绿色部分为加上的接头)。通过设计合适的barcode+接头互补序列(图一C,蓝色和绿色部分为加上的接头,橘色和红色为文库末端与flowcell cluster的序列,紫色为barcode),我们可以通过PCR扩增切割产物的方式,得到全基因组文库。这个就是illumina nextera 建库的原理。而Picelli 的纯化了Tn5,(载体可以在Addgene订购,https://www.addgene.org/60240/),并且摸索了buffer的配方,并且把这一系列过程公开发表了。这个protocol Illumina有专利,所以不可以商业化,但是可以自己实验室用。

       

      我们课题组仅仅是重复了Picelli的过程,把它搬到了96孔板上,做了一些微不足道的优化,使得通量上有所提高。当时峰值的时候与G师姐一天之内,两个人建了1000个库,而且QC几乎都合格。当时觉得如果一个样品500RMB,我们不久就要登上人生巅峰。完整的protocol在这里(https://www.protocols.io/view/a-high-throughput-cost-efficient-library-preparati-rt8d6rw)。这个protocol价格的关键是自己纯化Tn5,我们当时找了卡洛琳斯卡医学院的蛋白平台,一次纯化5000RMB得到了20ml酶,足够做几万个样本,但是最近听说国内1500RMB才16ul。纯化酶,是个很基础的工作,我没有亲自做过这个酶,就不误导大家了,但是相信大家都或多或少有同事熟悉。今天这个流程已经被很多同行继续优化,我知道的看中国农业大学的一篇文章,https://www.biorxiv.org/content/10.1101/754671v2

       

       



      图一 Tn5 建库流程

       

      二、低丰度测序(0.5X) 基因型填充

       

      2-5X测序深度的基因型填充,有很多很多报道。尽管如此,刚听说0.5X可以填充时候,还是觉得不可思议。

       

      1.  Bi-parental cross-F2 + RIL

       

      2010年,水稻里发表了一篇文章,在RIL 测序到0.03X,把基因组分割成没有重组的区段之后(Bin),每个Bin来自于哪个亲本可以通过找亲本特异性的SNP求均值而得到。原理就是,在一个俩个亲本建立的杂交群体中,重组非常有限,具体到某一个基因组上的区段上只有两个haplotype,而且序列还已知(有亲本的重测序数据),由于重组有限,基因组上一个个没有重组的独立区段都很大很大,这样就可以通过挑选能够区分开两个haplotype的informative SNP然后求均值,来得到这个区段的基因型。有了这个Bin的基因型,就可以去做QTL定位。文章里面有Perl语言里面写的代码。类似的在玉米里也有很多很多文章,欲知细节请关注各位玉米界的中外大佬们。

       

      2.     Multi-parental cross

       

      由于我们课题组研究的群体是多个outbred的parent所构建的一个20代的AIL,具体到基因组上一个区段上,有很多个haplotype,20个世代,重组也相对多了一点。但是在一个outbred的家系里,每个nuclear family都是一个Bi-parental cross,从上一代到下一代重组有限,因此尽管这个家系里包括20个世代,很多个F0亲本,我们仍然可以通过在每一个世代中iterate nuclear family的方法,把它变成一个Bi-parental cross,从而用同样的方法得到每个bin的基因型。这里我做了一个R版本的包https://github.com/yanjunzan/GBSA。

       

      但是这个case里有一个棘手问题,由于群体世代很高,所以我们必须要能够精确的定位到recombination break point。就是说希望第一个bin和第二个bin之间物理距离很短,否则这里会出现一个gap,F2的gap会变成F3的gap,越往高世代,gap随着世代的积累会越来越大,可以impute的区段随之会越来越少。所以我们采用了马尔科夫链,来尽可能的缩小Gap,文章在这里https://link.springer.com/article/10.1186/s12711-019-0487-1, 软件在这里https://github.com/yanjunzan/Stripes,文章看不看没关系,结论就是在任何一个有系谱的复杂家系里,我们可以通过低丰度测序来完美填充到重测序水平。

       

      插播一个前人在MAGIC群体里低丰度基因型填充的例子,http://mtweb.cs.ucl.ac.uk/mus/www/19genomes/magic.html,这里用了类似的逻辑,可以在没有系谱的条件下,impute MAGIC Design群体。

       

       

      3.  野生群体里0.5X的基因型填充

       

      读了上面的例子,我相信大家看出来规律了,这里几个点特别重要,一、被填充的群体,具体到某一个位置haplotype diversity多高?二、没有重组的区段有多大,也就是LD衰减有多快? 三、关于1和2 我们知道多少。

       

      在野生群体里,我们测序到0.5X时候,对1和2 几乎不知道。但是我们可以去根据我们测到的结果去推测,只要我们测得个体足够多(目前看到的是依据群体LD结构和群体历史,500-1000精度已经很高了),我们可以用每个个体的reads合起来去做某一个小区段的de novo assembly,一旦assembly成功,我们就大致知道了1。我们还可以用个体的0.5X测序结果和assembly结果去无限逼近1的真实情况. 知道了1我们就可以用关键的informative SNP和马尔科夫链去推测个体的基因型。这个NG的文章在这里https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4966640/pdf/emss-68776.pdf, 软件在这里https://github.com/rwdavies/STITCH。亲测在鸡里有效,据我所知道的在人、猪(近期中国农业大学一篇文章https://www.biorxiv.org/content/10.1101/754671v2)、狐狸里完美重复,目前应该可以说只要基因组不是特别复杂(比如针叶树20GB,几百万个contig),assembly不是稀烂,应该没有物种的限制。

       

      至此可以说DNA重测序的成本已经非常低,技术难度也不是很大。这个建库方法也可以改良到RNA测序以及一些研究转录活性的DNA测序中。由于转座酶比较温和,不经过机械破摔,很少产生nick。未来可能会被拓展用于三代测序长链DNA文库制备。

       

      虽然数据分析和存储也会有一定的花费,但是有了这个低成本测序方案,理论上一个中等项目就可以做很多东西,尤其是不依赖于表型的群体遗传学研究。但是没有一个高通的表型监测方案,需要耗费很大的人力去做数量遗传学课题。所以下一篇我打算写写如何用1000RMB解决植物表型组的DIY,来相对高通量拿到株型,花型,花数目,果夹,叶片侵染情况等通过RGB图像可以获取的表型,解放繁琐的人工统计过程。

       

       

      未来故事,请扫码关注。拜托各位老师、同学和家长,把它传播给需要的师弟师妹。也欢迎各位师弟师妹,如果想知道或者了解什么方面,请留言互动。我会尽力和身边大佬同仁学习后,努力给大家一个全面的总结。

       


       


      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      1000块自制表型组半自动检测设备
      2021年9月10日

      下一篇文章

      读了20多年的书是一种什么体验?(来自学霸同桌的约稿)
      2021年9月10日

      你可能也喜欢

      articleheader与公众号
      当一个隔离几个月的博士后面临遥遥无期的隔离时
      10 9月, 2021
      过去六七年科研中我与公共数据的故事
      10 9月, 2021

      14年从硕士时候的分子生物学专业转到计算生物学专业读博士,大一、大二学过的统计学 …

      31631245961
      读完博士,我们学到了什么?
      10 9月, 2021

      留言 取消回复

      要发表评论,您必须先登录。

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?