• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      未分类

      • 首页
      • 博客
      • 未分类
      • 使用aspera从EBI下载fastq数据,抛弃NCBI的SRA数据库吧!

      使用aspera从EBI下载fastq数据,抛弃NCBI的SRA数据库吧!

      • 发布者 weinfoauthor
      • 分类 未分类
      • 日期 2020年2月11日
      • 评论 0评论

      使用`ascp`从EBI下载fastq数据

      mkdir -p /data/project/pig_lncRNA && cd /data/project/pig_lncRNA
      mkdir -p 1.raw_fq && cd 1.raw_fq

      ENA主页:https://www.ebi.ac.uk/ena/browser/home

      ENA – home

      随便搜索SRR1805951

      点击PRJNA275632

      ENA – PRJNA275632

      这里可以看到整个数据集所有样本的fastq下载地址,随便挑几个,观察一下:

      ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/009/SRR1805929/SRR1805929_1.fastq.gz
      ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/009/SRR1805929/SRR1805929_2.fastq.gz
      ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/000/SRR1805930/SRR1805930_1.fastq.gz
      ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/000/SRR1805930/SRR1805930_2.fastq.gz
      ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/001/SRR1805931/SRR1805931_1.fastq.gz
      ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/007/SRR1805937/SRR1805937_1.fastq.gz
      ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/001/SRR1805951/SRR1805951_1.fastq.gz

      是有规律的哦,所以可以构建ascp批量下载命令:

      参考:https://www.ebi.ac.uk/ena/browse/read-download#downloading_files_aspera ,下面的shell命令需要仔细理解哦,其中aspera软件自己下载安装哦,我们在生信技能树已经介绍过很多次啦。

      for i in {29..64}
      do
      a0='/home/cat1988/.aspera/connect/bin/'
      a1='ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR180/00'
      a2=$(($i % 10))
      a3='/SRR18059'$i
      a4='_1.fastq.gz .'
      a5='_2.fastq.gz .'
      echo $a0$a1$a2$a3$a3$a4
      echo $a0$a1$a2$a3$a3$a5
      done >> ascp.command
      nohup bash ascp.command &

      坑1:

      报错 ascp: Source file list not specified, exiting.

      参考:https://www.ebi.ac.uk/ena/browse/read-download#downloading_files_aspera

      Downloading files using Aspera

       Aspera ascp command line client can be downloaded here. Please select the   correct operating system. The ascp command line client is distributed as part of   the Aspera connect high-performance transfer browser plug-in.

      Your command should look similar to this on Unix:

      ascp -QT -l 300m -P33001 -i <aspera connect installation directory>/etc/asper        aweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:<file or files to download>   <download location>

      问题就出在这个<download location>,需要设置下载位置,设置下载到当前文件夹,所以for循环命令中的变量a4和a5最后要加.,跟前面的gz用空格隔开。

      坑2:

      关于ascp,安装ascp时为了方便使用在~/.bashrc设置了别名

      alias ascp=/home/cat1988/.aspera/connect/bin/ascp

      直接在shell下写ascp命令,下载速度只有100k/s左右。

      for循环写批量ascp时,一开始是没有加全路径(变量a0)的,结果bash ascp.command报错,乖乖加上全路径,然后bash,下载速度到了80M/s,意外的惊喜。

      坑2总结就是ascp命令要使用全路径

      坑3:

      关于ascp软件下载的坑。ascp这个命令出自软件Aspera Connect。
      参考1:使用Aspera从NCBI或EBI高速下载数据
      参考2:Ubuntu下Aspera connect的安装与使用
      Aspera提供了大文件高速传输方案,适合于大数据的传输。客服端的使用是免费的。

      下载地址https://downloads.asperasoft.com/en/downloads/8?list

      坑就在这个下载地址,不要用chrome打开这个地址,因为,打开了,你也下不到软件。

      下面这是chrome打开的状态:

      鼠标点到Linux时,浏览器左下角显示:

      下面这是360浏览器打开的状态:

      网页有java内容,而chrome不支持java,解决方案就是换个支持java的浏览器。相当奇葩的状况。

      另外,其实这个教程是一个系列,我们即将上线在B站的lncRNA-seq数据处理。我们前面已经铺垫了:lncRNA的一些基础知识 ,以及lncRNA芯片的一般分析流程和lncRNA-seq数据的一般分析流程!下面我们先看看对参考基因组使用hisat构建索引

      猪的参考基因组

      http://asia.ensembl.org/info/data/ftp/index.html

      下载地址:ftp://ftp.ensembl.org/pub/release-99/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gz

      文献数据集

      本次用到的数据集是GSE65983

      建立hisat2猪参考基因组的索引

      参考1:【生信技能树】猪狗的参考基因组构建索引

      参考2:【bwa bowtie2 salmon subread hisat2建索引和比对】

      1. 下载猪的参考基因组
        下载地址:ftp://ftp.ensembl.org/pub/release-99/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gz
      2. 下载猪的基因组注释文件
        下载地址:ftp://ftp.ensembl.org/pub/release-99/gtf/sus_scrofa/Sus_scrofa.Sscrofa11.1.99.gtf.gz
      3. 使用hisat2的extract_exons.py和extract_splice_sites.py分别获取外显子和可变剪切信息
      4. 使用hisat2-build命令建立索引
      mkdir -p /data/reference/genome/pig/
      cd /data/reference/genome/pig/
      wget -c ftp://ftp.ensembl.org/pub/release-99/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gz
      gunzip S*
      
      mkdir -p /data/reference/gtf/pig/ && cd /data/reference/gtf/pig/
      wget -c ftp://ftp.ensembl.org/pub/release-99/gtf/sus_scrofa/Sus_scrofa.Sscrofa11.1.99.gtf.gz
      gunzip S*
      hisat2_extract_exons.py Sus_scrofa.Sscrofa11.1.99.gtf > pig.genome.exon
      hisat2_extract_splice_sites.py Sus_scrofa.Sscrofa11.1.99.gtf > pig.genome.ss
      
      mkdir -p /data/reference/index/hisat2/pig && cd /data/reference/index/hisat2/pig
      ln -s /data/reference/genome/pig/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa ./
      ln -s /data/reference/gtf/pig/pig.genome.* ./
      hisat2-build -p 4 pig.genome.fa --ss pig.genome.ss --exon pig.genome.exon pig
      hisat2-build -p 2 pig.genome.fa --ss pig.genome.ss --exon pig.genome.exon pig
      hisat2-build -p 4 pig.genome.fa pig

      加入可变剪切和exon信息,报错:

      Ran out of memory; automatically trying more memory-economical parameters.

      网上搜索解决方案,

      https://anjingwd.github.io/2018/04/19/hisat2构建GRCH38转录组index内存不足/

      首先查看hisat2官网的manual,可以看到这样一句话:

      If you use –snp, –ss, and/or –exon, hisat2-build will need about 200GB RAM for the human genome size as index building involves a graph construction. Otherwise, you will be able to build an index on your desktop with 8GB RAM.

      尝试了更改线程数,去掉ss文件,只保留exon文件,仍然报错,只能用最简单的命令构建索引了:

      hisat2-build -p 4 pig.genome.fa pig

      https://blog.csdn.net/qq_42100966/article/details/84190086

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      weinfoauthor
      weinfoauthor

      1233

      上一篇文章

      EbioMedicince:疾病和肿瘤联合的纯生信分析套路
      2020年2月11日

      下一篇文章

      (已测试)考虑生存时间的ROC曲线-timeROC
      2020年2月11日

      你可能也喜欢

      2-1675088548
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      30 1月, 2023
      9-1675131201
      如何快速批量修改 Git 提交记录中的用户信息
      26 1月, 2023
      8-1678501786
      肿瘤细胞通过改变CD8+ T细胞中的丙酮酸利用和琥珀酸信号来调控抗肿瘤免疫应答。
      7 12月, 2022

      留言 取消回复

      要发表评论,您必须先登录。

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?