GEO数据上传过程前一个不能忽略的细节
今天是生信星球陪你的第744天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于2020.10.28
最近我在将测序数据上传到GEO时,碰到了一个问题,认为有必要提醒大家一下,省的耽误后面的时间
前言
一般来说,GEO的上传方法可以参考之前我写的:会了GEO数据下载,来看看怎么上传吧
把所有数据存放好,并且给到他们一个md5文件即可(用于校验文件是否上传完整)。正常情况下,5个工作日就会得到GEO的通知。也的确是,但没想到是通知数据有误:

很奇怪,但我更想知道的是,为什么我的数据有问题呢?GEO怎么判断的?
处理的过程
接到这个邮件后,我第一反应是我是不是上传途中网断了?由于数据不完整导致md5校验失败。但按说数据不完整一般会在fileZilla中看到失败项,而我并没看到。
于是第一次我只是重新上传了这三个数据,并且保证完整地上传了
后来再次收到邮件:

说是:文件重复上传(意味着我第一次没有上传失败),然后显示问题是三个文件的不同行出现了长度不等的序列。后来经过验证发现,数据确实有问题,经过重新处理、上传、校验,才被接受
一个小建议
在上传前,除了常规的md5校验以外,最好先自己检查一下数据的完整性,以免后续耽误时间。那么如何检查数据完整性呢?推荐一个小工具,可以快速判断: https://github.com/nunofonseca/fastq_utils
# 安装
conda install -c bioconda fastq_utils
# 使用很简单:单端
fastq_info file_1.fastq.gz
# 双端
fastq_info file_1.fastq.gz file_2.fastq.gz

当全部结果为ok时,再通知GEO会更保险
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步
🤓生信星球 🌎~ 一个不拽术语、通俗易懂的生信知识平台
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!