Day 1-100天生信/数据科学自我挑战
专题介绍:数据分析那些事儿是瑞典农业科学大学的一名科研工作者。在生物大数据分析领域已经有七年的科研经验。希望通过分享过去7年在国内外硕士、博士、博士后申请、求学、科研、求职、统计学、R&Python编程、生物大数据分析、国内外高校企业求职 生命科学发展对我们当下社会的影响 中收到的个人启发 来让1000个人受益 让求学求职生活变得容易一点点。如果你也想持续学习,克服懒惰的话。关注他参与“100天生信/数据科学自我挑战”的话题吧。
Day 1-100天生信/数据科学自我挑战
每个人的学习起点和速度都不一样,有的人觉得应该从编程语言入手R或者python,有的人需要从RNA seq入手,也有的人想从统计和机器学习开始。学习无所谓起点高低,持之以恒能出奇效。所以这100天的自我挑战是一件私人的事情,开始的第一天,请大家想想大家想学什么,资料在哪里,如何学,然后列一个大致的计划。不知道从哪里下手的小伙伴可以观看其余小伙伴的更新,也可以去我的公众号,或者我文末推荐的几个公众号。
对于我自己来说
我需要梳理一些基础的知识,比如我在多组学分析课程中涉及到的内容,正进行到第三章节生信部分,需要通过这100天把课程的主干部分都更新完毕。另外我也想学一些新的知识,比如把Conda (包和环境管理软件),Snakemake(一个workflow manager)Singularity和Docker(一个镜像管理软件)深入理解一下。100天大概是15周的样子。我习惯集中时间攻克一个问题,这几天工作中遇到Conda的一些配置问题,所以接下来的日子,我会试图先把Conda深入理解一下。
关于入门学习资料
我的公众号有一些从非生信专业转行的入门知识和视频(所有链接都在文末),在我看来那些视频足够大家建立一个基本的概念。我平常关注的公众号有如下几个,
1. 生信类有 <<生信技能树>>,<<单细胞天地>>
2. 统计遗传育种类 <<育种数据分析之放飞自我>>
3. 群体遗传类有 <<AI写代码的DNA>>
4. R语言做图有 <<小明的数据分析笔记本>>
5. 机器学习与统计,我还没有遇到合适的,欢迎大家推荐
关于进阶学习资料
昨天一位朋友问我” 想在kaggle,Github上去学习一个解决具体实践问题的小project,比如说我想找微生物组16s扩增子测序的project,但不知道怎么下手”
其实很简单,直接去Github搜索16S amplicon sequencing 就可以了,图一是得到的所有projects,点进去会有图二的本workflow的介绍,有的时候有demo的数据,大家可以跑一遍,跑通以后,试图理解下每一步都在干什么,有个conceptual的理解,然后就可以套用自己的数据了,跑自己的数据过程会出现各种各样的问题,通过搜索引起基本都有答案,等把自己的数据跑通了,如果生物学上还make sense,那么一个project的学习也就基本结束了。如果不make sense,就要先找原因,然后看看哪些软件不合适还是哪些参数不合适、或者自己的数据源有问题,反复的调试,直至生物学上make sense为止,以上过程也基本就是科研的实战部分。
图一
图二
另外,如果大家在海外有Youtobe的access,Youtube有很多高校的workshop都非常精彩,我平时也会关注最新workshop,是了解老分析中的新进展的非常有效的方式。推荐大家移步自己喜欢的Youtober
如果你还不熟悉 <<100天生信/数据科学自我挑战>>
不管你是想入门生信/数据科学的初学者,还是想进阶生信/数据科学技能的从业者,可能都有不知如何下手或者坚持了几天就因为各种原因放弃了的经历。如果是这样,那么这个100天生信/数据科学自我挑战就是为你而设计的(超简单、纯免费,自虐升级,无广告和付费内容,详情见下文)。
大家好,我是山石,山西农业大学(本)、天津大学(硕)、瑞典乌普萨拉大学(博),瑞典农业科学大学(博士后)。在生命科学领域学习工作了15年,目前为瑞典农业大学生物大数据分析Research Fellow。2020年年底以来我在自己的社交账号上开始分享从生命科学湿实验硕士,转型生物信息学的博士以后的学习科研和经历,至今收到了各个平台大概10000名小伙伴的关注。也收到了很多朋友的私信问题,新手如何入门生物信息学和数据科学,入门成为调包侠之后感觉遇到了瓶颈,如何才能进阶?其实这个问题同样困惑了我很久。回顾学习的过程,就像上台阶一样,往往登上一个台阶之后需要很久才有可能进阶,也或许很久都止步不前(比如我现在)。究其原因就是找不到合适的方法,有时候即便找到了合适的方法,很难在学习新东西和做Projects之间找到一个平衡,无法长久坚持下去,养成终身学习的习惯。而这个行业的进步又很快,每周都有新的方法和软件出来,为了避免被后浪早早拍死,凉透了,我发起这个和大家一起进步的自我挑战。
<< 100天生信/数据科学自我挑战>>是什么
今天我发起一个100天生信/数据科学自我挑战。这个挑战其实很简单,只包括两个内容。第一,参与者每天至少花5分钟去学习生信或者数据科学的知识; 第二把学习的过程分享到自己的社交媒体中,任何社交媒体都可以,比如微博,知乎,B站或者微信(记得加入话题# 100天生信/数据科学自我挑战# 哦)。请大家转发这条动态,让更多的小伙伴加入进来共同进步。
<< 100天生信/数据科学自我挑战>>为什么
学习是一种习惯,终身学习的习惯一旦养成,将很难改变,日积月累简单的一个好习惯,会让大家终身受益。英国的一份统计调查显示,养成一个习惯的平均时间是66天。我们每天学习至少5分钟,100天自我挑战。看似不长,只要坚持下去我相信一半以上的人都能够养成终身学习的习惯。在自媒体分享的原因有三个,其一,给自己立一个flag,创造舆论压力来鞭策自己,其二,把自己学过的内容归档,每周,每月,每个季度都有可以回头总结和升华,做到查漏补缺,慢慢形成知识体系。其三,通过100天持续不断的分享记录自己的学习过程,能够遇到很多同伴,一起讨论相互帮助。最后,这个学习过程和做Project的过程可能会让大家敲开心仪的公司的实习offer和心仪导师的升学offer。我们抱怨行业内卷,想躺平,但是试想像一下如果一位申请者拿了过去365天每天不间断的学习笔记来求职,面试官会不会拒而不见。一个人的处境只会因为这个人做了什么而改变,而不是这个人身上的标签。所以请大家转发这条动态,让更多的小伙伴加入进来共同进步。
<< 100天生信/数据科学自我挑战>>怎么做
学习的内容不需要很复杂。如果你是一位初学者,可以是一些学科的基本概念和技术。例如什么是二代测序,Python 编程基础,什么是回归分析,什么是聚类等等。我的自媒体有很多相关内容(生信基础、linux,一二三代测序、RNA seq、 Variant calling等等),相信大家也关注了很多自媒体公众号,我关注的一些公众号有很多教程,如果实在不知道从哪里开始的欢迎私信我讨论(联系方式见文末)。如果你已经有一定的基础,期望进阶学习,可以用公共数据重复文章中的内容,做一个RNA seq,Single cell sequencing 的课题,也可以去kaggle,Github上去学习一个解决具体实践问题的小project。挑战赛的参与方式非常简单,大家只需要根据自己的情况,列一个提纲,每天循序渐进的学习一点点,记录在自己的社交媒体上,如果遇到合适的伙伴,可以一起积极交流互动。请大家转发这条动态,让更多的小伙伴加入进来共同进步。
对于我自己来说,过去的半年我一直在梳理自己学习过程的一些基本概念和基础知识,我会继续完成生信,R,Python编程,统计,GWAS,多组学整合,基因组选育的内容,并在我的自媒体上更新。之后我计划在学科前沿,Web Developing和 App Developing努努力。如果能把自己科研中的一些实用结果做成App和网站,能让科研成果触及更多的同行。
Document Your Journey To A Better Version Of Yourself
我创建了一个微信群,不好意思在自己自媒体天天更新的小伙伴,欢迎入群哈(私信我15934076136,我拉大家入群)。不愿意入群的小伙伴,我在知乎提了一个问题” 100天生信/数据科学自我挑战,记录成为更好的自己?”。大家也可以匿名更新,希望我们有足够多的朋友在一起更新,相互见证彼此的成长。最后再次请大家转发这条动态,让更多的小伙伴加入进来共同进步。
期待100天后大家都成为更好的自己, 有一群优秀的小伙伴在100天后等你。
往期文章
1. 用时七年搜集整理的数量遗传学全网最全课程都包含些什么内容?
2. 数量遗传学百年峥嵘开启信息化、智慧化现代农业和精准医疗新篇章
3. 生信、多组学分析的生物学、生物信息学、群体数量遗传学基础(1)
4.遗传学、多组学分析课程之(四)–为什么说突变、重组、单倍型及其在群体中的扩散是分析中最最重要的概念
5.一、二、三代测序与分子标记的检出(数量、多组学分析课程)
6.一、二、三代测序区别与联系(数量、多组学分析课程)
7.第一代测序(Sanger 测序)原理 (数量、多组学分析课程)
8.二代测序(Illumina测序)原理 (数量、多组学分析课程)
9.第三代测序(PacBio测序)原理 (数量、多组学分析课程)
10第三代测序(Nanopore测序)原理 (数量、多组学分析课程)
11. 第11讲 – 10X测序原理 (数量、多组学分析课程)
12.第12讲 – 基于PCR的分子标记检测原理 (数量、多组学分析课程)
13.第13讲 – 基因芯片的分子标记检测原理 (数量、多组学分析课程)
14.第14讲 涉及生物信息学涵盖知识点小节(数量、多组学分析课程)
15 – 重测序、外显子测序、简化基因组测序(数量、多组学分析课程)
16 – 细数表观组学(数量、多组学分析课程)
17 – 极简甲基化测序 (数量、多组学分析课程)
20 – 生信必备技能之极简Linux (数量、多组学分析课程)
22 – 生信必备Linux技能之软件运行与查阅帮助(数量、多组学分析课程)
23 – 生信必备Linux技能之 Vim文档代码编辑 (数量、多组学分析课程)
24 Linux常用命令总结- rysnc、grep 和find等-生信必备Linux技能
29- 生信实战技能之— Variant Calling 常见试验设计和注意细节
30- Variant Calling (2)BAM文件质控
100天生信/数据科学自我挑战
数量遗传学前沿讲座
1. 60年人工选择与三代遗传学家的探索-弗吉尼亚鸡体重双向选择系
2. 四篇文章NC+ NG +PG+Genes阐释数量遗传经典问题
高校求职系列启发分享
-
百强大学的生物信息学博士当主播三个月收获多少财富 (约你一起共同进步)
科研中的hack 和tips
如果您喜欢我的视频,请帮忙点个分享、再看和收藏,让更多的朋友看到它,一起在生信的路上越走越远。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!