Day 7 & 8 Conda进阶技能 # 100天生信/数据科学自我挑战#
专题介绍:数据分析那些事儿是瑞典农业科学大学的一名科研工作者。在生物大数据分析领域已经有七年的科研经验。希望通过分享过去7年在国内外硕士、博士、博士后申请、求学、科研、求职、统计学、R&Python编程、生物大数据分析、国内外高校企业求职 生命科学发展对我们当下社会的影响 中收到的个人启发 来让1000个人受益 让求学求职生活变得容易一点点。如果你也想持续学习,克服懒惰的话。关注他参与“100天生信/数据科学自我挑战”的话题吧。
Conda 从认识到精通 Day1-Day6回顾
Day 1-6和大家聊了什么是100天生信/数据科学自我挑战,Conda的安装,配置,使用,如何在不同软件版本无缝切换,如何配置Channel,覆盖了Conda使用的大多数场景。
昨天Day7 实在有事,没有时间排版,所以没有更新公众号,今天Day 8一并补上。
Conda 进阶
关于Conda还有两个重要的场景
1. 同一台电脑如何安装不同的R和Python 版本
2. 如何在不同电脑间复制同一个环境。
同时用多个R和python 版本
我们先说同一台电脑如何安装不同的R和Python 版本。
做生信也好,做遗传分析也好经常遇到需要安装不同版本的软件包,尤其一些时间比较久的旧软件包经常不兼容最新的R与Python 版本。
比如我经常用GenABEL R package 做GWAS,因为过去几年下游的做图,个性化分析的函数都是基于GenABEL 来写的,用GenABEL的话特别方便。
但是GenABEL最多只能装到R 3.6.2以下版本,但是一些新的包有不兼容旧的R版本,所以需要在我的电脑上同时装两个以上的R版本。
Conda就可以很好的解决这个问题,先创建两个环境,然后分别安装不同的R版本即可,Conda activate EnvX进入相应环境后,就可以 (具体请参考文末Day 2 内容)
用conda install -c conda-forge r=3.4.1 (可以任意改版本)
然后输入R就可以了
不同电脑同步环境
关于Conda还有最后一个必备技能,就是在不同电脑之间复制环境。
我经常会在自己电脑上调试Scripts, Pipline,workflow,但是跑的时候一般都在服务器上,所以在自己电脑上装的软件和包的版本要和服务器上完全一样,不然会bug频出。
Conda可以把本地的环境导出,然后完整的复制到另一台电脑,这个功能的初衷有点类似与Docker(今后我打算介绍)。
但是Conda的缺点是如果本地和服务器都是同样的系统,例如Ubuntu,如果不一样就会出bug。很不幸我的本地是Mac,怀疑如果本地是win10,照样会出很多问题。具体问题和解决方案,我们明天再聊。
100天生信/数据科学自我挑战回顾
0. 成为更好的自己之 << 100天生信/数据科学自我挑战>>
1. Day 1-100天生信/数据科学自我挑战(如何制定一个强有力的入门进阶计划)
2. Day 2 # 100天生信/数据科学自我挑战# — Conda 入门到精通之初识Conda
3.Day 3 Conda 分类、安装和配置# 100天生信/数据科学自我挑战#
4. Day 4 Conda 环境使用的一些坑 # 100天生信/数据科学自我挑战#
5. Day 5 (忙的一地鸡毛没有更新)
6. Day 6 Conda Channel配置 #100天生信/数据科学自我挑战#
如果你还不熟悉 <<100天生信/数据科学自我挑战>>
不管你是想入门生信/数据科学的初学者,还是想进阶生信/数据科学技能的从业者,可能都有不知如何下手或者坚持了几天就因为各种原因放弃了的经历。如果是这样,那么这个100天生信/数据科学自我挑战就是为你而设计的(超简单、纯免费,自虐升级,无广告和付费内容,详情见下文)。
大家好,我是山石,山西农业大学(本)、天津大学(硕)、瑞典乌普萨拉大学(博),瑞典农业科学大学(博士后)。在生命科学领域学习工作了15年,目前为瑞典农业大学生物大数据分析Research Fellow。2020年年底以来我在自己的社交账号上开始分享从生命科学湿实验硕士,转型生物信息学的博士以后的学习科研和经历,至今收到了各个平台大概10000名小伙伴的关注。也收到了很多朋友的私信问题,新手如何入门生物信息学和数据科学,入门成为调包侠之后感觉遇到了瓶颈,如何才能进阶?其实这个问题同样困惑了我很久。回顾学习的过程,就像上台阶一样,往往登上一个台阶之后需要很久才有可能进阶,也或许很久都止步不前(比如我现在)。究其原因就是找不到合适的方法,有时候即便找到了合适的方法,很难在学习新东西和做Projects之间找到一个平衡,无法长久坚持下去,养成终身学习的习惯。而这个行业的进步又很快,每周都有新的方法和软件出来,为了避免被后浪早早拍死,凉透了,我发起这个和大家一起进步的自我挑战。
<< 100天生信/数据科学自我挑战>>是什么
今天我发起一个100天生信/数据科学自我挑战。这个挑战其实很简单,只包括两个内容。第一,参与者每天至少花5分钟去学习生信或者数据科学的知识; 第二把学习的过程分享到自己的社交媒体中,任何社交媒体都可以,比如微博,知乎,B站或者微信(记得加入话题# 100天生信/数据科学自我挑战# 哦)。请大家转发这条动态,让更多的小伙伴加入进来共同进步。
<< 100天生信/数据科学自我挑战>>为什么
学习是一种习惯,终身学习的习惯一旦养成,将很难改变,日积月累简单的一个好习惯,会让大家终身受益。英国的一份统计调查显示,养成一个习惯的平均时间是66天。我们每天学习至少5分钟,100天自我挑战。看似不长,只要坚持下去我相信一半以上的人都能够养成终身学习的习惯。在自媒体分享的原因有三个,其一,给自己立一个flag,创造舆论压力来鞭策自己,其二,把自己学过的内容归档,每周,每月,每个季度都有可以回头总结和升华,做到查漏补缺,慢慢形成知识体系。其三,通过100天持续不断的分享记录自己的学习过程,能够遇到很多同伴,一起讨论相互帮助。最后,这个学习过程和做Project的过程可能会让大家敲开心仪的公司的实习offer和心仪导师的升学offer。我们抱怨行业内卷,想躺平,但是试想像一下如果一位申请者拿了过去365天每天不间断的学习笔记来求职,面试官会不会拒而不见。一个人的处境只会因为这个人做了什么而改变,而不是这个人身上的标签。所以请大家转发这条动态,让更多的小伙伴加入进来共同进步。
<< 100天生信/数据科学自我挑战>>怎么做
学习的内容不需要很复杂。如果你是一位初学者,可以是一些学科的基本概念和技术。例如什么是二代测序,Python 编程基础,什么是回归分析,什么是聚类等等。我的自媒体有很多相关内容(生信基础、linux,一二三代测序、RNA seq、 Variant calling等等),相信大家也关注了很多自媒体公众号,我关注的一些公众号有很多教程,如果实在不知道从哪里开始的欢迎私信我讨论(联系方式见文末)。如果你已经有一定的基础,期望进阶学习,可以用公共数据重复文章中的内容,做一个RNA seq,Single cell sequencing 的课题,也可以去kaggle,Github上去学习一个解决具体实践问题的小project。挑战赛的参与方式非常简单,大家只需要根据自己的情况,列一个提纲,每天循序渐进的学习一点点,记录在自己的社交媒体上,如果遇到合适的伙伴,可以一起积极交流互动。请大家转发这条动态,让更多的小伙伴加入进来共同进步。
对于我自己来说,过去的半年我一直在梳理自己学习过程的一些基本概念和基础知识,我会继续完成生信,R,Python编程,统计,GWAS,多组学整合,基因组选育的内容,并在我的自媒体上更新。之后我计划在学科前沿,Web Developing和 App Developing努努力。如果能把自己科研中的一些实用结果做成App和网站,能让科研成果触及更多的同行。
Document Your Journey To A Better Version Of Yourself
我创建了一个微信群,不好意思在自己自媒体天天更新的小伙伴,欢迎入群哈(私信我15934076136,我拉大家入群)。不愿意入群的小伙伴,我在知乎提了一个问题” 100天生信/数据科学自我挑战,记录成为更好的自己?”。大家也可以匿名更新,希望我们有足够多的朋友在一起更新,相互见证彼此的成长。最后再次请大家转发这条动态,让更多的小伙伴加入进来共同进步。
期待100天后大家都成为更好的自己, 有一群优秀的小伙伴在100天后等你。
数量遗传学、GWAS、GS多组学分析系列课程链接
1. 用时七年搜集整理的数量遗传学全网最全课程都包含些什么内容?
2. 数量遗传学百年峥嵘开启信息化、智慧化现代农业和精准医疗新篇章
3. 生信、多组学分析的生物学、生物信息学、群体数量遗传学基础(1)
4.遗传学、多组学分析课程之(四)–为什么说突变、重组、单倍型及其在群体中的扩散是分析中最最重要的概念
5.一、二、三代测序与分子标记的检出(数量、多组学分析课程)
6.一、二、三代测序区别与联系(数量、多组学分析课程)
7.第一代测序(Sanger 测序)原理 (数量、多组学分析课程)
8.二代测序(Illumina测序)原理 (数量、多组学分析课程)
9.第三代测序(PacBio测序)原理 (数量、多组学分析课程)
10第三代测序(Nanopore测序)原理 (数量、多组学分析课程)
11. 第11讲 – 10X测序原理 (数量、多组学分析课程)
12.第12讲 – 基于PCR的分子标记检测原理 (数量、多组学分析课程)
13.第13讲 – 基因芯片的分子标记检测原理 (数量、多组学分析课程)
14.第14讲 涉及生物信息学涵盖知识点小节(数量、多组学分析课程)
15 – 重测序、外显子测序、简化基因组测序(数量、多组学分析课程)
16 – 细数表观组学(数量、多组学分析课程)
17 – 极简甲基化测序 (数量、多组学分析课程)
20 – 生信必备技能之极简Linux (数量、多组学分析课程)
22 – 生信必备Linux技能之软件运行与查阅帮助(数量、多组学分析课程)
23 – 生信必备Linux技能之 Vim文档代码编辑 (数量、多组学分析课程)
24 Linux常用命令总结- rysnc、grep 和find等-生信必备Linux技能
29- 生信实战技能之— Variant Calling 常见试验设计和注意细节
30- Variant Calling (2)BAM文件质控
31- Variant Calling (3)变异检出和质控
数量遗传学前言讲座
1. 60年人工选择与三代遗传学家的探索-弗吉尼亚鸡体重双向选择系
2. 四篇文章NC+ NG +PG+Genes阐释数量遗传经典问题
高校求职启发
科研Tips
如果您喜欢我的视频,请帮忙点个分享、再看和收藏,让更多的朋友看到它,一起在生信的路上越走越远。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!