Day 2 # 100天生信/数据科学自我挑战# — Conda 入门到精通之初识Conda
专题介绍:数据分析那些事儿是瑞典农业科学大学的一名科研工作者。在生物大数据分析领域已经有七年的科研经验。希望通过分享过去7年在国内外硕士、博士、博士后申请、求学、科研、求职、统计学、R&Python编程、生物大数据分析、国内外高校企业求职 生命科学发展对我们当下社会的影响 中收到的个人启发 来让1000个人受益 让求学求职生活变得容易一点点。如果你也想持续学习,克服懒惰的话。关注他参与“100天生信/数据科学自我挑战”的话题吧。
Day 2-100天生信/数据科学自我挑战–Conda 入门到精通之初识Conda
一直在用Conda,从来没关心过Conda的配置,最近回国突然发现有一些用了多次的Conda命令无法运行了,连Snakemake的某些个wrapper也不工作了,才开始了解Conda的配置和运行机理,既然是100天挑战自我,我就先从这里开始,通过分享的形式把Conda了解的深入一些。
熟悉我的小伙伴都知道,我是分子生物学背景,硕转博的时候人品爆了棚,转专业和出国一并解决了。所以我对编程和统计的理解,都是摸着石头过河,不那么深刻。我的理解中Conda是个软件下载和环境管理软件。
关于软件下载和管理
这个场景下,Conda类似与apple中的app store和安卓中的 应用商店,可以下载管理常用的生信软件,免去自己从头编译很多难搞的软件的麻烦。
比如如果你想装samtools,安装了conda后,
Conda install samtools # 装 一个SAM BAM 文件处理软件 samtools
就可以了, 不光是生信的command line软件,python和R语言的包都可以,
比如
Conda install pandas=0.25.1 # 装python包 pandas 并可以指定版本
Conda install r-data.table # 装R包 data.table
关于环境配置
可能一般的同学并不熟悉。其实生信做久了,最头疼的一件事情之一就是环境配置,举个例子我日常常用两个软件A和B,他们都依赖于C。但是A软件依赖于C软件的1.0版本,B软件依赖于C软件的2.0版本,无论我装C的哪个版本我都无法同时使用A和B,曾经我真的不断的重新装C来实现A和B的同时使用。
Conda可以很好的解决这个问题,可以用建立两个环境,一个环境装C的1.0版本,一个环境装C的2.0版本,而且可以在两个环境之间来回自由切换,这样就可以实现A和B的同时使用。
知道了什么是Conda,明天我们介绍如何安装和使用Conda以及,如何配置两个环境以及在两个环境之间自由切换。
上期回顾
上期我们聊了如何根据自己的情况制定一个100天生信/数据科学自我挑战计划,详情请点击下面链接 Day 1-100天生信/数据科学自我挑战
如果你还不熟悉 <<100天生信/数据科学自我挑战>>
不管你是想入门生信/数据科学的初学者,还是想进阶生信/数据科学技能的从业者,可能都有不知如何下手或者坚持了几天就因为各种原因放弃了的经历。如果是这样,那么这个100天生信/数据科学自我挑战就是为你而设计的(超简单、纯免费,自虐升级,无广告和付费内容,详情见下文)。
大家好,我是山石,山西农业大学(本)、天津大学(硕)、瑞典乌普萨拉大学(博),瑞典农业科学大学(博士后)。在生命科学领域学习工作了15年,目前为瑞典农业大学生物大数据分析Research Fellow。2020年年底以来我在自己的社交账号上开始分享从生命科学湿实验硕士,转型生物信息学的博士以后的学习科研和经历,至今收到了各个平台大概10000名小伙伴的关注。也收到了很多朋友的私信问题,新手如何入门生物信息学和数据科学,入门成为调包侠之后感觉遇到了瓶颈,如何才能进阶?其实这个问题同样困惑了我很久。回顾学习的过程,就像上台阶一样,往往登上一个台阶之后需要很久才有可能进阶,也或许很久都止步不前(比如我现在)。究其原因就是找不到合适的方法,有时候即便找到了合适的方法,很难在学习新东西和做Projects之间找到一个平衡,无法长久坚持下去,养成终身学习的习惯。而这个行业的进步又很快,每周都有新的方法和软件出来,为了避免被后浪早早拍死,凉透了,我发起这个和大家一起进步的自我挑战。
<< 100天生信/数据科学自我挑战>>是什么
今天我发起一个100天生信/数据科学自我挑战。这个挑战其实很简单,只包括两个内容。第一,参与者每天至少花5分钟去学习生信或者数据科学的知识; 第二把学习的过程分享到自己的社交媒体中,任何社交媒体都可以,比如微博,知乎,B站或者微信(记得加入话题# 100天生信/数据科学自我挑战# 哦)。请大家转发这条动态,让更多的小伙伴加入进来共同进步。
<< 100天生信/数据科学自我挑战>>为什么
学习是一种习惯,终身学习的习惯一旦养成,将很难改变,日积月累简单的一个好习惯,会让大家终身受益。英国的一份统计调查显示,养成一个习惯的平均时间是66天。我们每天学习至少5分钟,100天自我挑战。看似不长,只要坚持下去我相信一半以上的人都能够养成终身学习的习惯。在自媒体分享的原因有三个,其一,给自己立一个flag,创造舆论压力来鞭策自己,其二,把自己学过的内容归档,每周,每月,每个季度都有可以回头总结和升华,做到查漏补缺,慢慢形成知识体系。其三,通过100天持续不断的分享记录自己的学习过程,能够遇到很多同伴,一起讨论相互帮助。最后,这个学习过程和做Project的过程可能会让大家敲开心仪的公司的实习offer和心仪导师的升学offer。我们抱怨行业内卷,想躺平,但是试想像一下如果一位申请者拿了过去365天每天不间断的学习笔记来求职,面试官会不会拒而不见。一个人的处境只会因为这个人做了什么而改变,而不是这个人身上的标签。所以请大家转发这条动态,让更多的小伙伴加入进来共同进步。
<< 100天生信/数据科学自我挑战>>怎么做
学习的内容不需要很复杂。如果你是一位初学者,可以是一些学科的基本概念和技术。例如什么是二代测序,Python 编程基础,什么是回归分析,什么是聚类等等。我的自媒体有很多相关内容(生信基础、linux,一二三代测序、RNA seq、 Variant calling等等),相信大家也关注了很多自媒体公众号,我关注的一些公众号有很多教程,如果实在不知道从哪里开始的欢迎私信我讨论(联系方式见文末)。如果你已经有一定的基础,期望进阶学习,可以用公共数据重复文章中的内容,做一个RNA seq,Single cell sequencing 的课题,也可以去kaggle,Github上去学习一个解决具体实践问题的小project。挑战赛的参与方式非常简单,大家只需要根据自己的情况,列一个提纲,每天循序渐进的学习一点点,记录在自己的社交媒体上,如果遇到合适的伙伴,可以一起积极交流互动。请大家转发这条动态,让更多的小伙伴加入进来共同进步。
对于我自己来说,过去的半年我一直在梳理自己学习过程的一些基本概念和基础知识,我会继续完成生信,R,Python编程,统计,GWAS,多组学整合,基因组选育的内容,并在我的自媒体上更新。之后我计划在学科前沿,Web Developing和 App Developing努努力。如果能把自己科研中的一些实用结果做成App和网站,能让科研成果触及更多的同行。
Document Your Journey To A Better Version Of Yourself
我创建了一个微信群,不好意思在自己自媒体天天更新的小伙伴,欢迎入群哈(私信我15934076136,我拉大家入群)。不愿意入群的小伙伴,我在知乎提了一个问题” 100天生信/数据科学自我挑战,记录成为更好的自己?”。大家也可以匿名更新,希望我们有足够多的朋友在一起更新,相互见证彼此的成长。最后再次请大家转发这条动态,让更多的小伙伴加入进来共同进步。
期待100天后大家都成为更好的自己, 有一群优秀的小伙伴在100天后等你。
往期文章
1. 用时七年搜集整理的数量遗传学全网最全课程都包含些什么内容?
2. 数量遗传学百年峥嵘开启信息化、智慧化现代农业和精准医疗新篇章
3. 生信、多组学分析的生物学、生物信息学、群体数量遗传学基础(1)
4.遗传学、多组学分析课程之(四)–为什么说突变、重组、单倍型及其在群体中的扩散是分析中最最重要的概念
5.一、二、三代测序与分子标记的检出(数量、多组学分析课程)
6.一、二、三代测序区别与联系(数量、多组学分析课程)
7.第一代测序(Sanger 测序)原理 (数量、多组学分析课程)
8.二代测序(Illumina测序)原理 (数量、多组学分析课程)
9.第三代测序(PacBio测序)原理 (数量、多组学分析课程)
10第三代测序(Nanopore测序)原理 (数量、多组学分析课程)
11. 第11讲 – 10X测序原理 (数量、多组学分析课程)
12.第12讲 – 基于PCR的分子标记检测原理 (数量、多组学分析课程)
13.第13讲 – 基因芯片的分子标记检测原理 (数量、多组学分析课程)
14.第14讲 涉及生物信息学涵盖知识点小节(数量、多组学分析课程)
15 – 重测序、外显子测序、简化基因组测序(数量、多组学分析课程)
16 – 细数表观组学(数量、多组学分析课程)
17 – 极简甲基化测序 (数量、多组学分析课程)
20 – 生信必备技能之极简Linux (数量、多组学分析课程)
22 – 生信必备Linux技能之软件运行与查阅帮助(数量、多组学分析课程)
23 – 生信必备Linux技能之 Vim文档代码编辑 (数量、多组学分析课程)
24 Linux常用命令总结- rysnc、grep 和find等-生信必备Linux技能
29- 生信实战技能之— Variant Calling 常见试验设计和注意细节
30- Variant Calling (2)BAM文件质控
100天生信/数据科学自我挑战
0. 成为更好的自己之 << 100天生信/数据科学自我挑战>>
数量遗传学前沿讲座
1. 60年人工选择与三代遗传学家的探索-弗吉尼亚鸡体重双向选择系
2. 四篇文章NC+ NG +PG+Genes阐释数量遗传经典问题
高校求职系列启发分享
-
百强大学的生物信息学博士当主播三个月收获多少财富 (约你一起共同进步)
科研中的hack 和tips
如果您喜欢我的视频,请帮忙点个分享、再看和收藏,让更多的朋友看到它,一起在生信的路上越走越远。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!