转录组样本间表达量标准化
今天是生信星球陪你的第278天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于19.2.13
做无参真的需要比有参更多的耐心啊
假设现在对两组样本进行转录组测序,结果得到5个基因(每条基因长度是1kb)的reads count数如下表,其中对照组总共10Mreads,处理组总共50Mreads
基因(都是1kb) | 对照组 | 处理组 |
---|---|---|
a1 | 2 | 3 |
a2 | 2 | 3 |
a3 | 2 | 3 |
a4 | 2 | 3 |
a5 | 2 | 38 |
Totalreads(M) | 10 | 50 |
目的:想比较某个基因在两个样本中的表达是否差异显著
常用方法是TPM转换,用(每个基因count/基因长度)/ count总数
也就是得到了这个表格
基因(都是1kb) | 对照组 | 处理组 | TPM-对照 | TPM-处理 |
---|---|---|---|---|
a1 | 2 | 3 | 0.2 | 0.06 |
a2 | 2 | 3 | 0.2 | 0.06 |
a3 | 2 | 3 | 0.2 | 0.06 |
a4 | 2 | 3 | 0.2 | 0.06 |
a5 | 2 | 38 | 0.2 | 0.76 |
意外的是,所有的5条基因都有差异(0.2 <=> 0.06)
按说差异基因只是少数,既然得到的结果都是差异的,那就应该考虑有极值影响,也即是这里的a5基因在处理组中表达量很高,导致其余基因的表达量降低
原因就是:使用TPM得到的结果,其实是每个组内各个基因中的相对表达量。但其实做差异分析时,我们想找到绝对表达量的差别,因此需要对组间的表达量进行标准化
标准化方法一:内参
使用内参基因(看家基因)在不同组织、不同条件下表达恒定,负责生命活动的基本运行,如beta-actin
设置内参基因(假设a1基因是内参),可以给两个样本乘以不同的系数,来让内参基因的表达量达到一致。这里将对照组的a1基因乘以0.3,将处理组的a1乘以0.2,就得到了组间标准化的数据
基因(都是1kb) | 对照组 | 处理组 | 标准化-对照 | 标准化-处理 |
---|---|---|---|---|
a1 | 2 | 3 | 0.6 | 0.6 |
a2 | 2 | 3 | 0.6 | 0.6 |
a3 | 2 | 3 | 0.6 | 0.6 |
a4 | 2 | 3 | 0.6 | 0.6 |
a5 | 2 | 38 | 0.6 | 7.6 |
这样看来,只有a5一条基因满足差异要求
但是内参的方法首先需要注释,另外可以当成内参的基因比较少,可能数据中找不到这样的结果
标准化方法二:假设检验
先假设大多数基因不是差异表达的,然后利用统计学方法找到标准化因子
一般使用的差异分析软件中内置了组间标准化的方法:
DESeq2:sizeFactors()
,edgeR(TMM方法):calcNormFctors()
进行差异分析时,输入文件为reads count,然后差异分析软件进行标准化,如果进行Trinity无参分析,可以使用run_DE_analysis.pl
几种差异比较的方法
-
组内比较:TPM(比较不同基因在同一样本中的表达差异)=》需求比较少
-
组间比较: TMM(比较同一基因在不同样本中的差异)=》最为常用
-
二者结合:如Trinity软件中的TMM-normalized FPKM结果文件,在低表达数据过滤、heatmap绘制等【但还是FPKM竟然不是TPM的结果,可能虽然TPM更准确,但使用最多的还是早期的FPKM】
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步。
我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。由于是2018年新号,竟然没有留言功能。需要帮助或提出意见请后台留言、联系微信或发送邮件到 jieandze1314@gmail.com ,每一条都会看到的哦~
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!