继续了解ChIP-seq
今天是生信星球陪你的第580天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于2020.3.29
上一次大体理解了ChIP-seq的实验流程
这次来看看在ChIP-seq基础上开发的其他技术
改进的实验技术
1 ChIP-exo
ChIP-exo就是ChIP与核酸外切酶消化(exonuclease digestion)的组合,可以翻译为:染色质免疫沉淀配合核酸外切酶消解和高通量测序。
它能够将基因组上基因调节蛋白的结合位点从上百万到几十亿个核苷酸范围准确地缩小到大约1个核苷酸,也能消除检测系统产生的大量噪音,这种更低噪音技术可以在染色体上发现2到5倍多的基因调控蛋白的结合位点。ChIP-exo的信噪比可以高达300至2800倍,ChIP-chip为7倍,ChIP-seq为80倍。
应用案例包括几种酵母转录因子和人体绝缘子结合蛋白质CTCF
不过,ChIP-exo技术是针对SOLiD测序平台开发的,因此应用受到限制,而且这种方法的效率有点低,因为它的实验需要两次连接的步骤。
与常用的ChIP-Seq实验相比,ChIP-exo额外的洗脱和酶切步骤降低了可以被回收的DNA的含量,而DNA的含量对于ChIP文库的质量非常关键。对于文库制备中的文库扩增来说,为了获得两端的接头,DNA片段必须经历两次低效的连接步骤
第一次连接:After ligation of the first adapter, E. coli 5′-3′ lamda exonuclease is used to trim the co-purified DNA fragments from the 5′ end up to a few nucleotides from the crosslink site.
第二次连接:The strands are then separated and ligated to the second adapter for sequencing
2 ChIP-nexus
Stowers医学研究所人员2015年开发的,结合了核酸外切酶、特异性条码以及单连接步骤、具有单核苷酸分辨率的染色质免疫沉淀实验,并且在文库制备过程中添加了一个高效的DNA自环化步骤。
它是在ChIP-exo基础上做的改进,一次连接并支持illumina平台。实现单碱基水平鉴定转录因子结合位点,并且还是in vivo的状态
In vivo为拉丁文“在活体内”之意。在科学文献中,in vivo常指进行于完整且存活的个体内的组织的实验,以区别在生物体上移除下来的组织或死亡的组织上进行的实验
In vitro是拉丁语中“在玻璃里”的意思,意指进行或发生于试管内的实验与实验技术。更广义的意思,则指活生物体之外的环境中的操作。常见的例子是人工受精
In situ是指进行于原发生位置的试验(而不是将其移入特殊培养基中),有时意义大致介于in vivo与in vitro之间。当研究者对某一处于人工环境下的器官中之特定细胞作实验时,就可称为in situ;在肿瘤学上,in situ可指任何一个并非从他处转移(metastasize)或侵入(invade)的恶性肿瘤细胞,也就是处于原始肿瘤发生位置的肿瘤细胞,可发生于身体各处
In utero字面意思是“在子宫里”。在生物学里它常被用来描述胚胎或胎儿状态
In silico是指“在硅之中”,也就是说“进行于电脑中,或是经由电脑模拟”之意
这个方法在免疫沉淀后的第一步就是:加带有随机条形码(来监控PCR扩增)的接头,以及两个illumina测序的primer;然后DNA片段被核酸外切酶消化,在结合位点停下。接下来DNA被纯化、环化、用BamHI消化
3 CUT&RUN
参考:https://www.cst-c.com.cn/common/content/content.jsp?id=cut-and-run-assays
全称是:核酸酶靶向切割和释放 Cleavage Under Targets and Release Using Nuclease,它使用靶标特异性一抗和Protein A – Protein G – 微球菌核酸酶 (pAG-MNase) 分离特异性蛋白-DNA 复合体的体内(in situ)方法,从细胞到 DNA 只需 1 至 2 天,并且它可以自动化,实现最大通量和可重复性。
优点是:所需样品少(仅需 100,000 个细胞);节省测序成本(仅需 300-500 万个高质量读长);靶标通用(针对组蛋白、组蛋白修饰、转录因子和辅因子生成测序和/或 qPCR 数据);抗体范围广(兼容兔抗和小鼠抗体)
4 DamID
参考:https://cloud.tencent.com/developer/article/1455980
全称是:DNA腺嘌呤甲基转移酶鉴定 DNA adenine methyltransferase identification,是一种不需要抗体、固定或pull-down的全基因组蛋白-DNA相互作用的鉴定方法。
DamID利用E coli的腺嘌呤甲基转移酶(Dam)去融合目标蛋白。当这个目标蛋白可以结合染色质的时候,那么这个染色质上结合的DNA上的(GATC序列)A会被甲基化。会有一个甲基化敏感的内切酶(DpnI)并且可以被PCR。那么对这个DNA进行测序,然后可以得到全基因组上这个目标蛋白结合的位置信息。通常来说,对照组是没有连接上Dam的表达系统。
适用于蛋白质-DNA相互作用,RNA-蛋白质的相互作用,染色体的富集和长距离的染色质的互作。在体外培养细胞中,DamID是可以去揭示一个染色质的互作的动态变化的情况的
DamID的分析流程和常规不同,需要定制
ChIP-seq数据分析流程
大体的步骤在下面👇图B

得到原始数据的第一步就是进行标准流程的质控,保证数据没有污染以及文库复杂度
关于文库复杂度(Library Complexity):
指文库中DNA序列的复杂程度,复杂度高的文库测序得到的数据重复读数少,unique reads可以带来更多有意义的信息;反之,低复杂度的文库在信号读取时往往产生簇信号混杂,易产生低质量的测序数据,并且重复的reads不能带来更多有意义的信息。另外,样品量越低,NGS文库的复杂程度就越低
参考:http://www.zxzyl.com/archives/789 「文库复杂度不够的影响」
如果是文库的复杂度足够高,也就是在一个测序循环中,A/C/G/T四种碱基的比例较接近于各25%,那么4张照片上都会有足够多的明亮的光点,可供空间校正之用。
但是如果文库的复杂度不够高,典型的例子就是PCR扩增产物,比如说第一个循环,99%的 碱基都是A,那么C/G/T三种碱基加起来也只有1%。这就导致C/G/T这三张照片都很暗,上面没有足够多的光点可供测序仪来分辨,更难于做空间校正。测序仪就会把大多数无法准确分辨的点给舍弃。
最终的结果就是:测序得到的有效数据量(PF data,Pass Filter data)很少,而且数据的质量(Q值)也偏低。
参考:https://www.plob.org/article/10866.html 「计算复杂度」:
主要看三个结果:PCR Bottlenecking Coefficient 1 (PBC1)、PCR Bottlenecking Coefficient 2 (PBC2)、Non-Redundant Fraction (NRF)# 拿到bam文件后
# 对于SE 测序
bedtools bamtobed -i align.bam |
awk 'BEGIN{OFS="t"}{print $1,$2,$3,$6}' |
grep -v 'chrM' | sort | uniq -c |
awk 'BEGIN{mt=0;m0=0;m1=0;m2=0} ($1==1){m1=m1 1} ($1==2){m2=m2 1} {m0=m0 1} {mt=mt $1} END{m1_m2=-1.0; if(m2>0) m1_m2=m1/m2; printf "%dt%dt%dt%dt%ft%ft%fn",mt,m0,m1,m2,m0/mt,m1/m0,m1_m2}' > pbc_qc.txt
# 对于PE测序
bedtools bamtobed -bedpe -i align.bam |
awk 'BEGIN{OFS="t"}{print $1,$2,$4,$6,$9,$10}' |
grep -v 'chrM' | sort | uniq -c |
awk 'BEGIN{mt=0;m0=0;m1=0;m2=0} ($1==1){m1=m1 1} ($1==2){m2=m2 1} {m0=m0 1} {mt=mt $1} END{m1_m2=-1.0; if(m2>0) m1_m2=m1/m2; printf "%dt%dt%dt%dt%ft%ft%fn",mt,m0,m1,m2,m0/mt,m1/m0,m1_m2}' > pbc_qc.txt
# 结果共7列,分别是:TotalReadPairs、DistinctReadPairs、OneReadPair、TwoReadPairs、NRF=Distinct/Total、PBC1=OnePair/Distinct、PBC2=OnePair/TwoPair
另外,还有:http://www.biotrainee.com/thread-2492-1-1.html 「使用preseq计算文库复杂度」:
# 需要调用samtools
preseq c_curve -P -B inbam > out.c_curve.txt
# -P代表是pairend数据,-B代表输入是bam
然后是比对环节,之后可以进行ChIP-seq针对性的质控,检测样本富集情况并且排除over-fragmentation这种情况;
接下来,是ChIP-seq的核心分析=》鉴定感兴趣因子富集区域(称作peak calling),有了peaks以后,还可以再来一次ChIP-seq针对性的质控;
每一步都要进行可视化看看数据如何;
在peak calling步骤后,确保peaks能准确匹配结合区域是很重要的。如果实验涉及到多个实验条件或者多个重复,那么就需要进行样本间的比较;另外还有差异结合分析两个样本的差异peaks(例如:一个条件下的两个重复之间);
Biological replicates will give information about reproducibility and intrinsic biological and technical variability in the data (noise).
Differential binding analysis addresses which peak regions show significantly different occupancy between two condi- tions
最后,peaks的下游分析,包括基因组注释、pathway富集分析、找motif、结合其他组学数据
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步
🤓生信星球 🌎~ 一个不拽术语、通俗易懂的生信知识平台
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!