关于 Ribo-seq 的事
点击上方关注“公众号”

1前言
分享一篇 Ribo-seq 较好的综述文章, 以下内容由 michelle 师妹整理分享。
2引言
Ribo-seq 已经成为通过深度测序识别翻译转录本区域的既定协议,缩小了 RNA 测序和蛋白质组学之间的差距。除了解决以翻译为中心的问题,从定义开放阅读框到识别替代翻译起始位点和估计差异翻译率,Ribo-seq 数据显示了结合其他组学方法的综合努力的巨大前景。

3主要内容
研究翻译转录组的 Ribo-seq 策略
Ribo-seq 通过绘制翻译核糖体在整个转录组中的位置,彻底改变了功能转录组学领域。从识别翻译的小开放阅读框(ORF)到翻译控制的量化,从而获得对翻译过程的机制见解。Ribo-seq 的原理很简单,核糖体保护片段(RPF)不受 RNase 消化的影响,因此可以分离和测序。总之,Ribo-seq 步骤包括
(1)药物处理和细胞收集
(2)核酸酶 footprinting 和 RPF 分离
(3)文库制备和测序
在这里我们关注不同实验室采用的不同方法以及对下游数据分析的影响。
原始方法的变化
(1)原始方案中,细胞与放线菌酮(CHX)一起预孵育,CHX 能在预易位步骤中组织延长的核糖体。在启动后阶段的核糖体也可以添加阻断启动核糖体的药物,例如三尖杉酯碱(HARR)或乳酸菌素(LTM)代替。QTI-seq 在加入 LTM 后引入嘌呤霉素处理,触发延长核糖体的解离,从而进一步富集起始复合物。
(2)在足迹步骤中,添加核酸酶以消化不受核糖体保护的 mRNA 序列。RNaseⅠ 是最常用的,因为它的低序列偏差。当 RNase 处理效率低下时,也可以用 MNase。不同的核酸酶对分离的单体表现出不同的消化模式,最终导致截然不同的核糖体特征。
(3)在去除 rRNA 污染并对样本进行测序的步骤,原始方案建议在文库制备过程中进行环化步骤,然后修剪最后一个核苷酸以避免出现非模板添加。在其他协议中,线性扩增以及使用临近于连接位点的随机化寡核苷酸能减少连接以及 PCR 扩增步骤所产生的偏差。
预处理和质量控制
高质量 Ribo-seq 文库的一个特征就是独特的读长分布。在真核细胞细胞质核糖体中读长在 ~29nt 处达到峰值,也反映了 RNA 上翻译核糖体的大小。而在协议的变体中则可以观察到更广泛的读取分布。例如,相比于细胞溶质核糖体和叶绿体核糖体,线粒体核糖体的读长显示出双峰分布,在 27nt 和 33nt 处达到峰值。

当我们对一组 RNA 片段进行测序时,在比对阶段,用 STAR 或者其他软件进行操作,因为 RPF 很短,许多 reads 将映射到多个位置。为了解决这一问题,有以下策略,将它们嵌入更大的 workflow 以进行转录本量化,使用特定的工具或者针对每个 read 提取一个最主要的比对来进行过滤。在高质量的 Ribo-seq 文库中,reads 主要映射到编码序列(CDS)区域和 5’-UTR,很少会映射到 3’-UTR,来自内含子和基因间区域的信号通常是多映射片段的结果。
比对的 Ribo-seq reads 在翻译的 ORF 上的分布取决于翻译过程的动力学,起始复合物的组装是一个相对缓慢的过程,导致起始密码子周围的信号明显积累。在大多数数据集中,由于翻译中止和肽释放的缓慢动力学,可以在 ORF 的最后一个密码子处观察到额外的积累。
使用 ribo-seq 数据实现 ORF 查找
理论上,Ribo-seq 是一种非常适合 CDS 区域注释的技术。然而,从 Ribo-seq 数据中识别高置信度的翻译区域不是一件容易的事。CDS 区仅代表转录组的一个子集,翻译的精确识别需要单核苷酸分辨率,这也取决于 Ribo-seq 文库的总体大小。有很多不同的算法被开发出来,从主动翻译中识别真正的信号,并从转录组范围的数据中描绘 ORF 边界。
-
翻译效率 TE
TE 通过将转录丰度归一化来表示核糖体的数量,并且是定义主动翻译转录本的最早尝试之一,然而,后来的研究指出了它的局限性,那就是会产生大量假阳性。
-
核糖体释放分数 RRS
RRS 通过终止密码子上翻译核糖体的释放来区分翻译区域和非翻译区域。计算为 CDS 中 RPFs 与 3’-UTR 中 RPFs 的比值。从全局来看,RRS 评分成功的保留了许多编码区域,去除了很多已知的 ncRNA 区域。然而,当 RRS 与 TE 指标结合时,它显示出 CDS 和转录组的非编码区之间的清晰的分离。在检测翻译区域,从未进行过 RRS 评分的敏感性和特异性评估。
-
翻译 ORF 的工具 TOC
使用 Ribo-seq 和 RNA-seq 信号中提取的四种不同特征:TE 指标;Inside 或 Outside,包含 ORF 内外由 Ribo-seq 覆盖的 nt 数量的度量;分布长度,表示 ORF 的大小除以转录本长度;脱离分数,与 RRS 得分有关。
考虑到使用的 Ribo-seq 数据集的高测序深度,该分类在表达不佳的转录本上也表现出良好的性能,但它在其他数据集上的性能尚不清楚,目前还没有作为软件工具发布。
-
ORF 分数跟相关的方法 ORFScore
2014 年,Bazzini 生成了一个深度 Ribo-seq 数据集,在斑马鱼早期发育后具有精确的子密码子分辨率。有了翻译后的帧的精确信息,根据翻译后帧上的 reads 数量,与三帧信号的均匀分布相比,获得了不同的 ORFs,这种评分法,叫做 ORFscore,允许他们识别一组被自动注释管道忽略的翻译过的小 ORF(<100 aa)。
总的来说,“ORFScore”探索了核糖体定相的高分辨率足迹,以识别以前被认为缺乏编码潜力的基因中新的、翻译的微肽。“ORFScore”探索了核糖体定相的高分辨率足迹,以识别以前被认为缺乏编码潜力的基因中新的、翻译的微肽。
进一步了解可以参考这篇文章https://www.ncbi.nlm.nih.gov/pubmed/24705786
-
片段长度组织相似度评分 FLOSS
核糖体保护片段的平均长度在 29nt。此外,不同的污染物,如 rRNA,snoRNA 和其他结构 RNA 片段能在纯化步骤中存活,并且被测序。FLOSS 的目的是区分 80S 核糖体足迹和污染源的信号,评分背后的想法就是得到 Ribo-seq 在蛋白编码区上片段长度的参考分布,它代表活跃翻译的核糖体,然后将转录组中每个区域的片段长度分布与参考分布进行比较,得出一个相似性得分,表明其编码样的有效性,并考虑到总的核糖序列覆盖范围。
该方法可作为补充文件中一种带注释的脚本使用,并应用于小鼠细胞系中非常深度的 Ribo-seq 数据集。
这篇文章 [https://www.ncbi.nlm.nih.gov/pubmed/?term=ribosome+profiling+reveals+pervasive+translation+outside+of+annotated+protein-编码+基因] 讲到核糖体占据转录组的许多被认为是非编码的区域,包括 5′ UTR 和长非编码 RNA (lncRNA)。蛋白质编码区域外的明显核糖体足迹增加了与翻译无关的伪影的可能性。
于是他们开发了一种使用足迹大小分布来区分 80S 足迹和非核糖体来源的指标,这验证了编码区域之外的绝大多数足迹。提供了超出注释基因的多肽生产证据,包括在人类巨细胞病毒(HCMV) 感染后诱导免疫反应。

-
ORF-Rater
在 ORF-Rater 方法中,起始密码子和终止密码子用来识别翻译区域,由于这些图谱在经 HARR 或者 LTM 处理的 Ribo-seq 数据集中变得突出,因此,将多个 Ribo-seq 协议应用于相同的生物样本会为许多翻译的 ORF 产生不同的图谱。ORF-Rater 方法的核心是在存在一个(或多个)翻译后的 ORF 的情况下,沿着转录本(来自多个 Ribo-seq 协议)对其预期覆盖进行回归拟合(使用非负最小二乘)。ORF 平移的存在由拟合的正回归系数表示。
利用起始密码子和终止密码子的预期谱,ORF-Rater 方法可以识别 ORF 截断/扩展、框架外 ORF 和小 ORF,该方法是在 Github 提供的软件实现的,具有记录良好的脚本和详细的说明。
-
RibORF
RibORF 使用 Ribo-seq 读取的子密码子解析来识别翻译。除了帧内 Ribo-seq 读取的量之外,该方法还使用百分比最大熵(PME)来模拟沿着 ORF 的 reads 的均匀覆盖。为转录组中的每个 ORF 计算帧内阅读百分比和 PME 覆盖,将 RibORF 应用于人类细胞系中两个一般大小(约 4 千万 reads)的 Ribo-seq 数据集中中时,可以检测出约 10000 个翻译基因。该工具是作为可用的软件实现的,有基本的使用说明。
-
RiboTaper
RiboTaper 方法也利用子密码子分辨率作为识别翻译的关健特征。该方法识别 ORF,其中 Ribo-seq reads 显示一个与主动翻译延伸一致的 3nt 的周期性特征。为了达成这一点,RiboTaper 使用了汤姆森由 1982 年引入的多锥策略。通过这种方式,在 HEK293 细胞的一般深度的 Ribo-seq 数据集中(约 3 千万 reads)中检测出来 12000 个翻译基因,以及数百个含有新的翻译的 ORF(例如 ncRNAs 中的 uORF、ORF)的基因。敏感性和特异性的测量是通过模拟、对 RNA-seq 数据的应用以及使用同一细胞系的额外数据集和蛋白质组学数据得出的。该算法已经应用于来自不同生物的 Ribo-seq 数据集,包括拟南芥。软件实施、文档和使用指南都已提供。
-
SPECtre
在 SPECtre 方法中,使用频谱一致性(测量两个不同频谱之间的相关性)来指示 Psite 配置文件中的周期分布是否与理想配置文件匹配,在理想配置文件中,reads 仅映射到翻译帧。该算法对 Psite 轨迹进行规范处理后,将各自的转录本分为已翻译和未翻译两类。灵敏度和特异性由不同的 input 数据所定义,该软件有很好的文档,可以在公共数据库中使用。
-
RiboHMM
RiboHMM 方法检测翻译后的 ORF 使用了与 ORF-Rater 类似的思想。通过训练隐马尔可夫模型 HMM 来识别不同 ORF 位置上不同的 Ribo-seq 特征,利用 Ribo-seq 在启动和中止密码子以及翻译后的 CDS 内部的不同模式。RiboHMM 还显式地对每个 Ribo-seq 读取长度的贡献进行建模,并对它们求和以提高灵敏度。训练好的隐马尔可夫模型被用来在全基因组范围内解析 Ribo-seq 信号,产生用于 ORF 翻译的预测。RiboHMM 鉴定了 36000 个翻译的转录本,涵盖 7801 个带注释的蛋白质编码基因的 ORF 注释和数千个新的候选 ORF,其中很大一部分落在 5’-UTR 中。在较低的文库深度下,尽管灵敏度显著降低,但该算法在假阳性率方面表现出很强的健壮性。该方法可作为文档齐全的软件使用。
-
Rb-Bp
Rb-Bp 方法使用概率图形模型从 P-site 配置文件预测翻译。该模型根据观察到的翻译后的帧上明显丰富的形状进行训练,并且它对 ORF 进行评分,以确定它们是否类似于这样的形状或为空的统一模型。在一个平均大小的 HEK293 数据集中,该算法识别了 1.7 万个 ORF,其中包括在 ncRNAs 上>2000 个 ORFs。与 RiboTaper 一样,该算法的预测也得到了蛋白质组学支持和 QTI-seq 数据的验证。该算法在不同的模式深度数据集中运行。该软件可在 Github 上获得。
以上所有方法在数据需求和假设方面有所不同,在起始密码子的定义、软件实现和其他特性方面也有所不同。具体如下表

诸如 RiboTaper、RB-BP、Spectre 和 Rib ORF 之类的工具依赖于反映延伸动态的特征来寻找翻译的 ORF,它们一般用于 reads 数小于 5 千万的数据集;ORF-Rater 和 riboHMM 利用围绕翻译起始、延伸和终止的特征来识别翻译,并应用于高覆盖率的数据集,大于 5 亿 reads;ORF-Rater 还需要来自多个 Ribo-seq 的数据,以提取开始/结束密码子周围的附加简档,从而提供更可靠的预测集。精确的亚密码子解析对于第一组工具是至关重要的,而高覆盖率的数据集和多种类型的实验的可用性可能有利于其他策略。
其他的翻译活动
沿着翻译帧的 Ribo-seq 信号的特征也可以用来识别非规范事件的存在。使用 change-point 算法可以检测到 Ribo-seq 覆盖范围的急剧变化,以确定新的起始位点、过早的终止密码子使用和新的剪切连接。但这一算法还不清楚检测到的变点事件在多大程度上反映了真实可选翻译事件的存在,特别是考虑到 Ribo-Seq 信号的高度不均匀性的情况下。
利用 Ribo-seq 的亚密码子解析,Michel 等人开发了一种算法来识别在多个帧中发生翻译的区域。在果蝇中,尽管数据中缺乏亚密码子解析,但仍识别了数十个靶标。即使很稀有,但这一事件是保守的,一些基因在不同的研究中被识别。
由于延长动力学在 ORF 上有着明显的周期模式,在孤立区域上显示高占有率的区域可能表明存在非核糖体复合物,在 Rfoot 的方法中,RibORF 方法的基本原理被用来寻找显示 Ribo-seq 信号孤立堆积的区域,也可以映射到 lncRNA 和 3’-UTR 区域。
与其他组学数据集成
翻译输出取决于转录本在细胞质中的稳态丰度。RPFs 已被证明与 RNA-seq 计数高度相关:自早期研究以来 RNA-seq 已与 ribo-seq 一起用于解释转录本的丰度,并使转录本特异性翻译速率的计算成为可能,许多工具使用已经确立的统计方法来分析计数数据。在 Babel 和 Anota 之后,包括 RiboDiff、Xtail 和 Riborex 在内的最新工具采用类似于 DESeq2 的策略对 Ribo-seq 和 RNA-seq reads 进行建模并分析。分析 rna-seq 和 ribo-seq 的 log2FoldChange 分布的替代方法也旨在区分稳态转录丰度水平和翻译水平的基因调控。
有关转换的 ORF 坐标的准确信息使我们能够放大转换的功能,从而考虑 RNA 生物学的其他方面。例如,不同的 RNA 监测途径,如无意义介导的衰变(NMD),以依赖翻译的方式起作用。因此,Ribo-seq 数据可以提供到 RNA 生命周期的其他方面。这样的综合努力提供了对转录组的更全面的看法,包括对 lncRNA 转录本可能功能的有价值的见解,其中许多转录本在上述大多数发现开放阅读框架的研究中都被证明经历了一定程度的翻译。

MRNA 翻译的多重作用:与重要蛋白质的合成(红色,左侧)一起,翻译被证明具有调节作用,例如影响额外 ORFs 的使用(例如,uORFs,黄色)或调节转录稳定性(蓝色),例如通过识别 PTC 而触发 NMD。在其他情况下,翻译可能只是发生在细胞质转录本上,而没有任何重要的功能。同一个 RNA 分子上可能会出现多种情况。缩写:NMD,无意义介导的衰退;ORF,开放阅读框架;uORF,上游 ORF;PTC,过早终止密码子。
进化保守模式可以通过将核苷酸水平的保守与密码子组成水平的可能限制进行对比,帮助精确定位这些差异。
许多研究观察到蛋白质稳态丰度估计值和翻译定量估计值之间在蛋白质组范围内具有良好的相关性。同样,在进行这样的相关性分析时,必须仔细考虑许多因素。Ribo-seq 反映了不同 ORF 的蛋白质合成速率,这与定量蛋白质组学技术给出的估计值非常吻合。然而,正如许多其他整合转录学和蛋白质组学数据的研究一样,分析仅限于几千个基因,这些基因只代表内源蛋白质组的一小部分,特别是与 RNA-seq 或 Ribo-seq 的更敏感的估计相比。
4结语
Ribo-seq 对 mRNA 生命周期中的一个关键步骤提供了非常丰富和详细的描述。由于使用了影响翻译动力学不同方面的不同化合物,我们可以从数千个基因的核糖体图谱中提取多种有意义的特征,从而使不同的分析方法能够研究整个转录本的翻译。收集并讨论了不同的分析策略来识别 Ribo-seq 数据中的翻译,以及有关它们的可用性、假设和可能的限制的重要方面。
此外,深度神经网络可能被证明是一种有价值的分析策略,可以直接从数据本身推断出多种特征,然后利用这些特征来对不同的基因组区域进行分类。针对 Ribo-seq 数据的第一个深度学习方法预测了翻译起始点和核糖体停滞事件。
最后,我们不应该忽视,翻译不仅仅是蛋白质合成。Ribo-seq 数据必须在 RNA 新陈代谢的更广泛的背景下进行解释。已经确定了多条 RNA 降解途径,其中几条是以翻译依赖的方式发生的。翻译的定量估计可以与 RNA 合成、降解和附加特征的速率结合起来,以更好地辅助表达的转录组的功能表征。

欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群
哦,数据代码已上传至QQ群,欢迎加入下载。
群二维码:

老俊俊微信:
知识星球:
所以今天你学习了吗?
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,赏杯快乐水喝喝吧!
往期回顾
◀argparse 传参之 add_argument() 方法
◀argparse 传参之 ArgumentParser 对象
◀组会文献分享 –– miR455–3p 影响 HSF1 基因的 m6A 修饰参与结直肠癌的发生发展
◀...
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!