文章来源于互联网:麦吉尔大学Ding Lab基于深度学习开发单细胞水平转座子位点表达定量模型,登Nature子刊
编辑丨ScineceAI
该论文介绍 MATES:一种基于深度学习的单细胞水平转座子定量工具。MATES 使用基于自编码器的模型,通过分析转座子区域周围独特比对读段的分布,概率性地将多重比对转座子读段分配到特定位点。通过深度神经网络,MATES 学习独特读段分布与多重比对读段来自特定位点的可能性之间的关系。
这一创新方法在多个单细胞测序平台上进行了严格验证,包括 10X Genomics(scRNA-seq、scATAC-seq 和 Multiome)、Smart-seq 和空间转录组学(10X Visium)。该工具的多样性和精确性已带来了新的生物学见解,为更广泛的应用和实验验证铺平了道路。
该研究以「MATES: a deep learning-based model for locus-specific quantification of transposable elements in single cell」为题,于 2024 年 10 月 11 日发布在《Nature Communications》。
背景介绍
转座子(Transposon),又称转座元件或跳跃基因,是哺乳动物基因组的重要组成部分,在基因调控、基因组进化和细胞间异质性中发挥着关键作用。尽管部分转座子仍然活跃并能够在基因组中跳跃,但大多数转座子已经积累了突变和退化,使其失去了主动转座的能力。因此,许多转座子被保留在基因组中并作为调控元件发挥作用。这些非编码功能包括调控基因表达以及形成长链非编码 RNA(lncRNA),这些 RNA 参与关键的调控网络,影响基因表达和细胞功能。尽管转座子扮演着这些重要角色,但由于其重复序列和高拷贝数导致的多重比对测序读段(reads)定量的挑战,我们在单细胞水平上对特定位点转座子的理解仍然有限。
转座子高多重比对读段的挑战
从转座子的高对比读段中准确量化表达量是这个领域的一项重大挑战。许多现有的单细胞转座子量化工具过度依赖比对算法来处理多重比对读段。然而由于转座子的重复性,利用对比算法量化转座子表达量存在局限性,即他们忽略了转座子周围的基因组上下文信息。
特定位点转座子量化的挑战
现有的方法未能实现精确的特定位点转座子定量,他们有些只量化转座子亚家族的表达量,有的仅仅将读段分配到对比算法提供的“最佳” 位置,因此在处理转座子区域中普遍存在的多重比对读段方面非常有限。这些方法忽视或回避了由转座子重复特性导致的多重比对读段分配挑战,这种忽视可能低估了转座子定量中分配多重比对读段的复杂性和不确定性。
方法总结
利用深度学习模型解决转座子多重比对读段的挑战
为了解决这些挑战并填补空白,我们提出了 MATES,这是一种基于深度神经网络的方法,专为跨模式的单细胞测序数据中的特定位点转座子精确定量而设计。MATES 利用转座子位点周围独特比对读段的分布信息,将多重比对转座子读段分配到特定位点,从而实现特定位点转座子的定量。通过深度神经网络的强大能力,MATES 捕捉转座子位点周围独特比对读段分布与多重比对读段被分配到这些位点的概率之间的复杂关系。该方法使 MATES 能够基于转座子位点的局部上下文,以概率方式处理多重比对读段的分配问题。
MATES 方法包括多个关键步骤。首先,将原始读段比对到参考基因组,识别唯一比对到某个转座子位点的读段(独特比对读段)以及比对到多个转座子位点的读段(多重比对读段)。接着,为每个转座子位点计算覆盖向量,表示围绕该位点的独特比对读段分布(上下文),并将每个转座子区域细分为长度为 W(如 10 个碱基对)的较小区间。根据区间内独特比对读段和多重比对读段的比例,将每个区间分类为独特占主导区域或多重占主导区域。然后,MATES 使用自编码器模型学习潜在嵌入,用于表示转座子位点的高维独特读段覆盖向量,即特定位点的比对上下文。
此外,转座子家族的独热编码信息也作为模型输入,用于结合潜在嵌入预测特定位点的多重比对比例 (α)。模型的总损失由重构损失和相邻区间读段覆盖连续性的损失组成,后者反映了多重占主导区间的覆盖应接近其相邻的独特占主导区间。通过训练完成的模型,我们可以以概率方式统计每个转座子位点的读段总数,从而实现转座子在位点水平的精确定量。进一步地,通过将转座子定量与单细胞数据中的传统基因定量(如基因表达或基因可及性)结合,MATES 能够更准确地对细胞进行聚类,并识别全面的生物标志物(基因和转座子),以表征获得的细胞群。除了高效处理单细胞数据的各种模式,MATES 还提供特定位点转座子的可视化功能,支持生成 bigwig 文件和交互式基因组查看器(IGV)图,帮助研究人员直观地探索和解释基因组中转座子位点的读段分配。
图1:MATES方法概览。
a 原始读段被比对到参考基因组,同时考虑转座子位点上的多重比对读段。b 构建转座子覆盖向量,包括独特比对读段覆盖向量 V_u 和多重比对读段覆盖向量 V_m,以捕获读段的分布信息。c 自编码器(AutoEncoder)模型从独特比对读段覆盖向量中提取潜在嵌入。这些嵌入与转座子家族数据 T_i 结合,用于预测多重比对读段与每个转座子位点匹配的概率α。d MATES 计算的多重比对概率 α 对构建转座子计数矩阵至关重要。该矩阵是细胞分析的关键,可单独使用,也可与传统基因计数矩阵结合使用。结合使用可以增强细胞聚类和生物标志物(基因和转座子)的发现,从而更全面地理解细胞特性。e MATES 实现基因组范围的读段覆盖可视化,并生成基于基因组浏览器的可视化文件。该方法在单个细胞中对特定位点的 转座子进行定量,生成包含从概率分配的多重比对读段计算的覆盖的 bigwig 文件。这些文件将独特和多重比对读段的覆盖信息合并,生成全面的 bigwig 文件,可通过交互式基因组查看器(IGV)等工具实现基因组范围的转座子读段可视化。
结果展示
在我们对 MATES 的系统性评估中,使用了不同测序平台、模式和物种的多种单细胞数据集,结果表明 MATES 始终能够提供更准确的转座子定量结果。除了更高的精确性之外,MATES 还提供了特定位点水平的转座子定量,并且能够在不同测序平台和数据模式下推广使用,从而更全面地理解转座子在细胞动态和基因调控中的作用。我们还通过 Nanopore 和 PacBio 长读段测序以及模拟数据对方法的预测结果进行了验证。通过将 MATES 的单细胞转座子定量与模拟的真实值或长读段测序的代理真实值进行比较,我们证明了 MATES 的准确性及其相较于现有方法的优势。结果表明,MATES 在探索转座子在单细胞生物学中的作用方面表现出色,并为不同实验背景下的转座子定量提供了一个实用的解决方案。
图2: MATES 增强小鼠化学重编程(10X scRNA-seq数据)中的细胞聚类与生物标志物发现。
a, b UMAP 图显示通过整合转座子和基因,MATES 在细胞聚类中的效果。a 图按 Leiden 聚类结果着色,而 b 图按重编程阶段着色,突出显示了鉴定的基因(紫色)和 转座子(红色)生物标志物。c, d 额外的 UMAP 图强调仅使用转座子进行聚类的 MATES 能力,c 图按 Leiden 聚类着色,d 图按重编程阶段着色。值得注意的是,MT2_Mm 和 MERVL-int 转座子是 Zscan4c/Zscan4d 阳性细胞中的重要标志物,与已知的 2CLCs 标志一致。e 点图展示 MATES 鉴定的阶段特异性标志基因(紫色)和转座子黑色)。f 示意图展示 MATES 的概率性方法如何将多重比对读段分配到特定转座子位点,特别是在 2CLCs 中与 Zscan4c/Zscan4d 位点相关的 MT2_Mm 和 MERVL-int。g 条形图显示 MT2_Mm 和 MERVL-int 在 Zscan4c/Zscan4d 位点的读段富集情况。富集的 p 值通过单侧二项检验计算。h 箱线图比较 MATES 在特定位点水平和亚家族水平转座子定量下的细胞聚类效率,使用调整兰德指数(ARI)评估。
图 3:MATES 在 Smart-Seq2 单细胞 RNA-seq 数据中定量与疾病相关的转座子表达。
a, b UMAP 图展示了基于基因和转座子标志物的细胞聚类。MATES 或 Gene+TE 表示通过 MATES 定量的基因表达与转座子数据相结合。UMAP 初始按 Leiden 聚类着色(a),随后按细胞类型及特异标志物着色,包括肿瘤标志(EGFR、HUERS-P1-int 和 HERVK-int)及免疫细胞标志(CD74、LTR2B 和 LTR40A1)(b)。c, d 基于 MATES 定量的转座子表达生成的 UMAP 图,分别按 Leiden 聚类(c)和按标志物(如 HERVK-int)着色的细胞类型(d)。e 点图揭示了 MATES 鉴定的标志基因、转座子和细胞类型之间的关联。f, g 展示了利用 MATES 的特定位点转座子定量增强聚类精确性的结果,f 图显示 Leiden 聚类,g 图显示细胞类型。h 列出免疫细胞中特定位点水平高表达的转座子标志物(LTR2B)及其非表达位点,证明了 MATES 在位点水平转座子定量方面的能力。i 条形图展示免疫细胞和肿瘤细胞中转座子的平均特定位点表达水平。j 箱线图比较了基于 MATES 的特定位点水平和亚家族水平转座子定量的细胞聚类效果,通过调整兰德指数(ARI)评估,表明 MATES 在生物标志物识别和细胞分类中的分辨率提升。
图 4:MATES 在成年小鼠大脑 scATAC-seq 数据中的多样性应用。
a–d UMAP 图展示了 MATES 在细胞聚类和识别特征性转座子标志物中的定量效果,结合转座子和峰值数据进行聚类分析。a 图显示 Leiden 聚类结果,b 图按细胞类型及转座子标志物着色,鉴定出了关键转座子标志物,例如在巨噬细胞中的 RMER16_Mm 和 RLTR44B,在星形胶质细胞中的 MamRep434 和 MER124,以及在少突胶质细胞中的 MURVY-LTR 和 MamRep1527。c 和 d 图展示了 MATES 在以转座子为中心的聚类中的特异性,仅使用 MATES 的转座子定量数据进行聚类分析,其中 c 图聚焦于 Leiden 聚类,d 图展示细胞类型及之前提到的特征性转座子标志物。e 点图简明呈现了 MATES 鉴定的细胞类型特异性转座子标志物。f–h 这些面板说明了 MATES 使用特定位点水平转座子定量提升聚类准确性的效果。f 图展示了基于特定位点水平转座子定量的 UMAP 可视化,按颜色标识 Leiden 聚类;g 图展示了相同的 UMAP,但按颜色区分不同细胞类型;h 图提供了特定位点水平的转座子标志物 RLTR44B 在巨噬细胞中的具体示例,并与该转座子一个未开放位点进行对比,体现了 MATES 在详细特定位点水平转座子定量方面的能力。i 箱线图比较了 MATES 在特定位点水平与亚家族水平转座子定量下的细胞聚类效率(调整兰德指数,ARI),突出了采用特定位点转座子定量的优势。j 条形图展示巨噬细胞、少突胶质细胞和星形胶质细胞中特定位点转座子的平均表达水平。k 点图显示了 MATES 鉴定的特定位点水平转座子标志物及其对应的细胞类型。
图 5:使用 MATES 对人类 PBMCs 进行多模态转座子分析。
a, b UMAP 图展示了通过整合 scRNA 和 scATAC 模态的 MATES 聚类结果,a 图显示 Leiden 聚类,b 图展示细胞类型聚类。c–f 跨模态的转座子定量突出多模态定量的互补性。c 和 d 图展示了在 scRNA 模态中基因和转座子联合的 UMAP 聚类,e 和 f 图则展示了在 scATAC 模态中峰值和转座子联合的 UMAP 聚类。c 和 e 按 Leiden 聚类着色,d 和 f 按细胞类型着色,展示了转座子如 AluYa5 在两种模态中的差异性表达,而 MER48、LTR71A 和 MER54A 则特异于 scATAC 模态。g–l 这一系列 UMAP 图和箱线图说明了多模态转座子分析。g 和 j 是转座子表达的 UMAP 图,按 Leiden 聚类着色以突出聚类模式;h 和 k 是聚焦于不同细胞类型及其转座子标志物的 UMAP 图,提供了细胞特性和相关转座子的深入见解;i 和 l 是比较细胞聚类效果的箱线图(调整兰德指数,ARI),强调特定位点水平定量相比亚家族水平定量提供的更高分辨率。m 展示了通过 scRNA 和 scATAC 模态鉴定的转座子标志物,指出高表达的转座子通常与染色质可及性增强相关,而反向情况并非普遍观察到,突显了每种模态的独特贡献。n 点图捕捉了每种细胞类型的特征性转座子,验证了 scATAC 和 scRNA 数据的互补性,为全面了解转座子动态提供了支持。
总结与展望
MATES 利用自编码器,基于独特占主导地位的转座子区域的覆盖向量,学习单个转座子位点上独特比对读段的分布模式。它整合了独特比对和多重比对读段,从而在位点水平上精确定量转座子表达。该工具不仅限于亚家族级别的转座子表达定量,还能够实现位点水平的定量,从而提高细胞群体分析的分辨率,并推动特定位点转座子标志物的识别。
论文链接:https://www.nature.com/articles/s41467-024-53114-7