大家好!为大家介绍一篇2022 年发表在Nucleic Acids Research上的文章,题目是“STRIDE: accurately decomposing and integrating spatial transcriptomics using single-cell RNA sequencing”。本文提出了使用一种名为“STRIDE”的解卷积新方法,通过整合scRNA-seq数据和空间转录组数据,来解析空间转录组的每个spot的细胞类型组成。此外,该模型还可以对不同心脏组织切片进行三维重建,从而形成心脏的三维模型。本文通讯作者为同济大学的王晨飞教授,研究方向为单细胞及空间多组学生物信息学方法开发。
背景介绍
有研究表明,细胞异质性不仅由其内部调控网络的影响,还受到其外部微环境的影响。目前,scRNA-seq技术的快速发展使得我们能更好理解细胞内部调节网络的运转机制。而在空间转录组上,虽然目前已开发了许多的解卷积模型来解析空间转录组中spot的细胞类型组成来帮助我们理解细胞外部微环境对细胞基因表达的影响,但现有的解卷积方法都依赖于marker基因,这可能会受到高drop-out率和一些不感兴趣基因表达波动的影响。其模型敏感性和特异性不高。因此,迫切需要一种能平衡敏感性和特异性的解卷积模型。
设计思路
在机器学习中,文本挖掘领域的一类最常见的主题模型(topic model)是隐狄利克雷分布,简称LDA (Latent Dirichlet allocation)。其目的是为了从文档中发现潜在的语义结构。而在生物信息学中,大部分需要处理的单细胞基因表达矩阵数据存在稀疏性。又因为主题模型能容忍数据的稀疏性并且具有很好的可解释性,从而使得可以被应用于处理scRNA-seq数据。
本文开发的解卷积方法STRIDE可以整合利用scRNA-seq数据对空间转录组数据每个spot进行细胞类型解析。STRIDE首先使用LDA对带注释的scRNA-seq数据进行主题建模,通过variational Bayes (VB)算法求解基因表达-主题分布和主题-细胞分布(即每种细胞类型潜在的基因表达模式)的参数,最后再通过贝叶斯推断得到细胞类型-主题分布。然后使用细胞类型-主题分布可以将scRNA-seq数据中的每个细胞分配到最可能的细胞类型,从而达到对scRNA-seq数据进行细胞的分解的目的。
在空间转录组数据中每个spot的基因表达可以被看作是不同类型的多个细胞的混合物。所以,对于空间转录组数据,先根据在scRNA-seq数据中获得基因-主题分布使用LDA去估计spot-主题分布,而后联合spot-主题分布和细胞类型-主题分布计算spot属于每种细胞类型的概率,反过来就可以将这种概率看作每种细胞类型在spot中所占的比例,从而达到对ST数据进行细胞的分解的目的。此外,STRIDE还提供几个下游分析,包括特征(即主题)检测和可视化,基于邻域细胞群的空间聚类和区域识别,空间结构的3D重建。图1是整个方法的过程以及其下游分析。
图1 STRIDE工作流程的示意图
数据介绍
首先,作者从乳腺癌(BRCA)scRNA-seq数据模拟了三个ST数据集,具有已知细胞类型组成的合成混合物可以作为基准,用来测试 STRIDE 在分解细胞类型方面的性能。作者验证了主题建模发现特定细胞类型主题的能力,得出的28个不同的主题富含不同的细胞类型,GO注释表明主题与特定细胞类型之间的有效关联(图2A)。接着,基于训练的相同数据集并验证,STRIDE可实现较高的细胞类型分配准确度(图2B)。作者将STRIDE模型和其他已发表方法进行比较(图2D-F),使用了Pearson’correlation系数评估模型预测和真实的一致性,以及计算组内均方根误差(RMSE)来评价模型的灵敏度和特异性,STRIDE均表现出最佳性能。最后,作者比较不同测序深度下STRIDE的鲁棒性,如图2G所示,STRIDE模型在6类测序深度的数据上预测值和真实值的相关性都是最大的,STRIDE模型的鲁棒性高于其它解卷积模型。
图2.使用模拟数据对STRIDE的性能进行基准测试
为了考察STRIDE模型在真实数据集上的表现。作者将其应用在小鼠小脑ST数据集上。因为小鼠小脑呈现明确定义的细胞类型层结构,因此可用于评估STRIDE模型的细胞类型分解性能。结果如图3A,这与以前的研究结果(图3B)一致,两种类型的分子层中间神经元MLI1和MLI2被映射到小脑皮质的顶层和最外层。伯格曼细胞(bergmann)和普尔基涅细胞(purkinje)共定位于同一中间层—Purkinje层,而颗粒细胞(granule)定位于底层颗粒层—Granule层(图3C)。少突胶质细胞(oligodendrocytes)和星形胶质细胞(astrocytes)分散在颗粒层下方(图3D)。
图3. STRIDE在小鼠小脑的应用
此外,作者还将STRIDE模型应用于人类鳞状细胞癌微环境中肿瘤细胞研究其异质性。STRIDE计算得到spot的细胞类型比例(图4A),进一步根据spot细胞类型比例的相似性进行空间聚类(图4B),共获得6个簇。其中C4簇和C2簇分别代表着纤维血管生态位和免疫相关前端,而C3簇主要由上皮细胞(epithelial)和恶性细胞(malignant)构成,由此可以将C3簇区域视为肿瘤区域,这与之前的研究结果一致。作者同时探讨了免疫细胞亚群分布与肿瘤相对位置之间的关系,表明STRIDE解卷积可以定义空间域,并进一步表征肿瘤微环境中细胞类型的空间分布模式。
由于肿瘤细胞通常表现出高度的异质性,所以作者利用上述的空间域来研究肿瘤细胞异质性与其空间位置之间的潜在关系。作者将C3定义为肿瘤核心区域,C1,C4,C5作为肿瘤边缘区域(图4D)。然后分别对两个区域进行了差异基因表达分析和功能富集分析。结果表明肿瘤核心和肿瘤边缘区域显示出不同的hallmark通路。肿瘤核心区的特点是雌激素反应和胆固醇稳态通路的富集,据以前的研究,这在鳞状细胞癌的发生中起着重要作用。相比之下,边缘区域特异性基因在干扰素相关的信号通路中高度富集,这与之前研究的结果一致。综上所述,STRIDE的细胞类型解卷积结果有助于识别空间局部区域。
图4. 描述人鳞状细胞癌微环境的异质性
为了验证STRIDE在不同生物系统中的应用,作者还将其应用于器官发育的空间组织研究。作者收集了6.5–7个孕周心脏的scRNA-seq数据来训练模型,并对三个发育阶段(4.5–5、6.5和9个孕周)的所有样本进行细胞类型解卷积。结果如图5A所示,在所有三个阶段中心房细胞(atrial)和心室肌细胞(ventricular cardiomyocytes)被预测位于上心室和下心室。心外膜细胞(epicardial)也被正确地映射到心脏的外层,即心外膜(epicardium)。通过STRIDE模型绘制的细胞类型映射与此前通过整合ISS和scRNA-seq生成的空间细胞类型图高度一致(图5B)。综上所述,STRIDE可以推断不同的时间点的组织细胞类型混合模式。
图5.STRIDE在发育中的人类心脏上的应用
为了进一步展示STRIDE模型生成主题的应用,作者开始探索利用STRIDE解卷积结果去对多个样本进行综合分析。主要思想是根据spot的主题分布特征将相邻两张slide上的spot进行配对,即在两个slide上的具有相似细胞组成的spot进行映射配对。结果如图6A所示,在心室区域(ventricle)内主要包含心室肌细胞(ventricular cardiomyocytes)的spot之间互相映射,在左心房和右心房中的心房细胞(atrial cardiomyocytes)在局部区域被正确映射。随后作者将这些slide按顺序排序,从而构建了人类心脏的三维模型(图6B)。使用这种方法对发育中的人类心脏进行三维重建仅需要细胞的空间表达信息即可,不需要基于图像的配准,由此可见STRIDE模型的应用广泛。
图6. 发育中的人体心脏的三维模型重建
总结
作者将机器学习中的主题建模模型应用于整合单细胞数据和空间转录组数据来解析空间转录组的细胞类型组成,开发了一种高灵敏性和高特异性且鲁棒性很好的方法STRIDE。这种方法不仅能够分析空间转录组中spot的细胞类型组成,而且其衍生的主题分布还能够用于特征(即主题)检测和可视化,空间聚类和空间域的识别,以及重建心脏的三维模型等。STRIDE利用单细胞数据来解析空间转录组数据的细胞类型组成,从而研究细胞外部的微环境对细胞基因表达的影响,为研究细胞的异质性提供了极大的便利。
审核编辑 :李倩
-
数据
+关注
关注
8文章
6504浏览量
87444 -
建模
+关注
关注
1文章
279浏览量
60467 -
机器学习
+关注
关注
66文章
8061浏览量
130439
原文标题:文献分享 | Nucleic Acids Research | STRIDE:使用scRNA-seq数据精确分解和整合空间转录组
文章出处:【微信号:SBCNECB,微信公众号:上海生物芯片】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论