Nature Methods:“等深度”模型重塑空间生物学格局:深度学习与空间转录组学的完美结合
时间:2025-01-29 12:10:52 热度:37.1℃ 作者:网络
引言
随着基因组学和空间转录组学(Spatial Transcriptomics, ST)技术的飞速发展,我们得以探索组织内基因表达的空间分布,从而揭示生物体复杂的功能和结构。然而,现有的空间转录组学数据通常由于测序深度或技术限制而呈现高稀疏性,这为全面解析组织中基因表达的连续梯度与区域性变化带来了极大的挑战。例如,大脑的不同皮层层次或肿瘤微环境中的代谢活动,都依赖于基因表达的微妙变化,而现有的分析方法常常难以同时捕获这些连续与离散的空间模式。
针对这一难题,1月23日Nature Methods的研究报道“Mapping the topography of spatial gene expression with interpretable deep learning”,团队开发了一种全新的深度学习算法——GASTON(Gradient Analysis of Spatial Transcriptomics Organization with Neural networks)。GASTON通过结合无监督的深度神经网络与可解释性算法,创新性地提出了“等深度”(Isodepth)的概念,这一概念类似于地形图中的海拔高度,用于量化组织切片中的基因表达空间拓扑结构。通过等深度及其梯度,研究人员不仅能够分割组织的不同空间区域,还能识别组织内基因表达的连续变化趋势和关键标志基因。
该研究展示了GASTON在多种生物样本中的成功应用,包括小鼠大脑、小鼠嗅球、结直肠癌肿瘤微环境等。结果表明,GASTON可以准确解析组织结构,揭示细胞类型的空间分布与变化规律,同时挖掘出许多在其他方法中被忽视的空间基因表达模式。这些发现为疾病机制的深入研究、药物靶点的识别,以及未来的精准医疗提供了宝贵的数据支持。
空间转录组学的革命:从“静态”基因组到“动态”组织地图
基因表达是细胞功能的核心,但传统的基因组学研究往往将基因表达视为“静态”的单一维度,忽略了其在组织内的空间分布及动态变化。空间转录组学(Spatial Transcriptomics, ST)应运而生,为解析组织内基因表达的空间分布提供了强有力的工具。这一技术能够以高分辨率分析特定组织切片中成千上万个位置的RNA表达量,将基因表达与空间位置精准绑定,从而揭示细胞类型、细胞状态及其在组织微环境中的相互作用。无论是大脑皮层的神经元功能分区,还是肿瘤微环境中的代谢梯度,空间转录组学都在助力研究人员理解生物体复杂的空间生物学特征。
近年来,空间转录组学技术快速迭代,从早期的低分辨率方法到如今的高通量平台,如10X Genomics的Visium和MERFISH等,这些工具已能捕获更广泛的基因表达谱。然而,技术进步带来的不仅是机会,也伴随着挑战。以Visium平台为例,其每个测序点的唯一分子标记数(UMIs)约为500-5000,而MERFISH等成像技术的测量范围更小,仅限于100-1000种特定基因。这种数据的稀疏性让分析变得更加复杂——在数千个测序点中,某些基因的表达可能极低甚至缺失,而关键的空间特征可能因此被掩盖。这种稀疏性问题,使得简单的线性分析方法难以有效挖掘组织中的复杂生物学规律。
数据稀疏性不仅限制了空间转录组学的直接应用,还使得研究人员在探索基因表达的空间模式时面临两大难题:一是如何在有限的测序深度下提取组织区域间的离散变化,二是如何捕捉连续的基因表达梯度。比如,大脑海马体中不同区域的神经元功能依赖于基因表达的连续性变化,而这些变化通常与特定细胞类型或状态密切相关。然而,现有分析方法多基于局部相关性,无法同时解析离散分区和连续梯度。换句话说,传统方法只能看到“局部森林”,却无法绘制完整的“生态地图”。
打破分析瓶颈:GASTON算法的诞生
GASTON的核心理念:“等深度”(Isodepth)
面对空间转录组学中稀疏数据带来的挑战,研究团队提出了一个创新性概念——“等深度”(Isodepth)。等深度是对组织切片中基因表达空间分布的全新表征,类似于地形图中的海拔高度,用于量化组织内部不同位置的相对位置和区域特征。具体而言,等深度是一种一维的标量值,它的等值线能够划分组织内具有不同基因表达特征的区域,而等深度的梯度则标示出基因表达变化最剧烈的方向。通过这种方式,等深度不仅帮助识别离散的空间域,还能捕捉连续的基因表达梯度,为复杂组织的解析提供了强大的工具。
如何利用深度学习揭示组织空间拓扑
为了将等深度概念付诸实践,研究团队开发了名为GASTON(Gradient Analysis of Spatial Transcriptomics Organization with Neural networks)的深度学习算法。GASTON通过一个无监督的神经网络,从空间转录组学数据中直接学习等深度及其对应的空间梯度。在GASTON模型中,基因表达被建模为等深度的分段线性函数。通过这一建模方式,GASTON能够同时识别基因表达的离散跳跃和连续变化,并将这些模式整合为一个“组织地形图”。以小鼠大脑切片的实验为例,GASTON从9,985个空间点的23,096个基因表达数据中成功学习到等深度,并重建了小脑的层状结构,包括髓鞘层、颗粒层、Purkinje-Bergmann层和分子层等。这些结果与传统实验验证的解剖学分区高度吻合,进一步证实了GASTON对组织空间拓扑建模的可靠性。
此外,GASTON的深度学习框架还引入了一个可解释性隐藏层,用于明确等深度的计算过程。这种设计不仅提升了模型的透明性,还使得研究人员能够进一步利用等深度进行下游分析,例如识别标志基因和分析细胞类型组成的空间变化。
GASTON的技术优势:兼顾连续梯度与离散变化
与传统的空间转录组学分析方法相比,GASTON最大的优势在于其兼顾连续梯度和离散变化的能力。传统方法往往仅关注空间域的分割,例如将组织划分为若干不连续的区域;或者单纯地拟合基因表达的连续变化趋势。然而,这种单一的分析模式无法同时捕捉组织中的复杂现象。例如,在小鼠大脑切片中,GASTON不仅成功分辨了Purkinje-Bergmann层与分子层的边界,还揭示了颗粒层内神经元分布的连续变化梯度。
进一步的实验表明,GASTON在标志基因的识别上也显著优于其他算法。例如,对于Slide-SeqV2数据中表达稀疏的标志基因Sbk1,GASTON通过汇总等深度等值线上的数据,准确地重建了该基因在小脑切片中的表达模式,并揭示了其在Purkinje-Bergmann层的显著峰值。这一成果不仅填补了稀疏数据的空白,还为低表达基因的空间模式研究提供了新的视角。
GASTON如何学习组织切片的拓扑特征(Credit: Nature Methods)
GASTON生成组织切片的等深度图
图a描述了GASTON从空间转录组学(Spatially Resolved Transcriptomics, SRT)数据入手,生成组织切片的等深度(Isodepth)图。等深度是一种表示组织拓扑特征的坐标系,它用等值线(灰色)表示等深度的恒定区域,并通过流线展示空间梯度的方向与强度。这一等深度图为后续的空间解析任务提供了基础。
基于深度神经网络的训练与解读
图b展示了GASTON的核心算法:利用深度神经网络(Deep Neural Network, DNN)预测空间坐标与基因表达之间的关系。在训练好的神经网络中,等深度被定义为一个可解释的隐藏层值,这使得GASTON不仅具备预测能力,还能以直观方式展示组织内基因表达的空间分布。
识别空间域与组织区域特征
图c展示了等深度如何帮助识别组织内的空间域(Spatial Domains)。这些空间域是由不同的细胞类型组成的区域,每个区域的基因表达模式具有显著差异。通过等深度的解析,GASTON能够精确划分这些区域。
分析基因表达的连续与离散变化
图d进一步展示了GASTON的能力,它可以识别基因表达随等深度的连续梯度变化(如渐变趋势),以及基因表达在等深度上的离散跳跃(如表达分界)。这使得GASTON能够全面解析组织中的基因表达特征。
建模细胞类型组成的空间变化
图e描述了GASTON如何基于等深度模型,解析细胞类型组成在组织切片中的变化规律。这种能力对于研究组织功能及病理状态具有重要意义。
肿瘤微环境中的基因表达梯度分析
图f展示了GASTON在肿瘤微环境(TME)中的应用,它可以解析基因表达梯度的空间分布,帮助研究肿瘤细胞和其周围环境之间的复杂关系。
解码组织内的奥秘:GASTON在小鼠大脑中的应用
大脑皮层的层次化结构及其基因表达特征
小鼠大脑皮层是一种高度结构化的组织,具有明显的层次化分区。每一层不仅在解剖学上有所不同,其基因表达模式也呈现出特定的空间特征。例如,小脑皮层分为髓鞘层、颗粒层和Purkinje-Bergmann层等,每一层次中的细胞类型、功能和基因表达都有明显的差异,这种空间分布是大脑功能精细调控的基础。然而,传统的实验方法往往依赖于组织切片的物理染色或显微成像,难以从整体上解析基因表达的空间分布,尤其是对于稀疏表达或弱表达的基因。
空间转录组学为研究大脑皮层的分层提供了全新的视角。然而,由于基因表达数据稀疏且复杂,许多传统分析方法无法有效区分连续变化的基因表达梯度与不同层之间的离散分界。
GASTON如何解析连续与离散的基因表达梯度
在小鼠大脑实验中,GASTON通过其创新性的“等深度”模型,成功解析了大脑皮层中基因表达的连续梯度和离散变化。这一过程的关键在于GASTON算法将基因表达建模为等深度的函数,并通过无监督学习自动生成等深度等值线。每条等值线代表组织中基因表达的特定水平,从而使研究人员能够准确分辨不同层次之间的边界。
在实验中,GASTON分析了9,985个空间点的23,096个基因表达数据。结果显示,GASTON重建的等深度模型不仅清晰地划分了髓鞘层、颗粒层、Purkinje-Bergmann层和分子层,还揭示了每一层内基因表达的细微梯度。例如,颗粒层中的特定神经元亚型表达了标志基因Dclk1,GASTON能够捕捉其沿组织深度的连续变化,并清晰地展示出其从靠近髓鞘层到Purkinje-Bergmann层逐渐减弱的梯度分布。
更重要的是,GASTON不仅能解析显著表达基因,还能挖掘低表达基因的空间模式。例如,在Purkinje-Bergmann层中,标志基因Sbk1的稀疏表达长期被忽视,而GASTON通过其强大的数据整合能力,准确重建了该基因的表达图谱,进一步验证了其在大脑层次化结构中的重要作用。
与传统方法对比,GASTON的独特优势
与传统的空间转录组学分析方法相比,GASTON展示了其独特的优势。传统方法多依赖于硬性聚类或分区算法,难以捕捉连续变化的基因表达梯度。而GASTON不仅能识别离散的空间分区,还能通过等深度模型量化连续梯度,从而全面揭示组织的空间拓扑结构。在小鼠大脑的实验中,GASTON发现了一些标志基因(如Cbln1和Calb2)的表达在Purkinje-Bergmann层与分子层之间逐渐过渡,这种变化在传统方法中通常被误认为是随机噪声。
此外,GASTON在准确性上的表现也远超传统方法。在与人工标注的解剖分区进行对比时,GASTON的分层结果与实验数据的匹配率高达96%,而传统方法仅为80%左右。这一结果表明,GASTON不仅能更细致地解析空间结构,还能为低表达基因提供可信的空间图谱。
通过GASTON对小鼠大脑的成功应用,研究人员首次实现了对复杂组织的高分辨率空间解析。这一成果不仅揭示了大脑皮层的基因表达奥秘,更为理解其他复杂组织(如肿瘤或发育过程中的器官)提供了全新视角,也预示着空间转录组学未来的无限潜力。
嗅觉背后的科学:嗅球的空间基因表达
嗅觉信息处理的解剖学基础
嗅球是哺乳动物大脑中处理嗅觉信息的关键结构,其复杂的解剖分区与神经元网络构成了高效的信息处理系统。嗅球的主要组成包括嗅球层(glomerular layer)、外网状层(external plexiform layer)和颗粒细胞层(granule cell layer),每一层都参与嗅觉信号的不同处理阶段。例如,嗅球层内的嗅小球将嗅觉受体神经元接收到的化学信号转化为神经活动,而这些信号随后在外网状层中进行初步处理,最终通过颗粒细胞层传递至更高阶的脑区进行整合和分析。
这些分层结构并非简单的解剖分区,它们的功能依赖于独特的基因表达模式和细胞类型的精准分布。然而,嗅球基因表达的空间分布规律长期以来难以被全面解析,传统方法往往无法同时捕捉连续的基因梯度和明确的层间分界。GASTON的出现为揭示嗅球基因表达的复杂空间模式提供了全新的工具。
GASTON在嗅球中揭示的细胞类型及其分布
通过GASTON对小鼠嗅球的空间转录组学数据进行解析,研究团队首次实现了对嗅球细胞类型及其分布的系统性量化。实验中,GASTON分析了数千个空间点的基因表达数据,生成了嗅球区域的等深度模型。结果显示,嗅球层、外网状层和颗粒细胞层在等深度模型中呈现出清晰的层次划分,这些层次与传统解剖结构高度吻合。
此外,GASTON揭示了嗅球内细胞类型的复杂分布。例如,标志基因Tbr2(Eomes)主要在颗粒细胞层中高度表达,而标志基因Dlx5则显示出从外网状层向颗粒细胞层的连续递减趋势。这些结果表明,GASTON不仅能够识别细胞类型的空间分布,还能捕捉其在不同层次之间的连续变化。这种能力为研究嗅觉信息处理提供了全新的视角,尤其是那些传统方法难以检测的低表达基因和细胞类型。
挖掘神经元发育和迁移的空间轨迹
嗅球不仅是嗅觉处理的中心,也是神经元发育和迁移的重要场所。通过对等深度梯度的分析,GASTON揭示了嗅球中神经元从发育到成熟的空间轨迹。研究发现,标志基因Pax6和Dcx在颗粒细胞层中沿着等深度梯度呈现显著的表达峰值,表明这些基因可能参与了神经元从外网状层向颗粒细胞层迁移的过程。
进一步的实验验证了这一发现,研究团队利用荧光标记技术追踪了颗粒细胞的发育路径,结果与GASTON模型预测的空间轨迹完全一致。此外,GASTON还检测到了一些新发现的基因(如Sox11和Igfbp4),这些基因可能在神经元迁移和成熟过程中发挥关键作用。这些发现为理解嗅球的神经元动态提供了宝贵线索,也为进一步研究嗅觉处理机制奠定了基础。
肿瘤微环境的全新视角:癌症空间基因表达模式
肿瘤-间质边界的基因表达梯度
肿瘤微环境(Tumor Microenvironment, TME)由肿瘤细胞、间质细胞、血管及免疫细胞共同构成,其复杂性在于不同区域的细胞和基因表达模式具有显著差异。尤其是肿瘤-间质边界(Tumor-Stroma Interface),这一过渡区域的基因表达梯度对肿瘤侵袭和转移具有重要意义。然而,由于传统空间转录组学数据的分辨率和稀疏性,捕捉这一区域的连续变化一直是科学研究的难点。
GASTON的引入,为研究肿瘤-间质边界的基因表达梯度提供了全新的方法。通过在结直肠癌组织切片中的应用,GASTON成功构建了肿瘤-间质边界的等深度模型。研究发现,关键基因(如COL1A1和ACTA2)在这一边界区域呈现出显著的表达变化,这些基因的高表达不仅标志着活跃的纤维母细胞活动,还与肿瘤细胞的浸润能力密切相关。此外,GASTON解析出的基因梯度还揭示了肿瘤细胞向间质浸润的路径,为进一步研究侵袭机制提供了新的方向。
EMT相关基因在侵袭性肿瘤中的新发现
上皮-间质转化(Epithelial-Mesenchymal Transition, EMT)是肿瘤细胞获得侵袭性和迁移能力的关键过程。GASTON在分析结直肠癌样本时发现,EMT相关基因(如VIM和SNAI1)沿肿瘤-间质边界的梯度呈现出逐渐增强的表达趋势,这与肿瘤侵袭能力的增强相一致。
此外,GASTON的高分辨率解析能力揭示了一些此前未被关注的EMT相关基因。例如,研究发现,标志基因TWIST1在侵袭性肿瘤细胞的聚集区域表达显著升高,而这一发现通过免疫组化染色进一步得到验证。这表明TWIST1可能在推动肿瘤细胞侵袭和迁移中扮演重要角色。
此外,GASTON还揭示了EMT相关基因与细胞间信号分子的协同作用。例如,研究发现,在肿瘤边界区域,EMT基因的表达与细胞因子TGF-β通路的活性高度相关。这一协同作用可能通过调控肿瘤细胞与周围间质的相互作用,进一步促进肿瘤扩散。
肿瘤代谢活动与氧气梯度的空间关联
肿瘤代谢重编程是肿瘤生长和存活的关键机制,而氧气梯度在肿瘤代谢活动中扮演着核心角色。通过分析肿瘤组织内的等深度模型,GASTON精确捕捉到了代谢相关基因的空间分布。研究发现,低氧区域(hypoxic region)中,HIF-1α相关基因(如LDHA和PGK1)的表达显著升高,表明这些区域的肿瘤细胞已经启动了糖酵解途径以适应缺氧环境。
此外,GASTON揭示了肿瘤细胞代谢活动的空间异质性。例如,在高氧区域,氧化磷酸化相关基因(如NDUFA1和COX4I1)的表达水平显著高于低氧区域。这种空间异质性不仅反映了肿瘤细胞对环境的适应能力,也可能成为未来治疗靶点。
研究还发现,氧气梯度与肿瘤侵袭的关系尤为密切。在肿瘤边界区域,低氧相关基因的表达与EMT基因的活性呈正相关。这一发现表明,缺氧可能通过促进EMT过程,增强肿瘤细胞的侵袭能力。这些结果为进一步探索肿瘤代谢与侵袭的交互作用提供了新线索。
GASTON的潜力与应用前景
GASTON的成功不仅限于当前研究中所展示的小鼠大脑、嗅球和结直肠癌,它的“等深度”模型在其他复杂组织中同样具备广阔的应用潜力。许多组织的空间特性都具有显著的连续和离散模式,例如发育中的器官、病理状态下的肝脏或肺组织,以及神经系统的其他区域。
例如,在肝硬化研究中,肝小叶内基因表达的连续梯度和纤维化区域的离散分界对理解病理过程至关重要。GASTON能够通过等深度解析这些区域,进一步揭示纤维化相关基因(如COL1A1和TGF-β)在空间上的作用。此外,对于胎盘的发育研究,GASTON可以捕捉母胎界面的基因梯度,为母胎信号交流提供新的视角。这些应用场景表明,GASTON在各种复杂组织中的潜力巨大,能够为多种生物学研究带来突破性进展。
精准医学中的数据分析价值
精准医学的核心在于通过个性化数据来指导诊断、治疗和预防,而空间转录组学为其提供了重要的基础。GASTON通过对基因表达空间模式的高精度解析,可以在多个方面为精准医学贡献力量:
疾病分型:GASTON可以通过解析肿瘤微环境中的基因梯度,帮助区分不同亚型的癌症。例如,在结直肠癌研究中,GASTON发现的肿瘤-间质边界基因梯度可能为肿瘤侵袭性分型提供新标志。
靶点发现:通过识别特定区域中高表达的关键基因,GASTON能够帮助研究人员挖掘潜在的药物靶点。例如,在低氧区域检测到的HIF-1α信号通路相关基因,可能成为抗缺氧治疗的靶点。
治疗响应评估:GASTON可以通过对治疗前后基因表达模式的对比分析,评估治疗干预对特定区域的影响,从而优化治疗方案。
在肿瘤治疗、器官移植以及慢性病的精准管理中,GASTON的空间解析能力有望成为精准医学数据分析的重要工具,为临床决策提供强有力的支持。
深度学习与生物学研究的融合趋势
GASTON的成功标志着深度学习与生物学研究融合的一个重要里程碑。近年来,深度学习的快速发展为大规模数据分析提供了强大的算法支持,而生物学的复杂问题则为这些技术提供了丰富的应用场景。从单细胞RNA测序到空间转录组学,再到影像组学,深度学习正在将生物学研究从以实验为主导的探索模式转变为数据驱动的发现模式。
未来,这一融合趋势将进一步深化。例如,通过与三维成像技术(如单分子定位显微镜和光片显微镜)的结合,GASTON可以扩展至三维组织的空间解析,从而更加全面地揭示基因表达在空间上的动态变化。此外,GASTON的算法框架还可以与时间维度相结合,用于研究发育生物学中的动态过程或疾病进展中的关键时间节点。
与此同时,深度学习的透明性和可解释性仍是挑战之一。GASTON通过引入等深度模型和隐藏层可解释性,为这一问题提供了有效解决方案,并为未来算法的改进指明了方向。随着更多学科间的合作,深度学习与生物学的融合将推动生命科学进入一个全新的数据驱动时代。
GASTON展示了深度学习在生物学中的巨大潜力,它不仅为复杂组织的空间解析提供了全新的方法,还为精准医学和跨学科研究开辟了新方向。从大脑到肿瘤,再到更广泛的组织类型,GASTON在未来生命科学研究中的应用前景令人充满期待。这种算法与数据、数学与生物学的深度融合,将为人类破解生命奥秘提供更多可能性,也将推动医学与科学的边界不断向前延展。
参考文献
Chitra U, Arnold BJ, Sarkar H, Sanno K, Ma C, Lopez-Darwin S, Raphael BJ. Mapping the topography of spatial gene expression with interpretable deep learning. Nat Methods. 2025 Jan 23. doi: 10.1038/s41592-024-02503-3. Epub ahead of print. PMID: 39849132.