Bioinformatics:突破数据孤岛!联邦学习在多机构遗传变异分析中的有效性验证

时间:2025-10-25 12:14:49   热度:37.1℃   作者:网络

罕见疾病虽单病种患病人数少,但全球约5%人口受其影响,其中约70%由遗传因素导致,主要源于生殖系DNA变异,如单核苷酸变异(SNV)或拷贝数变异(CNV)。全基因组测序已成为罕见病诊断的一线手段,但个体基因组中约五百万个变异的致病性评估极具挑战,目前仅约40%患者可获明确分子诊断。监督机器学习在变异致病性预测中展现出潜力,依赖ClinVar等注释数据库训练模型。然而,因隐私与伦理限制,这些数据库仅涵盖少量已知致病变异,尤其在非编码区和超罕见变异中数据稀缺,导致模型泛化能力受限。

数据共享受《通用数据保护条例》(GDPR)和《健康保险携带和责任法案》(HIPAA)等法规严格限制,以防遗传歧视与信息泄露。联邦学习(Federated Learning, FL)为此提供新路径:数据保留在本地,通过交换模型参数而非原始数据实现协作训练。中央服务器协调多个客户端(如医院),分发模型、收集本地更新并聚合为全局模型,循环迭代直至收敛。该方法已在基因组关联研究(如sPLINK)和疾病风险预测中验证有效性,性能接近集中式模型。

本研究首次评估联邦学习在遗传变异致病性注释中的应用潜力。利用ClinVar数据库提交者信息,模拟三种多机构协作场景:编码SNV、非编码SNV和缺失型CNV。数据按时间分为训练集(2020或2021年前)与独立测试集(之后),构建多个非重叠“数据孤岛”,体现真实世界机构间数据分布不均。编码与非编码SNV分别有6和8个机构参与,CNV则高度集中于单一机构(占90%)。

特征工程方面,SNV注释60个特征,包括五核苷酸序列、多物种PhyloP保守性评分等;CNV注释38个基于基因与区域的特征,涵盖基因约束、调控元件、网络拓扑等。采用多层感知器(MLP)和浅层神经决策森林(sNDF)作为模型,比较FedProx、FedAdagrad、FedAdam和FedYogi四种聚合算法,并探索客户端参与率与批量归一化的影响。

 

图1:联邦学习训练的一般概述

结果表明,FedProx整体表现最优,50%客户端参与率提升泛化性能,而本地批量归一化反而降低效果。在编码与非编码SNV任务中,联邦学习模型性能与集中式相当甚至更优(P<1.5e-05),显著优于多数单机构模型,显示其降低数据孤岛风险的能力。CNV因数据高度集中,最大客户端模型领先,但小机构通过联邦学习仍可获得具竞争力的结果。

进一步分析显示,联邦模型对客户端退出更具鲁棒性,表明其泛化所需数据量更小。Spearman相关性分析揭示,集中式与联邦模型评分高度一致(编码/非编码SNV:ρ=0.92–0.97;CNV:ρ=0.82–0.87),说明两者学习到相似规律。UMAP与随机分区实验表明,SNV数据近似同分布,而CNV存在非同分布特征,但联邦学习优势主要源于跨子集迭代训练的稳定效应,而非数据异质性。

研究还发现,即使在可集中数据的场景下,模拟联邦学习可能通过模型平均效应提升性能,尤其在简单模型(如MLP)中更显著。这提示联邦学习不仅保护隐私,或可作为一种正则化策略增强模型泛化。

图2:实验中考虑的机构训练数据分布

 

图3:两个独立测试集上本地、集中式和联邦MLP模型的性能

本研究为联邦学习在临床基因组学的应用提供了概念验证,表明其可在保护隐私前提下实现高效协作建模。未来需拓展至电子病历、影像等多模态数据,并纳入祖先多样性控制。同时,应结合差分隐私或同态加密以抵御模型反演等攻击,确保真实环境下的安全性。尽管基于ClinVar存在表型信息缺失与人群偏倚局限,但成果为构建全球协作、公平可及的罕见病诊断体系奠定了方法学基础。

原始出处:

Bioinformatics, 2025, 41(10), btaf523. https://doi.org/10.1093/bioinformatics/btaf523

本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。

上一篇: Adv Sci 郑大一附院许予明教授团队...

下一篇: Japan研究建议:如此运动,能将抗衰效...


 本站广告