Bioinformatics:破解数据孤岛难题,PRISM实现跨机构基因组协作的高效隐私计算

时间:2025-10-18 13:41:29   热度:37.1℃   作者:网络

罕见疾病影响全球数百万人的健康与生活质量,如囊性纤维化和某些儿科癌症。然而,由于患者数量稀少,相关基因组数据在各医疗机构中分布稀疏,加之《通用数据保护条例》(GDPR)等严格隐私法规的约束,跨机构的数据共享与协作分析面临巨大障碍,严重制约了科研人员整合大规模数据以识别致病基因变异的能力。

传统隐私保护技术如安全多方计算(SMC)虽可在不暴露原始数据的前提下实现联合分析,但其通常依赖多个非共谋服务器的假设,并伴随高昂的通信开销,导致实际部署中存在延迟高、信任机制复杂等问题。为突破这些限制,本研究提出一种名为 PRISM 的新型隐私保护计算框架,基于全同态加密(FHE)技术,支持在单一云平台上进行跨机构的罕见病变异联合分析,确保基因组数据在整个计算过程中始终处于加密状态,从而在满足隐私合规要求的同时推动罕见病研究的合作进展。

PRISM 的核心创新在于采用阈值全同态加密方案,通过去中心化的密钥管理机制消除对单一可信实体的依赖。具体而言,密钥由一个由多个参与机构组成的“密钥管理委员会”共同生成与持有,任何单个机构均无法独立解密数据,从而在密码学层面实现更强的数据安全保障。

在方法设计上,PRISM 首先将存储于变异调用格式(VCF)文件中的基因型信息转化为数值编码:纯合参考(0/0)编码为 00,致病杂合变异(0/1)为 01,致病纯合变异(1/1)为 10。这些整数随后使用 BFV 同态加密方案进行加密。考虑到基因组数据量庞大,系统采用数据分块策略,并结合单指令多数据(SIMD)技术和多线程并行处理,显著提升计算效率。

针对隐性遗传、显性遗传和新生突变(de novo)三种典型遗传模式,PRISM 设计了两种互补的加密过滤算法:乘法密集型方法与加法密集型方法。

乘法密集型方法通过一系列减法与乘法操作比较加密基因型与目标查询值,最终通过累乘与求和统计匹配变异的数量。

加法密集型方法则通过减少昂贵的乘法运算、增加加法步骤来优化性能,尽管生成的密文体积更大,但通过引入随机值乘法与数据混洗等技术,有效保障了结果的隐私性。

对于新生突变模型,两种方法分别采用累积乘法或累积加法逻辑,验证变异在患儿中存在而在未受影响父母中缺失的模式。所有计算均在密文上完成,仅最终聚合结果在密钥管理委员会的交互式阈值解密机制下被解密并交付给研究人员。

实验部分在谷歌云高性能实例上开展,使用真实数据集,包括六名颅面胸廓发育不良患者的全外显子组测序数据,并通过 VEP 工具注释及过滤,聚焦于罕见且具有高/中等影响的变异。在已知致病基因 TMCO1 的隐性遗传案例中,PRISM 的乘法密集型方法成功从 640 万个变异中准确识别出该致病位点,验证了其在真实场景中的有效性。

图1:示例VCF文件(Danceck等人,2011)

性能对比显示,加法密集型方法在效率上显著优于乘法密集型方法:在隐性/显性模型下,最高实现17倍加速;在新生突变模型下,加速比可达22倍。例如,在处理 160 万变异与 128 个样本时,加法密集型方法仅需 15 秒,而乘法密集型耗时 4 分 14 秒;在 640 万变异与 16 个样本的新生突变分析中,前者仅用 1.5 秒,后者则需 33 秒。同态操作复杂度分析揭示了性能差异的根源。

尽管加法密集型方法生成的密文更大(如 640 万变异时达 805 MB,而乘法密集型为 10.5 MB),但其解密时间仍可控(例如 1.258 秒)。与基于安全多方计算的方案相比,PRISM 在样本数不超过 128 时性能相当,更大规模下 SMC 扩展性更优,但 PRISM 无需计算过程中的跨服务器通信,降低了对网络稳定性的依赖。

此外,通过 256 线程并行化,PRISM 可高效处理数百万级变异;若扩展至 1024 核心,预计可在数分钟内完成 4096 样本与 640 万变异的分析,展现出良好的实际应用可扩展性。

安全性方面,PRISM 的隐私保障建立在 BFV 方案的语义安全性和去中心化信任模型之上。系统假设云服务器为“诚实但好奇”——即正确执行计算但可能试图推断数据内容,而同态加密机制有效抵御此类推理攻击。研究人员仅能获取经委员会审核与捆绑的查询结果,防止对个体基因信息的再识别或越权访问。同时,系统通过自动化脚本过滤偶然发现,剔除与研究无关的已知致病变异,保护患者的“不知情权”。

图:隐私保护协作罕见病分析场景

总体而言,PRISM 是首个基于全同态加密实现多遗传模式罕见病变异分析的隐私保护框架,其创新的加法密集型算法在保持分析精度的同时大幅提升了计算效率,结合去中心化密钥管理机制,将系统安全从政策依赖提升至密码学强制保障,为在严格隐私法规环境下推进基因组协作研究提供了实用、高效且可扩展的解决方案。未来工作将致力于支持更复杂的遗传模型,并进一步优化性能,以促进更广泛的跨机构基因组数据合作。

原始出处:

Akkaya, G., Erdoğmuş, N., & Akgün, M. (2025). PRISM: privacy-preserving rare disease analysis using fully homomorphic encryption. Bioinformatics, 41(10), bta468. https://doi.org/10.1093/bioinformatics/bta468

本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们

上一篇: CGP共识 | 虚拟现实技术应用于肿瘤相...

下一篇: 主编推荐 ‖ 基于全基因组测序的ICU环...


 本站广告