基于生信分析新算法筛选肺动脉高压潜在生物标志物

时间:2021-12-11 10:01:31   热度:37.1℃   作者:网络

根据世界卫生组织(WHO)的肺动脉高压(PH)分类,由肺血管疾病引起的肺动脉高压(PAH)是PH的第一类。PAH的临床症状主要包括乏力呼吸困难、胸闷、胸痛、晕厥和右心衰竭。据统计,全世界每百万人中就有 11-50 人患有 PAH。常见的PH类型包括特发性PAH (IPAH)、遗传性PAH (HPAH)、药物和毒物相关的PAH、疾病相关的PAH、具有长期钙通道阻滞剂的PAH、肺静脉/毛细血管受累的PAH和持续性 PH新生儿 PAH。

目前,PAH的诊断包括多普勒超声心动图的初步筛查,然后通过血流动力学诊断对患者进行分类,以及通过通气/灌注扫描和夜间血饱和度测定进行病因诊断。治疗前应对PAH患者进行风险分层,以评估严重程度。不同类型和严重程度患者的治疗措施往往有所不同,主要包括一般措施(康复训练、疫苗接种、避孕等)、支持治疗(抗凝、利尿等)以及针对PAH相关4种分子通路的特异性治疗。然而,这些治疗只能延缓疾病进展,而不能完全治愈。随着PAH诊断技术和治疗方法的进步,患者的1年和3年生存率显着提高。然而,美国 2001-2012 年对 PAH 患者的调查显示,尽管 PAH 相关住院人数有所减少,但住院死亡率保持不变,治疗费用大幅增加。因此,寻找一种高效、经济的诊断方法,有助于解决当前面临的问题,提高人们对PAH发病机制的认识。

由于测序技术的逐渐成熟,基因测序在PAH研究中得到了广泛的应用。一项研究分析了肺组织的基因表达谱,发现有和没有 PH 的肺纤维化患者基因表达的不同特征。除肺组织外,研究 PAH 患者外周血的基因表达谱也具有重要意义。通过机器学习方法构建基于患者基因表达数据的疾病分类器是近年来的热点。目前,机器学习已广泛应用于心血管疾病的临床诊断,如冠状动脉钙化评分。关键 mRNA 和传统诊断方法的整合可能会提高后者的准确性。在这项研究中,我们假设健康人和 PAH 患者在基因表达水平上具有不同的特征。从基因表达综合(GEO)数据库下载健康人和PAH患者外周血基因表达数据集。应用支持向量机-递归特征消除(SVM-RFE)机器学习算法筛选可以识别健康人和PAH患者的特征基因。然后,通过受试者工作特征(ROC)曲线分析基于特征基因的 SVM 分类器的诊断性能。最后,在收集的临床样本中测试基因表达。本研究中的特征基因可用于诊断和作为潜在的生物标志物,

数据来源及技术路线

GSE33463数据集的基因表达数据于2020年4月4日从GEO数据库(http://www.ncbi.nlm.nih.gov/geo)(平台编号:GPL6947)访问。本研究使用了 41 名健康样本和 72 名 PAH 患者的基因表达数据。72 名 PAH 患者包括 30 名 IPAH 和 42 名系统性硬化症相关的肺动脉高压 (SSc-PAH)。在前面的背景下,本研究的技术路线如图1所示。

图 1,本研究的技术路线。

SVM-RFE分析

SVM-RFE 是一种后向特征消除方法。首先,将所有输入特征作为特征集F。基于SVM算法建立分类器模型,并使用留一法交叉验证(LOOCV)验证模型性能。同时,重量| 瓦| 根据 SVM 分类器超平面上的支持向量计算特征集 F 中每个特征基因的数量。在下一轮SVM-RFE训练中删除权重排在最后的特征基因,剩余的特征基因构成新的特征基因集,在下一轮训练中重新排序。重复该步骤,直到特征基因集 F 为 0。使用 python 包sklearn 在 PAH DEG 中对特征基因进行测序和选择。关键参数设置如下:估计器选择linearSVC,内核=“线性”。PAH分类器的性能通过基于混淆矩阵的四个指标进行评估:敏感性、特异性、准确性和MCC。

PAH患者DEGs的鉴定及主要功能模块的筛选

对健康样本和 PAH 样本的基因表达谱进行差异表达分析。总共获得了 110 个 DEG(61 个上调的 DEG,49 个下调的 DEG)(图 2A),然后通过 GO 和 KEGG 富集分析预测其功能。使用 STRING 数据库构建了一个 DEG 的 PPI 网络(交互评分 >0.4)。总共获得了 81 个节点和 300 个交互对(图 2B)。然后,我们使用 MCODE 来筛选 PPI 网络中的前两个主要功能子集(图 2C、D)。在前一个主要功能子集中,TLR7、CXCR4 和 CX3CR1 基因与 PAH 相关。对该亚群基因进行功能富集分析,发现该亚群基因主要富集IL-2产生、I型干扰素信号通路、神经炎症反应、调节胶质细胞迁移(图2E、F))。

图2,PAH 患者的 DEG 和 DEG 功能注释和富集分析。

总而言之,PAH患者与健康人相比,基因表达水平有一定的变化。分析表明,DEGs构建的PPI网络中的主要功能模块可能在免疫相关生物学功能中发挥作用。

使用 SVM-RFE 分析筛选的 PAH 特征基因

为了筛选可用于 PAH 患者诊断和预后预测的特征基因,我们使用 SVM-RFE 筛选了 DEG。当特征基因数=4、107、108、109时,分类器的准确率达到了0.938,如图3所示。随着特征数量的增加,模型的泛化能力下降。因此,最终选择了四个特征基因(EPB42、IFIT2、FOSB 和 SNF1LK)作为最优基因。四个基于基因的分类器的一些数据如下:灵敏度 (0.927)、特异性 (0.944)、准确度 (0.938) 和马修斯相关系数 (MCC) 值 (0.867)。

图 3,SVM-RFE 特征基因选择的结果。

ROC分析和最优特征基因表达

为了进一步验证四个最佳特征基因的诊断性能,我们在这里比较了四个最佳特征基因单独及其组合 SVM 分类器的预测效果。ROC分析表明,四个基于特征基因的SVM分类器的AUC值为0.95,明显高于单独四个特征基因的AUC值(图4A)。基于 GSE33463 数据集分析了四种基因的表达,以探测它们在 PAH 患者中的表达。这表现在图4B-E、EPB42 和 IFIT2 在 PAH 患者中显着高表达,而 FOSB 显着低表达。健康人和 PAH 患者的 SNF1LK 表达未发现显着差异。从之前的结果来看,四个最佳特征基因的组合显着提高了模型的诊断性能。此外,EPB42、IFIT2 和 FOSB 的表达水平在健康人和 PAH 患者之间存在显着差异。

图 4,ROC分析和最优特征基因表达。

临床样本中最佳特征基因表达的验证

通过收集临床样本,进一步验证了PAH患者外周血单个核细胞中最优特征基因的表达。分析表明,在 PAH 患者中,EPB42 和 IFIT2 的表达显着上调,而 FOSB 和 SNF1LK 的表达显着下调(图 5A-D)。结果与 GSE33463 数据集中的分析结果一致。

图 5,验证临床样本中最佳特征基因的表达。

研究启示

近年来,通过确定组织或血液中的特定疾病生物标志物来评估患者预后或治疗效果的个性化医疗越来越受欢迎。将该方法应用于疾病诊断是可行的。例如,曾等人证明,通过分析肺组织的 mRNA 测序数据,获得了 IPAH 的四个潜在诊断基因。然而,在实际临床诊断中,血液样本的转录组分析比组织样本的转录组分析更可行。因此,这项工作在GEO数据库中下载了健康人和PAH患者的基因表达谱,并通过一系列生物信息学分析建立了PAH分类器。

 

文献出处:

Shang Z, Sun J, Hui J, Yu Y, Bian X, Yang B, Deng K, Lin L. Construction of a Support Vector Machine-Based Classifier for Pulmonary Arterial Hypertension Patients. Front Genet. 2021 Nov 22;12:781011. doi: 10.3389/fgene.2021.781011. PMID: 34880909; PMCID: PMC8647811.

 

 

上一篇: 慢性血栓栓塞性肺动脉高压的血管受累与肺功...

下一篇: 心胸比又可成为新的指标?可作为 COVI...


 本站广告