隐私泄露风险之下,中山大学团队为患者戴上防窥假面
时间:2022-10-13 15:56:29 热度:37.1℃ 作者:网络
医疗记录数字化的程度正随着信息科技不断介入医疗领域而水涨船高,然随之而来的数据泄露风险则让一部分人在推进医疗信息化的进程中迟疑却步。尤其是像面部图像这种数据,在提供大量识别疾病线索的同时,也提供了患者个人基本信息如性别、种族、年龄等生物特征,难以做到完全匿名。常规的模糊和裁剪方法则不但有丢失重要的疾病相关信息的可能,也仍然避不开人脸识别系统对患者身份的辨认。
而新冠疫情的大流行也使得远程诊断的需求量激增。就拿眼科疾病的远程诊断来说,患者将不可避免地要提供大量的面部信息。“患者会想知道他们的敏感信息是否安全,隐私能否得到保护。”中山大学中山眼科中心教授林浩添说。
为此,林教授团队基于3D重建和深度学习算法开发了一种名为“数字面具”(digital mask)的新技术。它能够在擦除可识别特征的同时,保留诊断所需的疾病相关特征。2022年9月15日,研究成果“A digital mask to safeguard patient privacy” (图1)发表于Nature Medicine[1]。研究结果表明,在保证诊断的前提下,数字面具能够阻止医生甚至人脸识别AI识别患者身份,这既保护了患者的隐私,也进一步提升了人们分享健康数据的意愿,将有利于医疗数据更好地用于公共医学研究。
图1 研究成果(图源:[1])
01 深度学习提取面部特征,3D重建生成数字面具
与以往面部重建方法不同,本项研究针对眼科诊断这一实际需求,加强了眼部的重建。重建过程中利用深度学习提取得到的面部不同部位特征,数字化了3D面部、眼睑和眼球的形状与运动信息。面部、眼睑和眼球各自拥有独立的预定义参数模型。其中,面部模型为双线性模型,面部网格Mf由形状矢量wfs和运动矢量wfm表示。眼睑模型与面部模型类似,由眼睛形状矢量wes和眼睛运动矢量wem来表示详细的眼睑信息Me。眼球的重建则使用了团队之前研究的简化几何与外观眼球模型(simplified geometry and appearance eyeball model,SGAEM),将眼球近似为球体,并用眼球半径、虹膜半径、相对面部位置等三个参数表示静态特性,极坐标中旋转角度表示动态特性。以上这些参数均通过从RGB空间提取的二维面部标志L face、二维眼睑标志Leyelid、虹膜标志Liris来进行估计(图2)。
图2 数字面具系统的开发(图源:[1])
数字面具开发完成后,研究团队在2020年5月到2021年9月期间通过分析405名参与者的数据进行了模型适用性的评估。参与者包括:(1)100名斜视科门诊患者;(2)92名小儿眼科门诊患者;(3)102名甲状腺相关眼眶病(thyroid-associated orbitopathy,TAO)科门诊患者;(4)111名眼整形科门诊患者。平均归一化像素误差在眼球重建和眼睑重建中分别为0.85%,0.81%,0.82%,1.00%,和1.52%,1.24%,1.52%,1.61%(图3),均处于较低水平且保持稳定,表明数字面具的重建是精确的。
图3 数字面具的定量评估(图源:[1])
02 在患者隐私特征和疾病诊断特征之间,数字面具做到了正确的取舍
研究团队随后邀请了四个科室各3名共12名眼科医生,依据原始视频和经数字面具覆盖后的视频,对各自科室的患者进行诊断。如果医生对于原始视频和数字面具覆盖视频的诊断是一致的,则能证明数字面具在临床应用中具备潜力。Cohen Kappa系数显示出了高度的一致性:双眼的斜视、上睑下垂、眼球震颤的k值在0.845和0.924之间,而右眼TAO的k值为0.801。原始视频和数字面具覆盖视频的诊断准确性在所有配对的比较中都具有可比性。
在比较数字面具和裁剪处理对患者面部图像的身份隐藏能力的研究中,研究团队要求受访者根据数字面具重建图像或裁剪图像,要从五个原始图像和一个“其他”选项中,找到对应的原始图像(图4)。结果表明,依据数字面具重建图像做出判断的受访者正确率为27.3%,而根据裁剪图像判断的受访者正确率高达91.3%。这说明相比裁剪处理,数字面具能有效地隐藏患者身份信息。当然,相比于实际情形,该测试的情境设置会导致正确率偏高,因为受访者一般需要在远大于5人的范围内去辨认患者身份。
图4 数字面具的临床验证(图源:[1])
03 隐私得到保障后的慷慨
为了评估患者在数字面具使用期间的面部图像分享意愿,研究团队随机抽取了317名门诊患者参与实证调查。研究团队要求参与者观看上传的原始视频和数字面具处理后的重建视频,并完成关于使用意愿的调查问卷。问卷包含健康支持、隐私顾虑、对医生和医疗平台的信任、数字面具的使用和信息分享意愿五大方面,并假设健康支持、隐私顾虑、数字面具的使用将通过影响患者对医方的信任程度进而影响信息分享意愿(图5)。结果表明,80%的参与者怀有隐私顾虑,尤其是那些患有带面部症状的疾病的参与者。而数字面具对患者提高对医生的信任存在正面影响(β=0.348,P<0.001),分享信息的意愿也就随之提高(β=0.503,P<0.001)。
图5 患者分享个人健康信息意愿的实证调查(图源:[1])
04 技高一筹,数字面具具备规避AI识别的能力
研究人员选择了FaceNet、CosFace、ArcFace等三个著名的深度学习系统对数字面具进行人脸识别攻击。在测试中,要求人脸识别系统在给定一个查询图像的情形下,将该图像与405名患者的数据库图像进行匹配。查询图像可能是患者视频的原始图像、裁剪图像或数字面具重建图像。结果表明,以原始图像进行查询,人脸识别系统能够轻而易举地匹配正确身份;裁剪图像则有限地降低了这种能力;而数字面具重建能使人脸识别系统几乎不能识别正确的身份(图6)。这证明数字面具技术在隐私保护方面具有巨大优势。
图6 使用AI重识别算法验证数字面具的可靠性(图源:[1])
相比于当前简单粗暴但广泛使用的裁剪或条形覆盖处理,数字面具是一种更为复杂的手段,且不容易受到模型反演和重建的攻击。其获取的定量参数(如眼球旋转程度、眼睑形状参数、眨眼率和旋转频率)将有望在未来进一步给智能疾病诊断或疾病与面部特征关系的研究中提供线索,对于远程医疗的助益也使得该项技术能够更好的推动医疗保健服务的进步。当然,本项研究中仍然存在一些局限性,如模型容量不足,无法对结膜充血、眼睑水肿和组织异常生长等情况进行重建;其次,当患者视频遭到曝光,数字面具的防识别功能可能失效;第三,仍存在被攻击的潜在风险。
参考资料:
[1]Yang, Y., Lyu, J., Wang, R. et al. A digital mask to safeguard patient privacy. Nat Med (2022). https://doi.org/10.1038/s41591-022-01966-1