全球首个!《柳叶刀》又见中国研究 AI医疗监管变革近了吗?

时间:2021-08-19 12:33:14   热度:37.1℃   作者:网络

文|王玉玲

「一切顺利,最少三年。」这句行业热梗,勾勒出当前人工智能(AI)医疗器械「监管严」、「拿证难」的问题。

「难」,在于临床试验时长和花费。据雷锋网报道,人工智能医疗器械注册检验需时3到6个月,费用在10万以内;临床试验需时8到18个月,费用在50到200万。此外,注册审评需时3到6个月。

某企业向健康界表示,因为统计方式不同,花费可能更加巨额,「何止几百万,三类证的临床试验,基本千万起。」

改变现状、改变人工智能医疗器械监管方式的新思维,已经隐现。

7月27日,《柳叶刀-数字健康》(影响因子24.519 )刊发全球首个眼科多病种人工智能真实世界研究。

论文第一作者、中山大学中山眼科中心主治医师林铎儒告诉健康界,该项目为国家科技部认定的国家重点研发计划「数字诊疗装备研发」试点专项。据悉,该研究基于多疾病标签网络,训练出眼底疾病综合智能诊断专家—CARE,CARE的真实世界验证在全国28个省市的35家医疗机构的真实临床场景中进行,包括8家三级医院、6家社区医院和21家健康管理中心。

「我们建议,将真实世界证据用于有关新医疗器械产品的临床评估和监管决策。」林铎儒认为,他们的这一建议一旦被采纳,或将开辟医械行业新局面。

The Lancet Digital Health在线发表

美国明星产品在泰国翻车

故事还得从谷歌的一起「翻车事件」说起:

近年来,眼底摄影在筛查和检测视网膜疾病中的作用日益凸显。通过视网膜检查,能够检测出全身性疾病,例如糖尿病、高血压、年龄相关性黄斑变性等。

特别是糖尿病视网膜病变,一项对多个国家的统计显示,约5%的失明患者,是因为身患糖尿病性视网膜病变导致。定期筛查,对于治疗该病,至关重要。

但现实困难重重。据《自然》杂志报道,对于美国的约3000万糖尿病患者,以及全球的约4亿多糖尿病患者,这似乎是个无法克服的挑战——每年只有一半的糖尿病患者,会按照建议检查眼睛。

瓶颈出在眼科医生的短缺上,这些专科医生需要全面的培训和特殊设备。这在中低收入国家尤为严重,印度只有1.5万名眼科医生,要为约7000万糖尿病患者服务。

而将人工智能添加到眼底摄影,或许能实现视网膜疾病的大规模、低成本检测和监测,提高速度和准确性。

这一度在产业界掀起了「影像热」,各方资本纷纷押下重注。

2018年4月,美国食品和药物管理局(FDA)批准了名为IDx-DR的人工智能糖尿病视网膜病变检测系统。该软件的原理是,将眼底照片上传,通过人工智能诊断,就可以判断是否有眼科疾病。

IDx-DR是全球第一个获得FDA批准,可独立检测、而不需要医生解释结果的人工智能设备。

通过对美国900名糖尿病患者的临床试验,结果显示,IDx-DR正确检测到糖尿病性视网膜病变的准确率为87%,正确识别无病患者的准确率为90%,准确度可以媲美专业医师。

这也是机器学习被首次应用于医疗AI系统。

但这项划时代的技术,在泰国的小诊所吃了败仗。当谷歌系统(非IDx-DR,为谷歌的人工智能糖尿病视网膜病变检测系统)部署在泰国11家小诊所后,系统出现了「水土不服」,诊所中 21% 的眼底照片无法识别,大多数无法给出明确的结果。

在部署系统的11家诊所中,只有2家具有满足条件的影像室,而由于医院的光线环境经常不利于拍摄,21%的图像由于低于一定质量阈值,会被系统自动拒绝,而这些被系统「拒绝」的患者,得另选时间找眼科医生重新诊断。

此外,由于需将照片上传到云端进行处理,而多数诊所的网络连接不够理想,有护士和患者因此得等待多时。一位护士在事后调研中表示,「有人从早上6点开始就在这里排队了,但我们这2个小时只检测了10个病人。」

「真实的使用场景,和产品设定场景不一样。设定场景里,临床试验、数据集里的样本都是事先挑选好的;但进入到真实世界里,比如在厦门做基层筛查,村民们最大的质疑不是算法,不是模型,而是听不懂普通话、医生不会拍。你可以说这跟产品无关,但其实有关。」鹰瞳首席医学官陈羽中向健康界描述了产品场景和真实场景的差异。

在宣告失败后,谷歌研究团队表示,在引进新技术时,规划者、政策制定者和技术设计者都没有考虑到复杂的医疗项目在落地过程中会出现的问题,但其实人们的动机、价值观、职业身份,以及他们的工作现行规范等社会因素,都会严重影响到技术落地的效果。

近年来,医学人工智能已经普遍进入临床验证,但针对筛查眼底疾病的深度学习系统(DLS)实际性能的研究却不多。这成为中山大学中山眼科中心林浩添团队,开展多中心真实世界研究的直接因素。

谷歌的失败案例,让林浩添团队进一步明晰了该项研究的理念。「产品最终还是要用到临床真实环境中,如果说都用挑选过的病人、调整过的数据,去做模型训练和测试,把它放到真实世界去用,肯定差异很大,鲁棒性、泛化性都会有明显下降。」林铎儒说道。

(编者注:鲁棒性,指在异常和危险情况下系统生存的能力;泛化性,指算法模型对未知数据的预测能力。)

林浩添团队采用基于多疾病标签的单个卷积神经网络架构,训练出可以识别14种常见眼底异常的眼底疾病的智能诊断软件CARE,其中包括全身性疾病的两种眼部表现(糖尿病和高血压)。该团队特别强调,研究采用的架构,相对于单疾病标签的二分类网络集合架构,准确率和效率更高,消耗的计算资源更少。

从来自三级医院、县级医院、社区医院和健康体检中心等具有不同疾病特征人群的医疗机构,搜集来的超过26万张眼底彩照,被投入该模型进行真实世界研究。林铎儒表示,选入机构的多样性、疾病类型的多样性是本次研究的特点之一,既有复杂性疾病,也有亚健康人群。

多标签神经网络

企业:翘首以盼

医学的任何进步,都需要建立在科学论证与同行评议的基础上。该项目是由林浩添教授团队联合鹰瞳Airdoc、广东省医疗器械质量监督检验所等共同完成。

省级监管部门的加入,延伸了协作链条,形成了从临床问题发现、智能筛诊模型的研发到临床应用的医、研、产、管全链条协作模式。

本次研究公布后,获得了国内外一些学界人士的认可。中国医药教育协会临床研究中心冯珊告诉健康界,该项目探讨了真实世界研究与临床试验对于测试人工智能医疗器械软件性能的有效性与可靠性,并为人工智能医疗器械审批「老大难」提出了新的解题思路。

何谓「老大难」?

人工智能医疗器械,虽然以计算机工程评价体系作为底层支撑,但应用于医学,还需要完整的医学证据,有完善的医学逻辑支撑,才能形成临床指南,进而推动临床应用。

中国医疗人工智能产品的临床试验,与传统医疗器械类似。根据国家药品监督管理局医疗器械技术审评中心于2019年发布的《深度学习辅助决策医疗器械软件审批要点》,二类医疗器械有临床豁免目录,需要开展临床评价;三类医疗器械需要临床试验。

开展临床试验,对于企业拿证是必选项,难度不小。有业内人士曾对媒体表示,医疗器械审批最大的不确定性,在于注册检验和临床试验。因为这两项工作不是企业自己能控制的,还取决于检测所和临床实验单位的配合。任何的沟通障碍或者产品出错,都可能将进度无限期地拖下去。

「人工智能医疗产品的标准化检测工具方法,在中国乃至全球都属于探索阶段。」陈羽中说道。受访的多位知情人士向健康界透露,人工智能软件类医疗器械软件过评的难点,一方面在于临床试验周期长,花费大;另一方面在于缺乏标准数据集。

此前,浙江省医疗器械审评中心的专家曾撰文称,对比上述美国影像类人工智能辅助诊断软件的上市途径和临床评价特点,我国从业人员在临床评价时存在诸多困难,如缺乏对临床影像标注的标准、同类产品临床对比数据较难获取、尚未有统一的产品标准、产品性能泛化能力弱等。

为了推动人工智能在医疗行业的落地应用,国家药品监督管理局自2018年起开始发布一系列相关文件,涉及分类目录、审批要点、绿色通道等,促进标准化单位落地:

尽管相关政策在密集推出,但跟人工智能医疗器械的飞速发展相比,政策落实和技术发展仍有差距。

「器械申报拿证流程卡在这里:人工智能医疗器械发展比较快,医疗器械要获批,需要中国食品药品检定研究院标准数据来检验模型。但现在智能器械研发比较快,只有部分病种建立了标准数据库,可以验证能力。对于其他病种,没办法检验。」林铎儒说道。

那么,企业端对用真实世界研究作为临床实验替代或补充,怎么看?健康界向多家企业问询。

答案略有争议,但总体是期盼、向往。

「真实世界研究最主要的价值,在于对临床验证的替代。我们在2018年铺了几百家医院,2019年发现,还缺临床验证,就跟医院开展了大量的临床验证。当时唯一的价值,就是在某学会发表论文。如果未来这样的成果能用于器械注册评审,公司会很有动力。」某企业负责人对健康界说道。

「作为医疗器械,人工智能器械不属于有创检查,也不会干预患者治疗。」冯珊表示,采用既往历史患者图像来验证算法,以真实世界证据对算法和人工智能器械进行评价优化、批准上市,可行,「我个人认为,该项目的研究思路,国家对于人工智能医疗器械软件的管理思路,从这个项目开始都有标志性提升。」

国家药品监督管理局会否「接招」?

从政策进程来看,真实世界证据对于医疗器械审批只是「加成」「可选项」,尚未成为「必选项」,但已有「唱主角」的苗头。

国家药监局医疗器械技术审评中心资深审评员卢红此前曾表示,真实世界数据作为医疗器械临床评价可能的数据来源,具有数据资源丰富、研究结果的外推性可能较好、可获得长期临床结局数据等特点,将真实世界数据用于医疗器械临床评价,可以和现有的传统的临床试验互为补充,共同促进医疗器械的监管和决策。

根据国家药品监督管理局于2020年发布的《真实世界数据用于医疗器械临床评价技术指导原则(试行)》,基于真实世界数据形成的真实世界证据,可支持医疗器械全生命周期临床评价,涵盖上市前临床评价,及上市后临床评价。

但是,质疑声也随之而来。「如果没有经过定义,从海量的真实世界数据中,你可以得到任何你想要得到的结论。」某企业负责人向健康界表示。

对此,结合本次研究,陈羽中回应,对于真实世界研究,首先,必须要经过相关前瞻性真实世界研究机构备案;其次,要提供完整的研究方案,并不是只要真实世界,就能称为真实世界研究;最后,真实世界证据的生成需要先做定义,有定义才有成果。

在本次多中心研究中,林浩添团队也对真实世界研究的标准进行了探索。一方面,在综合考虑教科书、文献报道和视网膜专家经验的基础上,通过彩色眼底照片诊断视网膜异常,总结了 14 种视网膜异常的定义或判断依据,作为评分者的参考。

另一方面,由40 名中国眼科医生(每人都拥有超过 5 年的临床经验)和 6 名视网膜专家(每人拥有超过 10 年的临床经验)参与注释。每张眼底照片,随机分配给3名上述眼科医生进行注释; 如果在之前的讨论中出现任何分歧,则由3位视网膜专家进行专家仲裁,借此构建了类RCT金标准的评估模型。

「监管部门对于使用真实世界研究支持人工智能医疗器械软件上市是非常审慎的。」西安交通大学第一附属医院网络信息部副部长蔡宏伟对健康界表示,如果要将真实世界研究纳入证据支持体系,需要考虑多项因素,比如数据质量、分析方法、监管框架、结果的可重复性等。

2020年1月,《真实世界证据支持药物研发与审评的指导原则(试行)》发布,2020年11月,《真实世界数据用于医疗器械临床评价技术指导原则(试行)》发布,这些指导原则,为真实世界研究“支持药物及医疗器械上市”提供了基本的管理依据。

他补充道,真实世界研究是传统随机对照试验(RCT)的有益补充,它可以纳入更大量以及更具代表性的人群,进行更长期的观察,节省大量的临床试验费用。

但是,真实世界研究涉及到的影响因素非常多,且复杂,所以选择偏倚、混杂偏倚等影响难以完全消除。因此,真实世界研究支持「药物及医疗器械上市」,多应用在不适合开展RCT研究(如伦理学因素,或者罕见病等情况)的情况下。

某企业负责人也向健康界表示,真实世界研究应用于医疗器械,可以参考药物体系,对数据证据进行分级。同时,真实世界证据的应用,还要考虑整体框架,「是用静态框架,还是动态框架?是以风险管控为主导,还是以动态管控为主导?」

2021年3月,国家药监局批准美国艾尔建公司「青光眼引流管」的注册。这是国内第一个通过真实世界数据获批上市的医疗器械产品。同时,真实世界相关法规也在加速推进:

「加速跑」,碰上「问题多」。

人工智能医疗器械的监管与审批,亟待破局。

参考资料:

1.《大数据文摘》—谷歌人工智能「翻车」泰国!眼疾检测实验室准确率达90%,小诊所传张照片就得等两小时

2.健康界—9项人工智能医疗器械拿到三类证!中美审核政策有何不同?

3.《中国医药报》—卢红:真实世界数据用于医疗器械临床评价

4.《The Lancet Digital Health》 —「Application of Comprehensive Artificial intelligence Retinal Expert (CARE) system: a national real-world evidence study」

5.雷锋网—在医疗人工智能里「集体哑火」的BAT

6. 谷歌发布相关产品落地反馈报告链接:

https://dl.acm.org/doi/abs/10.1145/3313831.3376718)

来源:新浪医药。

上一篇: Nat Commun:揭示GOT1抑制促...

下一篇: 医药新政下 行业生变


 本站广告