40万亿GB的医疗数据,如何助力新药研发?
时间:2019-08-06 16:44:33 热度:37.1℃ 作者:网络
今年5月,国家药品监督管理局药品审评中心(CDE)发布《真实世界证据支持药物研发的基本考虑》(意见稿),意味着“如何将真实世界证据(RWE)纳入到我国药物研发和监管决策中”,开始成为监管层正式思考以及着手推动解决的问题。
一时间,行业热议:“RWE究竟能解决哪些临床问题?RWS要整合哪些数据?RWD采集及处理流程是否留痕可追溯?其数据分析的方法学又是什么?”......
要回答这些直面从监管到落地的“灵魂拷问”,让真实世界证据真正“为我所用”,首先要解决的就是医学数据库的问题。
对此,在7月29日,中国生物统计2019年学术年会上,医疗大数据及人工智能企业零氪科技(LinkDoc)创始人兼CEO张天泽以“我国医学数据库现状和挑战”的议题,给出了来自行业一线探索和实践者的思考和经验分享。
产业需求是真正的驱动力量
“在过去一段时间,有几种力量在驱动着医学数据库的发展。”
首先是“技术驱动”。据IDC Digital预测,到2020年,医疗数据量将达40万亿GB,这是2010年的30倍。在过年十年时间里,医疗信息化迎来大发展,为人类沉淀了大量的“原始材料”,“就像未经冶炼的原油”,而接下来医疗数据化的阶段,是基于海量数据信息化,服务价值输出的关键和必由之路。
其次是“政策推动”。2016年国务院办公厅发布《关于促进和规范健康医疗大数据应用发展的指导意见》,2017年又发布《关于促进“互联网+医疗健康”发展的意见》,再到2018年国家卫健委发布《国家健康医疗大数据标准、安全和服务管理办法(试行)》……简单梳理下来,三年左右时间里,国家累计发布30+政策文件,将健康医疗大数据纳入国家大数据战略布局,加速我国医学数据资源共享利用。
最后,也是最重要的是“需求牵引”。
药品研发与评价、医药营销与流通、商业健康险、辅助诊断与辅助治疗、基因数据分析、医学专业继续教育、临床科研服务、药品监管、公共卫生管理……在医疗的各个领域,数据都可以发挥巨大价值。“医疗数据平台和资源,处于新医疗产业的枢纽位置,在个体化、精准诊疗的时代意义尤其巨大。”
也正在这种强劲需求的牵引下,我国诞生了一些特定功能数据库与特定人群数据库,如医学文献数据库、生物信息数据库、临床医疗数据库、保险支付数据库,等等。
“但产业的需求和牵引,其实才是真正的力量。”
重大疾病药物研究需求的大力牵引
今天,尤其在医药研发领域,这股牵引的力量正拉扯的愈发剧烈。
有数据显示,肿瘤药物I期到III期试验的时间为9.6年,从首次申请专利到上市耗时10.5年,2018年每种肿瘤新药的平均成本达到26亿美元,研发成功率下降至8.0%。
“精准治疗时代的到来,临床试验难度加大,患者入组难度加大,药物研发的时间成本和财务成本显着上升,而且药物适用的患者人群非常细分、离散,临床诊疗难度变高,患者管理难度变大。此外,适应症开发的竞争与商业的竞争,正在成为两个平行的主战场,中长期直接影响商业开发的潜力。”
可以说,重大疾病药物研究需求的快速增加,带来专病数据库的巨大需求。
在美国,ASCO就倡导和推动了北美多个肿瘤RWD数据平台的发展,如CancerLinQ、Flatiron等。国际医药巨头罗氏分别以21亿和24亿美元收购了?Foundation和Flatrion,以推动真实世界数据在医药研发中的应用。从中可见一斑。
我国也一直在积极探索科研级医学数据库的建立。如,中国队列共享平台(China Cohort Consortium),但它的开放程度较低;全国肿瘤登记中心(National Central Cancer Registry),它的数据每年以报告形式来公布,而且不完全以临床研究或者药物经济学研究为目标建立。
整体而言,我国数据库普遍缺乏以患者为中心的全景、长效数据。而可应用于药物研发的专病队列要求病历原件的完整度十分高,病历原件不仅包括院内数据,还有院外数据。院内数据又包括院内信息系统数据以及科室沉淀数据;院外数据则包括院外处方数据以及随访等数据。以NSCLC患者的病历原件为例,需要包涵确诊入院、手术、术后辅助治疗、复发转移、基因检测、1~n线治疗、生存数据等全流程数据。
“患者治病的过程,就像一个孩子在吃面包,面包屑掉了一地,就要跟踪一路把这个面包屑收起来,这样才可能产生高质量科研级数据。”
期待和现实的差距
所以,当真正捡拾起一块块的“面包屑”,拼接完整,价值就是巨大的。
在2018年世界肺癌大会上,法国Brest大学医院的多中心、非干预的回顾性队列研究,评估了真实世界中纳武单抗治疗伴脑转移晚期NSCLC的颅内有效性。研究结果显示,免疫治疗在合并脑转移的NSCLC患者中显示出非常有前景的疗效。
在2019年4月4日,辉瑞乳腺癌新药Ibrance基于真实世界数据,获批男性乳腺癌适应症,震动整个医药界。
看到真实世界数据在医药研发领域的潜力,2019年5月,CDE发布《真实世界证据支持药物研发的基本考虑》(征求意见稿),确定了RWE在罕见病治疗药物、修订适应症或联合用药范围、上市后药物的再评价、中药医院制剂的临床研发、指导临床研究设计、精准定位目标人群等场景中的应用。引发行业热议。
很多人在期待真实世界数据能解决行业的需求和痛点。
“然而……期待和现实,总是有一些差距。”
在理想情况下,应用真实世界数据经过数据提取、模型建立,就直达深度学习、人工智能。而现实是,应用真实世界数据,需要跨过一个个沟沟壑壑,包括需求讨论、提取数据、数据清洗、错失值处理、特征工程、模型评估……
越过沟沟壑壑
如何才能越过真实世界数据应用的沟沟壑壑?
“打造出真实、可信、可用的真实世界临床数据库,需解决病历量大、非结构化、随访困难、行业无标准、安全性等五大问题。”
建立疾病模型是首要的,“给每一个疾病设定一个通用式疾病模型,一个基础模型中有不同的域,每个域里有不同的变量,每个变量要设计出相关的约束。”
接下来,可以利用人工+人工智能相结合的方式,对海量数据进行深度结构化处理,可以数倍、数十倍甚至百倍地提高数据处理速度,大幅度降低数据处理成本,并保障质量。在极为重要的随访数据集成过程中,如零氪(LinkDoc)基于算法分配随访任务,随访数据与临床数据实时打通,患者个人信息脱敏,隐私充分保护,实现全程100%录音,随访成功率达80%+。
“做好数据的结构化、随访,只是起点。”接下来还需要依据国际临床研究CDISC标准 ,建立的数据处理流程,最终使得真实世界原始医疗数据,转化为科研级的标准数据库。
同时,在数据库的应用过程中更要严格遵守“数据物理隔绝,访问权限控制,应用数据分层管理,患者知情授权”的规范化路径。
基于这样的真实世界数据库,数据的价值就可以充分兑现。
高质量的数据库可以应用于大型的临床研究,助力中国癌症新药研发;通过创新的模式,助力创新药开展药品重点监测;建立多中心数据平台,帮助专家在顶级学术期刊上发表高质量的学术文章,等等。
最后,张天泽认为,真实世界数据库是基于临床病历,但远远不止于临床病历。“一个真实、可信、可用的临床数据库,需要清晰的目标、整体的设计、扎实的质量控制,三者缺一不可。”或许也只有这样,才可以回答那些“灵魂拷问”,让真实世界证据真正为临床诊疗、药物研发及医药产业所用,让真实世界研究真正落地。