FDA对渤健公司Aducanumab有条件批准,专家激辨!
时间:2021-10-24 15:02:09 热度:37.1℃ 作者:网络
在两项关键III期试验经中期分析后提前终止且外周和中枢神经系统药物咨询委员会一边倒投票反对批准的情况下,今年6月7日,FDA还是给予渤健公司Aducanumab有条件批准(accelerated approval,AA)的决定,使其成为20多年来首个被批准用于阿尔兹海默症的新药。Aducanumab的戏剧性的反转获批也在行业内外引起了巨大的争议。
2021年10月22日,在本次DIA中国药物研发定量科学论坛(QSF)中,有幸邀请了参与Aducanumab审评工作,FDA前临床药理学定量药理部主任,现朗来科技首席执行官王亚宁博士以及南京医科大学生物统计学教授陈峰博士分别从临床定量药理学和统计学两个不同的专业角度就争议点分享各自的观点。
王亚宁博士演讲
王亚宁博士开场表明立场,完全赞同FDA的给出新药批准的决定,并希望通过这个案例,加强多方的合作,并学习如何更好的应用定量药理学和统计学的知识,帮助监管机构做出正确的决策。
首先回顾了Aducanumab的审评历史
Aducanumab审评历史回顾
2014年12月,渤健公司在二期完结会议上和FDA对两个关键3期研究(301和302研究)的试验设计如患者人群,终点和剂量等进行交流讨论。FDA建议渤健公司通过Special Protocol Assessment(SPA)跟FDA达成更加正式的协议。
2015年9月,渤健公司和FDA通过SPA对两个关键3期研究(301和302研究)的试验设计达成一致。
2019年3月,渤健公司基于预先设定的期中无效性分析结果,宣布两项关键3期研究(301和302研究)提前终止
2019年5月,渤健公司在后续对数据进一步分析的过程中,发现之前提前终止的决策做错了,提出和FDA进行进一步的讨论。
2019年6月, FDA和渤健公司召开了沟通会议,在会上FDA听取了企业对已有数据的解释后建议渤健公司不放弃Aducanumab的开发,因为现有的临床数据证据不足以说明该药无效,特别是301最终结果和302结果不一致(301失败,302成功),建议渤健公司对数据进行更进一步的详细分析
2019年10月,FDA看到渤健公司呈现的初步结果后,认为301研究和302研究的结果是可解释的,适合进行额外的考虑,渤健应当提交所有资料启动正式生物药上市申请(Biologics License Application,BLA)。
2020年7月,渤健公司完成了所有BLA审评资料的递交。
2020年11月,外周和中枢神经系统药物咨询委员会(Peripheral and Central Nervous System Drugs Advisory Committee)会议 (赞成:0;反对:10;弃权:1)
2021年1月,渤健公司补充递交FDA更多的信息,并且FDA也将审评日期从原来的3月推到了6月,
2021年3,4月,FDA召开了两次内部的医疗政策和程序审查委员会(Medical Policy and Program Review Council, MPPRC)会议对渤健的案例进行讨论就是否批准aducanumab提供意见
2021年4月,FDA中心主任级别会议召开,进一步对是否批准aducanumab提供更高级别的意见
2021年6月,FDA按加速批准程序批准Aducanumab上市。
王亚宁博士认为中期分析后渤健所做出的早期停止研究的决策的是错误的。主要原因是中期研究决策的两个重要假设错误:
假设1:两个研究301和302结果是相似的(该假设成立的情况下,两个研究的结果才能合并在一起进行分析)。
假设2:未来的结果与中期分析的结果是相似的。
然而301和302研究在高剂量组出现了背道而驰的结果,同时中期分析和最后结果也显示了中期之后高剂量组的疗效发生了巨大的变化,相比前半段的数据,后半段数据显示出更好的疗效结果。那么中期决策所依据的两个假设都并不成立,导致中期分析后渤健公司提前终止研究的决策错误。虽然假设2不能在中期分析时进行检验,但是假设1在中期分析时完全可以进行检验,已经有明显的数据显示假设1不成立。
然后针对互相矛盾的301和302研究结果,王亚宁博士也进一步从以下三个方面解释了为什么从临床药理学角度支持aducanumab是有效的:
所有临床研究的临床终点均呈现阳性的暴露量-疗效关系,即血药浓度越高,疗效也越好,这是非常强的证明药物有效的证据。这个结论适用于所有研究,包括按照统计方法分析失败的301研究,尽管301研究的阳性暴露量-疗效关系弱于302研究。王亚宁博士进一步解释了定量药理方法和统计方法得出不同结论的原因。而且从统计学二类错误的角度解释了301研究中高剂量一个亚组的意外结果是导致该研究失败的主要原因,并从整体数据出发,展示了三个研究(103,301,302)中大量高度一致的支持药物疗效的数据。王亚宁博士强调,临床药理审评部和临床审评部都认为基于临床终点的证据已经足以支持常规批准。
Aducanumab阳性的暴露量- SUVR(β淀粉样蛋白的标准摄取值比值)关系在三个研究中都得到证实,无太多争议,这是基于药物作用机理的支持药物有效性的证据。而SUVR降低是否能改善临床症状是专家会上讨论的焦点之一,而且多数专家认为过去失败的大量案例不支持两者之间的关系,尽管Aducanumab三个研究的数据显示临床终点改善和SUVR降低呈现线性关系。FDA定量药理审评室在听取专家意见后与临床审评部合作收集了所有以β淀粉样蛋白为靶点的在研新药和已经终止的失败案例,进行荟萃分析。分析结果显示多个化合物支持临床终点改善和SUVR降低的关系,并找到了以往药物失败的原因:β淀粉样蛋白降低程度不够。
来自专家会上的另一个建议是假设301失败的结果是真相(药物无效),评价出现302研究阳性结果的概率。FDA定量药理审评室为此设计了虚拟临床试验并采用跟原始研究同样的统计方法对虚拟数据进行分析。综合考虑4个临床终点,2个剂量,3个不同时间点,如果药物真的无效,能得到302研究阳性结果的概率小于千万分之一。
王亚宁博士也对小的疗效的担心进行点评,认为25%的疗效改进与早期设计方案时的假设完全一致,在20年没有有效药物的情况下是具有临床意义的。这一数字也是当时FDA和企业在设计三期方案的时候达成的共识。
最后王亚宁博士再次重申FDA批准Aducanumab的决策是在认真听取了患者声音基础上做出的可以让千百万病人获益的正确决策,FDA审评团队是值得大家尊重的英雄。
陈峰教授演讲
陈峰教授以“横看成岭侧成峰,远近高低各不同,不识庐山真面目,只源身在此山中。”开场,说明只有从不同角度看待问题,才能真正看清事物的本质。陈峰教授认为即使是统计学专家,不同的位置也会有不同的观点,希望通过本案例引发更多的讨论,真理是越辩越明的。陈峰教授也从统计的角度针对这一案例提出了自己的观点:
观点1:中期无效性分析基于的两个前提假设是正确的。在设计之初,针对第一个假设,我们总是假设两个平行的、相互验证的试验其入组人群是一样,药物效果是一样的,因此301和302结果应该是相似的。
观点2:两个研究的关系是相互验证的关系,因此不能用301的部分探索性阳性结果去验证302的阳性结果。如果这种探索性分析是允许的话,那么我们同样也可以用302的部分阴性结果去验证301的阴性结果。
观点3:替换终点是有风险的。替代终点需要满足在生物学上、在流行病学和统计学,以及临床上都相一致;对替代终点的认识是随人们的认识而不断深入的。
观点4:基于探索性分析的结果,假阳性可能性很大,下结论需谨慎。例如,最关键替代指标所用的数据并非全部的受试者数据,而只是有影像数据者的数据,这部分事实上是一个事后亚组,用探索性的、随机化以后的因素决定的亚组是危险的。本案例的探索性分析结果,留下了太多不确定性,因此,需要进一步的承诺试验予以澄清。
最后,陈峰教授也指出aducanumab的批准对于整个行业的影响是巨大的,希望通过对本案例的讨论,引发深入的思考,学会从不同的角度看问题,而不是简单的选边站。
特别论坛
问题1
您觉得Aducanumab的审评和一般药物审评(包括其他阿兹海默症的药物审评)有什么区别?为什么在该审评上,一般性的药物的获益-风险评估的基本要求不再适用。
何崑博士:从我角度,如果按照正常FDA的标准,这个是不太可能被批准的。替代终点应该有很多试验来验证和临床终点的预测性关系。A-beta这种替代终点从机理上分析合理但存在不确定性,从这两个角度来说(另一角度是两个试验并没有达到预设成功标准),这一批准不符合常规的标准。那么FDA为什么会批准这种药呢?我做审评员的时候也做过这个事情。一个药物II期试验p值是0.06,但显示临床很有效,考虑到那个疾病领域40年没有新药,是个二期,给了条件批准。对整个药界来说,如果一个疾病领域药特别难造,大家不愿意来投入这种财力来研发,慢慢就会永远不会有药。所以FDA也希望鼓励更多人来做这一领域的研发,即使这个药没有那么好,但这一批准至少鼓励大家都来竞争。我不知道FDA的真实考虑是否的确如此,但这是我的观点。
陈刚博士:回忆20年前易瑞沙(Gefitinib)的批准过程。FDA ODAC 约超过半数专家反对批准,此药FDA从临床急需角度考虑问题敢于承担风险给了此药有条件批准。三年后承诺性III期结果出来了不成功全人群效果不明显。随着科学的发展人们发现对肺癌中EGFR阳性突变病人这个药有效,由于欧美只有10%的病人阳性突变,而亚洲人突变率高达40%-50%,这是导致早年试验全人群没有看到阳性结果的原因。这也告诉我们从不同的角度去看数据会导致一部分人看到峰,一部分人看到岭。非常期待2030年这个AD承诺实验结果,看看最终前面是岭还是峰。
问题2
关于监管机构的监管准则和标准,AA的审评适用范围有哪些基本考虑?这个案例是否适合AA审评?以及AA审评中对于替代终点有什么考虑?
胡蓓博士:同意这个AA审评的程序。首先,从这个药的替代终点来说,替代终点可作为支持临床终点的有用的基于药物作用机制的信息。但是需要注意替代终点也需要临床实践不断验证。本案的替代指标提供的信息,增加了支持临床终点阳性结果的可信度。临床试验设计时也是考虑到得到假阴性和假阳性结果的可能性的,如果替代终点结果支持临床试验取得阳性结果,那么临床试验阳性结果的可信度将比原设计会更高。
李昕博士:FDA是一个public health protection agency因此所做的事情对大众而言是非常重要的,一方面要不断地提升公众健康,同时也要有一定的影响力。AD已经有20年没有突破,这是FDA做的第一个突破,并不是要去跟以前比,而是set a precedent,这个要求其实非常高。那同时,这又是第一个案例,肯定有考虑不到的地方,后面可以慢慢根据更多的知识来完善,。所以我今天第一个观点就是这个AD的批准不一定是一个完美的批准。因此在这个背景下,同时面对一个结果好,一个结果不好的时候,进行决策的标准是很不容易的。FDA的审评过程中一个让大家质疑的点是在这种情况下我可不可以不去看不好的试验结果,而只要看好的试验结果并结合一个Ph1b研究构成substantial evidence?我想刚刚几位专家们给的答案已经很清楚,这个不用多说。我自己是学统计的,所以第三个我想讲统计有两个黄金法则,第一个是Randomization让我们知道结果是有可比性的),第二个是pre-defined analysis让我们知道我们最初的研究目的是什么,检验目的是什么,我们分析出的数据是用来支持什么。没有这两个法则的话,任何一种分析都没有任何重要意义,因为任何人都可以通过写程序跑软件做出想要的结果,但这不代表结果有意义。事后的亚组分析时破坏了randomization principle,也破坏了pre-defined analysis, 因此这些分析对我来说是有意义的,但只是探索性的。最后一点,我想说un-met medical needs,我是罗氏但我所有的观点仅代表自己,我想说就是说AD实际上真的是非常非常让人绝望的疾病。从患者角度,患者家属角度希望有药,希望这个药很快能够惠及患者。所以,这所有考虑下,FDA最后的AA的决定我是同意的,但在Advisory Board上关于Full Approval的最初讨论和推荐我认为是令人疑惑的。最后,我还想说实际上这个决定过程真的挺不容易的,这不是统计vs.药理学的问题,而是我们所有人和患者站在一起,希望有好的AD药物尽快惠及大众。
郑青山教授:先抛开你的问题来谈一些我的看法。本人既做生物统计分析,又做定量药理研究,两位主持人请我来参加讨论,当然十分愿意。大约在FDA批准Aducanumab上市后的第5天,渤健中国公司找到我,希望阅读他们的整个试验报告,以便客观地给中国公众解读定量药理学是如何支持本药上市的。临床研究报告约2万多页,其中有7份定量药理学报告,内容极为丰富,但读起来并不困难。后来又详细阅读了FDA的审评报告,更加深了我对此药的了解。
我的学生们甚至也搞了一场双方辩论会,在此分享辩论的要点:
生物统计方说:你们定量药理做事后分析,甚至用到了外部文献数据,会不会有利者则取,无利者则舍,如何保证科学审评?
定量药理方说:我们利用了全部数据和信息,重点分析血药暴露-疗效关系、剂量-疗效关系、疾病进展模型的时间-疗效关系,建立了稳健的有效性证据链,表明本药是有效的。反而是你们生物统计学,只盯着两个III期试验临床终点的P值大小,如此这般,岂不闭着眼就能审药,干脆让机器去干吧。
生物统计方说:盯着P值是理所当然的,我们是I类错误的守门人,岂能让一个假药上市。
定量药理方说:Aducanumab的上市,名义上是加速上市,明显的是面对非科学压力的妥协,实际上是挖了你们判据的祖坟…
以上内容不免有抬杠之嫌,我这里想说的是,生物统计学分析与定量药理学分析到底有何不同,下面概括地说一下两者分析的数据基础吧:
生物统计学的疗效分析主要基于两类数据,直接称之两个estimand吧,第一个是评价不考虑伴发事件影响、获得接近上市后疗效的结果,第二个是剔除伴发事件影响、获得接近药物本身疗效的结果。按相似受试者的原则去填补缺失或被剔除的数据,实际上两个estimand都是基于剂量分析的。
定量药理学主要分析是基于血药浓度(又称暴露)与疗效数据,也可以说是一个新的estimand。如果低暴露低疗效、中暴露中疗效、高暴露高疗效,即疗效随着暴露变化而变化,称为内部一致性,表明药物有效。这是排除了许多混杂因素的更灵敏的方法,如排除了药物不吸收或快速代谢等因素,其结果更接近于药物的本身疗效。
关于前面两位专家的报告,我也想谈一些自己的看法。
完全同意亚宁博士意见。亚宁博士领导的FDA定量药理学团队,所做的工作是教科书级的,把定量药理学所有手段基本全部用上,就差一个动物实验数据的支撑。假阳性率全面模拟、假阴性可能性推断、文献数据荟萃分析都是他们做的,并非由申办者提供,所有的工作形成了完整的证据链。
陈峰教授作为辩论的反方,当然要提出不同的意见。他很巧妙,就他的每一页PPT内容,如果孤立地看,完全正确,而且很有说明力,说得还很生动。由于我看了全部的试验资料,完全可以反驳他的这些观点,由于时间关系不能现场表达,欢迎大家下午去103会场听我的报告,先做一个广告。
问题3
从1962到2019年,FDA对实质性证据(Substantial Evidence)的法规要求发生了若干变化,对于罕见病通常放低标准,那么对于罕见病或者很挑战的疾病领域的研发中,您怎么看待实质性证据呢?
王亚宁博士:FDA对实质性证据(Substantial Evidence)法规的变更恰恰反映了规则是死的,但人是活的(见:FDA:人用药物和生物制品行业指南有效性的实质性证据证明(草案))。当我们发现以前的规则不适合现实情况时,我们就要做出调整。以前要求的两个大型三期试验重复证据在很多疾病领域现在看来是不现实的,所以最新的法规提出只需要一个大型三期试验再辅以其他证据,比如基于药物作用机理的数据等。而对于罕见病,连一个大型三期试验都是很困难的,所以我们要灵活一些,去寻求其他的办法。即使统计里强调的随机和事先约定分析方法(pre-specified analysis)也面临同样的问题。随机是为了达到组间平衡,但是现实中随机往往不可能做到绝对的平衡,当试验结果显示随机没有达到我们期望的组间平衡时我们就需要做出调整。临床试验过程中会发生各种各样的事先没法预料的事情,不是所有的情况都可以事先约定的,所以当意外发生时我们要有一定的灵活性进行修正,我在FDA18年见过了太多这样的案例。
何崑博士:Substantial Evidence的标准首先要求定量。比如以前我们的试验用5%的一类错误控制,现在把这一标准拿掉,每一个药物都来根据对临床获益证据的理解单独讨论,那么FDA也会很难做下去,因为很难做到公平。什么是substantial evidence呢?就是说你的evidence特别的令人信服,估计比较准确,比较稳健。当有两个人群相同的独立试验结果不一样,就不能说结果是稳健的。的确,如亚宁所说,Randomization不能保证两组绝对的balance,但如果没有randomization呢?为什么要pre-specified? 统计和数学不一样,统计分析其实是对模型的拟合,因此如果不pre-specified, 我总可以通过各种分析拟合出想要的结果。对于罕见病,这我到同意亚宁的观点(应当降低标准)。因为如果罕见病中按照严苛的实质性证据要求计算的样本量是不太现实的,所以这个标准要降。但如何降呢?我觉得更多是从设计方法上面来改进。最后一点,我觉得现在FDA AA程序中对替代终点的考虑可以完善。我觉得当结果不是那么完美时,比如我们对标准终点支持获批有争议,对仅利用替代终点支持获批也有争议,但全面的数据提示有较清晰的临床获益时,是可以考虑条件批准的。也许以后中国监管在对罕见病的实质性证据的要求中可以考虑这一点。
陈刚博士:如果混杂因素和偏倚得不到控制,看到闪光点就报告,任何结果都能做的出来,要阳性就有阳性,要阴性就有阴性,这里面最难就是混杂和偏倚控制。这个药基于临床急需有条件批准完全可以理解,但是如果讲它是不是满足实质性证据,一条都不满足,确实还需要进行承诺试验。
陈峰教授:这个案例是一个热点,但不会成为经典。有太多的不确定性留到了III期,如果能在II期时把一些不确定性问题解决的话,那么III期试验可能就不会这么惊心动魄,一波三折。至于罕见病和肿瘤领域,因为不要求两个试验来相互验证,通常只会出现一种结果,所以很难遇到两个结果不一致的试验。但是,任何药物的获批上市,实质性证据一定是必需的。