AI药物发现:现实还是虚幻?(上篇)

发布于: 雪球转发:5回复:9喜欢:29

上周看到一则新闻,两年前敲锣打鼓作为第一个由AI设计进入临床的分子DSP-1181,目前因未达预期而被住友停止开发,目前确实在$Exscientia(EXAI)$ 和住友的网站上都已经从pipeline列表中消失。

坦率地说,由于本人既不懂怎么做药、又不懂什么是AI,所以从AI制药概念兴起至今,我就从来没搞明白它到底是怎么回事(菜就得认)。然而,我也高度怀疑我的同行们,乃至于绝大多数的医药从业者,是不是有可能对AI制药有准确的理解?原因很简单,面对一个传统路径的新药分子,优秀的医药投资人要么只用看一眼结构、要么深入调研一番、要么满世界打听一圈、要么还可以亲手验证一下,总是各有路数去做判断的;然而面对一个所谓AI药物发现的平台,且不论是否可行,就算开发者把底层算法毫无保留地展现给我们看,除了极少数确有交叉学科积累的专业人士,剩下还有几个人能有任何哪怕一丁点的概念?所以,搞不懂这个并不应该是什么丢人的事情,更不涉及对这个技术方向的褒贬问题。

也就趁着这个新闻的反思冲动,翻出了去年看摘要挺有意思就存了、但一直没动力细看的两篇文章,虽然有倾向性过于明显之嫌,但感觉作者描述的行业发展情况和一部分观点,确实比较符合我个人朴素的感觉(必须再一次声明:只是一种无知的模糊感觉而已)。

先给个初步看完上篇的观感:作者认为目前AI在药物发现领域的应用中,核心是受限于对生物学理解的匮乏,以至于并不能清楚地选择什么样的终点是真正有助于提高对药物在体内有效性和安全性的预测能力,而受很多场内和场外因素的共同作用,大多数的资源被投在了并无太多实际意义地“堆砌数据”以及“玩受体-配体亲和力”的化学游戏上,所积累的数据可用性很差,基本上还没有迈入“药物发现”的门槛、而至多算停留在“配体发现”这个层次。

药物发现中的人工智能:什么是现实,什么是虚幻?网页链接

第一部分:产生影响的方法,以及为什么我们还没做到

尽管AI对图像识别等领域产生了深远的影响,但在药物发现方面,可比的进展寥寥。本文量化分析了药物发现的各个阶段,时间、成功率和可及性改善都将对新药上市产生最深远的整体影响。临床成功率则是药物发现成功率的最重要因素,换句话说,关于采用哪种化合物(以及如何进行临床试验)的决策质量,比速度或成本更重要。目前AI的进展集中在如何作出一个给定的分子上,然而作什么样的分子、使用什么样的临床有效性和安全性终点等问题,却很少受到关注。因此,目前的算法和数据并不能充分发挥AI在药物发现方面的潜力,特别是在药物的体内有效性和安全性方面,解决产生哪些数据和模拟哪些终点的问题,将是未来改善临床相关决策的关键。

0. AI药物发现的背景

鉴于其跨学科性质,药物发现总是受到新科技发展的推动,无论是在物理科学(如有机合成)还是在生物科学(如基因组测序能力或受体药理学进展),或者是最近在该领域应用计算方法。

有许多术语被用来描述算法在药物发现中的应用,包括计算机辅助药物设计(CADD,它经常指更多的基于结构的方法),构效关系(SAR)分析(旨在将化学结构的变化与活性的变化联系起来),化学信息学(将SAR分析扩展到大型化合物组、使用不同的方法、跨越不同的生物活性类别),以及最近的机器学习和人工智能。虽然术语不同,但对于药物发现而言最核心的问题都是:1)分析哪些数据;2)为此要使用哪些方法。在AI药物发现领域,目前行业的注意力主要都集中在大规模算法方面(例如深度学习),然而从逻辑上来说,使用哪些数据来实现目标的问题才是第一位的(以及这些数据是否允许我们即使只是原则上能够回答手头的问题)。我们将在本文的后面回到这个主题,也是下篇第二部分中的主要焦点。

CADD至少有40年的历史,《财富》杂志在1981年宣称它是“下一次工业革命”而且从“现在”开始药物将在计算机中设计,到2000年之前“生物技术泡沫”崩溃前达到高潮的几年中,人们越来越关注药物发现的计算方法。虽然当时的期望并没有全部实现,但CADD无疑已十分常见地应用于今天的药物研究,涵盖了广泛的基于配体和结构的技术和方法。此外,当谈到医疗领域中医生的决策支持系统时NEJM早在1970年就宣称“计算科学很可能会发挥主要作用,增加甚至可能很大程度上取代医生的作用”,这个领域的发展前景比在早期药物发现中使用CADD的情况更加复杂(由于涉及基础数据的产生、医疗服务提供方、以及患者数据保密性的法律问题等诸多方面)。然而,这两个领域后来这么些年的发展情况都表明,站在某个时间点去预测当下技术发展的潜力,并不一定总是靠谱的

2007年,CADD早期的发起参与者之一John Van Drie,对CADD的“未来20年”进行展望(其中大部分已经实现),包括7项重大发展(斜体是15年以来的实现情况):

1)计算热力学会迅速发展;自由能微扰(FEP)已经被有效地用于预测化合物的亲和力

2)高亲和力的配体将可能成药;配体在体内的PK和代谢仍然有点难处理,但已经有越来越多的数据,能在研发更早期就考虑ADME和PK特性

3)新的药物靶点类别将出现;出现大批新靶点

4)新的分子药效学机制将出现(如自组装药物);新机制如反义寡核苷酸、基因治疗、抗体和PROTAC等,都非常激动人心

5)与单一靶点抑制剂不同,更多会模拟整体的信号传导通路,从而选择更好的靶点;在局部对单个信号传导级联建立“完整信号通路”的模型已经比较常见,但这些通路对疾病生物学的影响仍然难以确定

6)复杂的CADD工具将会有更广泛应用;CADD工具对于药物化学家仍然有挑战,可能是由于不同学科间的思维和方法的差异,但也是实际考虑的结果,工具开发专家和使用工具解决问题的人之间的需求和要求是不同的,对所采用的方法的理解深度也是不同的,因此在某些情况下需要灵活,而在其他情况下需要“万无一失”

7)虚拟药物筛选将十分普及;虚拟筛选如今已经非常重要,有大量的软件可用

然而我们已经发现,在计算方面,化学要比生物学更容易得多。决定配体与受体亲和力的热力学基本原理,很多都已经较为成熟(尽管在实操中化学结构的灵活性处理仍有难度);但生物学明显更复杂,如受体构象变化、平衡和偏向信号等已经很难理解,而对于更下游的问题就更加困难,如基因表达或蛋白质修饰的变化,尤其是当涉及到模拟空间和时间变化。

这仍然是当前计算药物发现领域的致命弱点,在应用AI时也带来了问题。我们能够很好地描述化学,并有大量的替代分析数据可用于建模,因此这些数据在最近的过去一直是AI领域的一个关键焦点。然而,药物作用于生物系统,确定一组模型参数的范围要困难得多,因此我们也面临着更多的不确定性,即哪些实验数据体现了与有效性或安全性相关的关键信息。一个至关重要的问题在于化学信息(化学结构)和生物信息(基因和蛋白的相互作用、以及在细胞、器官和生物体等水平上的表型)具有显著的差异,如下表。简而言之,药物发现中的AI应用需要有意义的量化变量和标签,但我们往往没有足够的能力来确定哪些变量是重要的、以足够大规模的实验去定义变量、为AI贴上生物学标签,这与该领域当前投资和期望值水平还相距甚远。

需要说明的是,此处讨论的数据是用于医药企业的药物发现过程的决策,应与更早期的探索性研究产生的数据区分开来,后者目的是通过使用生物化学或高通量实验(例如基因测序或蛋白组学技术)来分析生物系统从而了解生物学机制(例如了解致癌的驱动因素),这些数据通常还没有达到可用来操作的程度。这两种类型的项目需要不同的数据:药物发现是基于可靠的相关性,而探索性研究通常是无假设的、至少在一开始并不需要可操作的数据结果。尽管如此,在实践中并不总能为决策制定提出可靠的假设,生物学数据时常无法在数据集中建立清晰的关系。

随着我们不断增进对化学系统的理解,会更加倾向于主要关注更大数量、而不是更高质量(和相关性)的数据。例如,组合化学在80年代的发展和高通量筛选在90年代的出现,这在当时都受到盛赞,这些技术无疑可以让我们产生“更多”的数据,并且在靶点明确的情况下大幅提升筛选效率。然而,它们并没有像当时所希望的那样,颠覆新药开发的趋势,至少我们没有看到FIC药物数量的激增。

那么,获得更多数据在过去和现在是否有助于药物发现呢?正如我们将在本文后面看到的,很可能决策的质量才是推动药物发现未来发展的主要因素。我们对化学的关注(和对生物学的相对忽视),对庞大数字和替代指标的偏好(和对确定重要生物学参数的不够重视),使得AI在药物发现中缺少最坚实的基础

1. 在药物研发中,质量比速度和成本更重要

我们首先来模拟几种作用的效果:1)加速药物研发各个阶段;2)降低药物研发的成本;3)提高各阶段的成功率。在每种情况下,假设相应指标(速度、成本和成功率)提高20%,以衡量各自对将一种成功药物推向市场的资本成本的影响。在这个模拟中,假设专利期为20年、在临床I期开始时提交专利申请,资本成本为11%,各阶段和疾病领域划分的药物研发成功参考行业平均数据。

从下图可以看出,降低各临床阶段的失败率对项目整体价值的影响最大,是降低成本或提高速度的影响的数倍之多,这种影响在临床II期尤为显著,因为它在临床各阶段中成功率相对较低、持续时间长、成本较高。换句话说,提高临床阶段的成功率可以减少将药物推向市场所需的昂贵临床试验的数量,而失败次数的减少比每种成功批准的药物更快或更便宜地失败更重要。在AZ的一项研究中,在整个药物发现过程中选择更好的化合物被认为与更高的临床成功率有联系,研究提出“5R”框架,即在开发过程中应遵循“正确的靶点、正确的组织、正确的安全性、正确的患者群体和正确的商业潜力”。

这对于AI药物发现的应用意味着什么?原则上,AI可以实现上述所有目标:它可以更快地(做预测比做试验快)、更便宜地(做预测比做试验成本低)、更好地(在数据和模拟都合适的情况下)做出决策。结合上述量化模拟的结果,我们可以看到在药物发现中,与更快和更便宜的决策相比,更好的决策将对药物发现方案的成功产生最大的影响,这意味着AI需要提供以下支持:

1)更好的临床候选化合物,这与化合物结构本身相关,但也包括能在目标组织中带来合适治疗窗口的剂量和PK性质;

2)更好的靶点验证,以减少因有效性而导致的临床失败、尤其是在临床II/III期,这两个阶段对项目的整体成功有深远的影响,并且靶点验证往往当时还没有达到预期目标;

3)更好的患者选择,例如使用生物标记物;

4)更好的临床试验执行,例如患者招募和依从性。

有很多从业人员都发现,在药物筛选和疾病模型的预测有效性上的很小或不可知的变化(即模型结果与人体临床结果之间相关系数0.1的绝对值变化),足以抵消模型效率的巨大变化(10倍甚至100倍)。尽管如此,目前AI在药物发现中的主要注意力似乎放在了速度和成本上,而不是决策的质量。这是指过多使用替代指标,如模型的相关系数或标准差(RMSE),而不是对项目成功的影响;以及过多使用替代量度,如靶点活性,而不是与有效性或安全性相关的数据结果。这是由于目前人工智能和深度学习都还基本上只应用于早期药物发现,这个阶段质量只体现为活性等一维指标,在AI模型中,除了Pearson相关系数(R2)或者RMSE值,还能如何定义质量呢?

为了让AI在药物发现中显示价值,关注点可能需要进一步拓宽,让模型不仅是提高那些替代量度的数值。简而言之,我们就哪些维度来建模和我们如何定义研发成功,与我们如何建模一样重要;然而,目前AI的关注焦点似乎大多都在后者。

我们接下来看看制药公司们是如何进行药物发现,以及为什么使用AI算法做出的决策质量改变是有意义的。

2. 当前药物发现的分析方法是使用孤立的机制和靶点

药物发现已经有很多年发展史:在James Black时代,通常只在动物体内合成、测试和优化数百种量级的化合物(例如西米替汀和普萘洛尔等药物);随着分子生物学的出现,我们花了更多精力来理解构成生命系统的分子,以及如何调控它们来治疗疾病,人类基因组已经被测序(最初的成本是10亿美元,而现在一天之内不到1,000美元就可以完成),使我们有能力系统地理解基因和蛋白质;在药物发现领域,这带来了包括受体和受体亚型的发现、以及靶向药物的发展等;随后,按照西方的分析思维模式,生物学被拆解开,我们试图在细胞水平上理解它的各个组成部分,出现了一个中心法则,即缺少一种(或多种)成分导致疾病,因此调控这些成分就可以治愈疾病,这样通过孤立的模型进行分子生物学和现代药物发现的时代开始了。在例如靶向治疗、传染病和激素疗法等情况下,这也许是合适的方法,但在其他领域这很明显是过于简单化了,因为生物学与反馈回路之间的关系是动态变化且通常未知的,而且重要的是这些关系很难被充分地形式化和量化。

最近,表型筛选方法试图将疾病的生物学与大量化合物筛选结合起来,这两种方法似乎是互补和有用的。表型筛选包括一系列有假设的和无假设的结果,但提出一种有意义的、在实践中充分利用表型筛选原理的疾病评估分析并不简单。简而言之,如果表型筛选是有假设的(且靶点是预先设定的),那么表型筛选的依据就大幅缩窄了;如果筛选真的没有潜在假设,那么理解高维度的结果将是非常重要的,尽管已经存在各种各样的强大技术,靶点识别仍然是一个问题。因此,表型筛选确实结合了细胞的一些复杂的生物学特性,但是它仍然不能合理地再现细胞内器官毒性和PK等性质,因此它仅仅代表了疾病生物学分析观点的一些变化趋势,尽管在某些情况下毫无疑问是有用的。

这种简化论者对药物发现的观点,仍然占据了当前将AI应用于该领域的大部分工作,见下图,活性物质在生物系统中实现作用的方式在图的顶部,而药物发现的现代分析方法在图的底部。可以看出,为了使化合物在生物系统中发挥作用,它必须具有对目标靶点的活性;但与此同时,其ADME特征、针对其他蛋白质的活性、与膜的相互作用、在细胞器中的积累和pH值的变化等,都会起作用。现代药物发现的基本原则,是识别在患病系统中功能异常的蛋白质(或更一般地说,存在缺陷或过度活跃的生物机制),然后找到这种机制的调节剂,但它没有注意到化合物在体内表现出的所有特性,包括其母体化合物、代谢物、浓度依赖性等,基本原则是“以后再说”

这种方法有很多概念问题,其中一些对于药物发现中的AI方法至关重要,因为AI模型很少从一开始就考虑生物学的复杂性。

1)这种方法只有在单病因疾病的情况下才是合理的。当然,这种情况确实存在且已经展示出影响力,例如在病毒感染的情况下某种蛋白酶是复制所必需的、或者是细胞进入所必需的受体,或者靶向治疗也批准了大批药物、特别是在疾病已经被充分理解之后的化合物开发。然而,只有少数疾病属于这一类别,导致临床上经常失败,特别是由于有效性不足。

2)在疾病模型中针对分离出的蛋白实现活性,忽略了化合物是否到达其预期的靶点(考虑到PK问题)、是否能够逆转疾病表型、以及其副作用是否可以容忍等一系列问题。仅针对一个主要靶点的活性来选择化合物,而将化合物的其他作用留待“以后再说”,这在近期的药物发现中造成了很多实际的问题。此外,试图通过简单的疾病模型评估来考虑化合物的其他性质,也不太可能达到目的。如上所示,决策的质量是关键,比成本和速度更重要;在仅有部分相关性和预测性的替代空间中去优化化合物,不太可能让AI系统作出满足质量要求的决策。

虽然上面提到的问题对于简化主义者的药物发现工作来说是常见的,但关键的问题是该领域中许多AI方法旨在从图像或语音识别中继承和转移方法(例如不同类型的神经网络),目的是凭借数量来改善对特定分子特性终点的预测。在许多情况下,可以实现对模型的数值性能改进,但这一特定终点与体内有效性和安全性的相关性经常被忽略。对log D、溶解度或致突变性有几个百分点的预测性改进,对于药物发现中的体内安全性和有效性而言,真的有可能带来破局的力量吗?

氯胺酮的例子说明建立明确的化合物-靶点-药效之间的联系是多么困难,而这一联系对于上图中所示的药物发现方法是必需的。自1970年以来,氯胺酮已被证明可用于各种治疗用途(麻醉剂、抗抑郁、支气管扩张等),然而对其适应症以及作用机理(以及其功效是否与母体化合物或代谢物有关)等都还知之甚少,例如氯胺酮长期被认为是通过阻断NMDA受体发挥作用、但其他NMDA抑制剂如美金刚和兰尼碱却未在临床中成功,又如最近发现阿片系统可能与氯胺酮作用有关、因为纳曲酮会影响氯胺酮的有效性,等等。这一案例说明,通过作用机理和适应症来对药物进行标签注释十分困难,我们尚难以理清化合物-蛋白质-作用机理-药效等几方面的联系,这使得AI方法在这种缺少标签的数据集中很难发挥作用。我们所面对需要处理的数据是多维且带有很多条件的,这一点我们将在本文的第二部分详述。

表型筛选更多的是一系列方法,而不是与基于靶点方法之间有什么“非黑即白”的区别,可能会在自我调节生物系统的复杂性和基于靶点的药物发现的巨大实际便利性之间架起一座桥梁。近期对疾病的更精细分型(例如对哮喘),也有助于缩小差距。如果我们对疾病有足够的了解,基于靶点的药物发现肯定有其用武之地,特别是如果分子机制可以特异性地针对个体来改善疾病。然而,在我们看来,在AI药物发现领域,在很多应用和案例中这种方法的局限性并没有被完全认识到。

近几十年来,药物发现中基于靶点的简化方法,带来了用于替代终点的高通量技术的发展,该技术快速且廉价,并且在靶点被充分“验证”的情况下,孕育了许多成功的药物。这些技术已经生成了庞大的替代指标数据集,例如物化性质和目标靶点活性等,正式基于这些我们已经拥有的数据,目前药物发现中的AI方法通常旨在对这种替代终点进行建模,而只有在结合其他性质和意识到其局限性的背景下,才有可能看清它与药物发现之间的相关性。这些替代指标的局限性,是当前AI在药物发现领域的主要焦点,也是我们接下来关注的焦点。

3. 药物发现相关的化学和生物特性

在这一节中,我们简要回顾药物发现过程中使用的替代指标,特别是从最近的出版物中摘录的指标,并对其支持体内应用的决策适用性进行评判。下表展示了在药物研发项目早期决策过程中使用的一组“典型”且具有合理代表性的特性,附有对单个终点的评论,涉及它们对特定化合物未来用作药物的适用性做出定性良好预测的能力。

可以看出,总体而言许多终点对于人体内结果仅具有中等预测性,某种程度上是由于高通量相对低通量的所谓更直接的体内相关性,在实践中是很难实现的。令人惊讶的是,就有效性和安全性而言,对人体内的预测性往往跟对动物模型一样低(尽管部分原因可能是由于研究设计的问题)。有效性的预测在很大程度上取决于所使用的动物模型,而动物中不良事件通常预示着人体中的不良事件,但安全性没有毒性这样容易进行跨物种推断。最近对121项研究的meta分析也得出结论,动物模型对人类有广泛的预测性,并提示我们所使用的数据很可能也有时间因素(即我们日渐关注对人体的可预测性方面)。

近年来,使用临床相关性更高的模型渐成分区时,其中还有一些是患者特异性的模型。在简单的层面上,这包括用异种细胞进行高通量筛选,以及考虑诸如细胞间的3D相互作用和渗透性等维度;在更复杂的层面上,这包括患者来源的模型系统,如肿瘤患者的PDX模型。这些类型的系统可能会对未来的药物发现产生重大影响,然而在目前阶段可用于AI进行挖掘的数据还相对较少;另一个问题是,一个系统变得越针对特定患者,它就越不通用,这需要生成足够大量的数据才能变得实用。

当使用数据进行决策时,另一层复杂性是它们通常并非二元的,特别是当考虑体内数据时,例如来自组织病理学的读片结果。除了结构本身之外,对化合物的衡量结果还取决于暴露量、对结果的主观解释(尽管使用图像识别技术可以更客观)、各终点之间的相互依赖性(一个终点在另一个终点存在与否的情况下可能有不同含义)、充分的采样和术语的主观使用等等。所有这些复杂性,都给AI决策过程中使得这种类型的数据带来难度。

总结本节,尽管我们之前已经了解到需要做出高质量的决策,但由于替代数据的特性,近几十年来在高通量系统中生成的数据在某些情况下只能用于做出这种类型的决策。产生如此大规模的高通量替代数据,部分是由于其确有实际的相关性,但在某种程度上也是其低成本和高速度驱动的。只有在某些情况下,我们手头的数据才能满足做出高质量决策的需求。如果我们想推进药物发现,那么弄清楚一个特定终点对于回答一个给定问题的适用性,至少跟对一个特定终点建模是同等重要的

4. 现状:是AI药物发现还是配体发现?

在这里,我们简要概述了AI方法在药物发现中的应用。鉴于这个领域发展迅猛,我们只讲一些关于这个新兴领域的焦点问题。

从头开始通过计算来设计具有所需特性的化合物结构,已经受到了极大的关注。正向和逆向合成的预测也是如此,它们旨在预测一旦被确定为值得进行实验研究的化合物应如何合成(逆合成预测是指在给定目标化合物的情况下识别有效的合成路线,而正向预测涉及在给定一组试剂的情况下预测反应的结果产物,两者是相关的,但是在实操中有不同的挑战)。一旦配体确定,逻辑上下一步是辨别它是否与特定的蛋白质靶点结合,docking和in silico靶点预测在近几十年从PASS等方法出现后一直很火。这一领域最近又显著升温,出现了更大规模的对比、深度学习等方法的应用、矩阵分解、以及纳入细胞形态学等更多的信息。这些主要是在AI药物发现中的化学层面的进展,也是近年来研究的主要领域,这些领域的数据在很大程度上被进行过充分标记以进行数据挖掘,因此计算分析可以对预测配体-蛋白质的相互作用产生重大影响。一般来说,当涉及到预测配体-蛋白质相互作用时,深度学习等方法可能在提升预测结果上能有一定的积极影响,然而情况并非总是如此,例如在最近的一项大规模研究中,没有发现深度学习可以提高预测性。此外,需要特别注意在这种情况下使用的模型性能指标,以及它是否反映了能够识别模型质量的重大和实际相关变化的相关指标。

但是,我们需要确定特定的作用机理与至于疾病之间的联系,才能使化合物在体内表现出所需的效应,遗传学支持能增加药物成功可能性就说明了这一点。靶点识别领域已经活跃了许多年,采用了诸如全基因组测序、功能基因组学以及最近的CRISPR编辑等手段,然而所发现靶点与疾病的关系并不如人们所希望的那样清晰,因而从药物发现的角度来看也不太可行。这可归因于很多的复杂因素,以及涉及多个基因、环境因素等复杂的基因型-表型关系。此外需要记住的是,识别出引起疾病的特定基因或蛋白质,并不意味着可以通过小分子的靶向治疗来治愈疾病,其中一个原因可能是由于突变而不能激活失活蛋白,另一个障碍可能是功能域(靶向单个结合位点vs去除蛋白质的所有相互作用)和时间域(诱导暂时性抑制效应vs永久性敲除)中配体-蛋白质相互作用的差异,这对于例如癌症治疗中的耐药性具有重要意义。因此,尽管人们对识别疾病驱动因素非常感兴趣,但这本身并没有提供一条简单的途径来识别可以通过调节来治愈疾病的靶点(除简单病例以外)。

在当前的AI药物发现中,将配体-蛋白质活性、靶点识别以及PK性质等进行综合考虑,依然是我们所缺少的能力,这将包括:1)模拟小分子与其所有相互作用对象之间的相互作用;2)解决疾病组织中的靶点表达及其参与疾病调节的问题;3)在分析中包括分子相对于体内系统的PK行为;4)从一开始就同时考虑安全性和有效性。这是定量系统药理学(QSP)的目标,近年来在这方面已经做出了重大努力,但我们对某些有效性和安全性相关工艺的理解仍需改进,以便在此类模型的基础上做出实际决策。

与这种对药物发现(以及AI在其中的应用)的综合观点相反,当前行业的状况反而是更加分散的。AI可能能够设计蛋白质的配体且更容易合成,因此它确实使我们能够发现更多的配体,这一步本身当然是有价值的(如果我们已经有一个给定的蛋白,我们已经有能力找到合适的配体),且多种优化的手段已经出现多年。但是这与设计一种在体内安全有效的药物是完全不同的,在前文已经看到,我们需要对推进哪种化合物做出更高质量的决定,然而在实操中,我们所拥有的许多替代数据为决策提供的价值极其有限。那么,应该根据什么作出这些决策?考虑到目前可用的数据,AI可以改善该领域的决策吗?如果可以,可以改善到什么程度?这些更基本的问题需要得到解决,以便以真正有意义的方式将AI应用于药物发现。

药物发现中的AI在目前的状态下可能有一些根本性的缺点,但它之所以只能走到今天的位置,与人类心理学各方面有关。有一些社会和心理驱动因素可能会妨碍对目前流行的方法进行现实的评估,其中许多也适用于AI药物发现领域,包括以下内容:1)炒作带来金钱和名气(而现实主义则很无聊);2)在缺乏客观标准的情况下,“害怕错过”和“信念”通常会左右决策;3)“每个人都需要赢家”(“投资数百万之后我们需要展示成功”);4)有选择地宣布成功,导致每个人好像胜利了(但实际上没有人能够评估方法的相对优点);5)在很少进行真正的基准测试的情况下,很难真正“推进一个领域”;6)对成功的主观归因于一种方法(其实有多种因素在起作用);7)科学推进的机制,一篇发表在高分期刊上的论文带来一笔资助,而资助又产生一篇高分文章(这不利于新的发展,以及那些尚未成名的研究人员或不来自特定机构的研究人员);8)相信技术和建模是推动一个领域前进的力量,而不是理解和洞察力;9)学术工作与新颖的基础发现和实际应用之间脱节。

考虑到特定技术的未来机会可能难以定义,空白往往会被自己的信念所填充,从而给本应客观的科学领域,特别是AI药物发现中的应用提供了一种主观的方法。

5. AI模型在药物发现中的验证

针对使用AI做出更好决策的这一目标,问题在于如何事先评估哪些决策支持系统在这方面做得更好,然而不幸的是,这一领域存在很多缺陷,其中一些是该领域特有的,而另一些则是目前科学进步、交流和资助的结构方式造成的共性问题。

1)AI在药物发现方面的大部分努力都集中在配体发现上,这肯定有助于验证靶点恢复患病表型的能力,但在药物发现的整体过程中,配体(还)不是药物。因此,如果用于药物发现的AI方法最终只是产生一种蛋白质的配体,那么没有证据表明这将有助于药物发现的整体发展,这是未来的一个重要目标。为了在药物发现中验证AI系统,我们需要及早转向更复杂的生物系统(和临床)。在计算层面,这意味着在模型中包括更多与疗效和安全性相关的预测终点,这可能需要生成新的数据,并且这些数据可能远比简单地由单个终点组成的更加复杂和更难以优化。

2)当AI提供新化合物时,通常没有进行对照实验。考虑到上市药物通常来自一长串的选择,因此通常很难分清最终产品是所用方法的结果还是对要测试的化合物的主观选择的结果,然后人们会倾向于将积极的结果归因于自己最感兴趣的部分。

3)由于挑选验证化合物的空间足够大,且我们总是主观上渴望新系统能够成功实现其目标,这往往会导致我们过度关注那些琐碎的成功验证案例,而不是去验证那些解决新的化学和机制、从而让我们有新的治疗方案的方法。

4)化学领域的方法学验证非常困难,因为人们不知道化学空间的基本分布,换句话说我们永远不可能真正前瞻性地测试模型,除非有一个非常大的包括对照组的前瞻性实验。这是一个系统性的缺陷,理论上很难克服,追溯性的验证只有在假设未来进行预测与验证预测相似的情况下才有意义。例如,当旨在探索新的化学空间,并因此推翻现有模型时,就不可能做到这种相似性。

5)与前一点相联系,模型性能与数据是相关的,用于验证的数据通常特征并不充分,使得模型性能无法被放到基础数据所在的背景中去评价。因此,这些数字本身是没有意义的,也不适合用于对模型进行比较

6)与前两点相关,比较基准数据集是追溯性的,但是由于其大小与化学空间相比十分有限且我们不知道整个化学空间的潜在分布情况,我们将永远无法从这些比较中获得模型性能的真实估计。此外,虽然回顾性数据集让我们可以从数字上比较方法的性能,但是由于缺少真实和前瞻性的数据集,那种想让模型比基准表现更好的渴望容易导致过度拟合,这导致模型在真实世界里的性能仍然未知。在药物发现领域,一个项目的成功需要很长时间才能确立,并且是一长串选择的结果,因此将这与特定的计算模型联系起来本质上是困难的,采用哪个终点去验证模型的问题(即哪个终点对于体内情况是实用的)也仍然存在。

此外在实操中,生命科学领域和医学领域的AI应用都广泛存在着可重现问题,算法应用时并没有考虑该领域的特殊性,后者会导致出现有偏的、学习数据中伪相关性的、或者无法处理生物漂移现象的模型。鉴于医疗领域的重要决策可能基于此类模型,因此在更广泛的应用之前解决此类缺点至关重要,这也需要模型更加一般化。但是在早期药物发现中,特别是当生物数据结果是模型开发的一部分时,我们需要知道,捕捉和表述这些数据并进行学习是十分困难的,这一方面将在本文的第二部分更详细地讨论。

竞赛是进行模型对比的一种方式。或许这是一种比较公平的方法,因为所有参与者都可以获得相同的训练数据集,测试数据采用(或至少可以)盲法,并且应用了一致的模型评分指标。然而,特别是在药物发现领域,这种竞赛往往并不容易开展:带有相关终点注释且足够大的数据集,往往很难公开获取(与图像识别等其他领域相比,数据集的大小通常要小很多个数量级);竞赛中使用的终点和性能评价通常与体内情况没有直接关联,相反它们是易于评估和评分的替代指标;此外,人类倾向于在比赛中使用的特定数据集上最大化模型的性能,但在特定的注释终点上达到高评分指标的模型并不一定是最实用的模型(即它可能在新数据或与实践中的药物发现相关的决策方面并不成功)。竞赛中胜出的模型当然是好的,因为它们在技术上探索了在所应用的给定数据和性能指标背景下的可能性,但竞赛形式意味着这种模型往往不能很好地外推至现实世界的药物发现项目,因为竞赛的数据和终点选择有限,并且缺乏对方法的真实预期转化的评估。因此,AI在药物发现中的未来并不在于开发正确的分析方法,而是首先需要提出正确的问题,并因此建立正确的终点模型

为了改变相关数据终点稀缺的现状,未来需要更多发挥协同合作的作用:不仅仅是数据共享,还包括数据生成,包括覆盖足够的化学和生物空间。然而需要承认的是,改进模型的愿望与数据保密和保有竞争优势二者之间,天然存在冲突。仅仅汇编现有的数据(这些数据可能以不同的格式生成、使用不一致的注释、并且缺乏整体的实验设计),不太可能满足当前AI在药物发现方面获得正确类型数据的需求。如果解决问题所需的化学或生物空间并不包含在可用的内容中,算法将无法填补这些空白,所以并不是所有数据都有用。Sydney Brenner说过:“的确有些人认为,所需要的只是在许多不同的实验条件下收集越来越多的数据,然后就会找到正确的计算机程序来告诉我们细胞中发生了什么……这种方法注定会失败……”。数据需要包含一个信号来回答我们向他们提出的具体问题,这意味着数据需要由理解和坚实的假设来支持。

6. 改进AI在药物发现中的应用现状

如上所述,为了在药物发现中充分利用AI工具,我们需要提高我们对进入临床的化合物所做决定的质量,但是在许多情况下,可用于决策的数据并不完全适合这一目的。这在实践中意味着什么?我们需要在哪些领域集中努力来提高当前的技术水平?

我们需要更好的化合物进入临床试验,包括获得足够安全窗的正确剂量和PK,这涉及有效性和安全性相关终点的选择(不仅是通过使用那些容易获得但不能提供这些方面信息的替代指标)。3D模型可能会有所帮助,它通常比细胞系具有更好的预测能力;在后期阶段,真正有预测能力的动物模型可用于安全性和毒性终点。除了选择正确的化合物之外,选择正确剂量在实践中常常只能通过反复试错,然而随着掌握更多体内相关终点的数据(例如大鼠PK模型)、尤其是随着可用数据量的增加,相比于基于替代指标的方法,更直接地对有效性和安全性进行定量建模逐渐成为可能。(然而,对化学空间的覆盖范围和与特定组织/细胞器的相关性,仍是PK领域中需要进一步解决的问题)。从这些模型中,我们可以获得更有意义的数据,比那些低相关性替代终点的数据能给AI算法提供更有效的支持。

到底要推进哪种化合物与它在体内的作用机理有关,因此我们需要对靶点进行更好的验证靶点,或者更一般地说对化合物的作用机理进行更好的验证。在多种化合物的相互作用与有效性相关的情况下,以及在被认为是疾病驱动因素的单一靶点无法有效逆转疾病的情况下,靶点和作用模式之间的这种区别就可能变得相当重要。研究已经表明,经过基因层面验证的靶点确实具有更高的临床成功概率,但是由于统计学的复杂性和作为一个稳态系统的生物学的复杂性,很可能未来将更难以识别疾病的单一驱动因素。因此,我们需要对作用机理建立更一般的视角,特别是在理解化合物对给定适应症的作用机理时。成功的靶点验证当然可以显著减少因疗效而导致的失败,特别是在临床II期和III期,从而提供整个药物开发项目的成功率。对AI在药物发现中的更好应用,可以来自于更加全面地理解基因/蛋白质与疾病之间的联系以及靶点调控对疾病的影响。然而,这个领域需要超越“靶点-疾病”联系这个简单层次,而更多地考虑定量问题和所需条件

就有效性和安全性终点而言,通过生物标志物更好的进行患者选择可能会增加未来临床成功的机会,最近的研究发现使用生物标志物的临床试验使项目成功的概率大约增加了一倍(从大约5.5%到10.3%)。应对这一挑战将同时发展我们对疾病的理解,并改善我们对生物数据的标注,以便利用AI方法,然而从诸如基因表达数据来获取生物标志物并不容易。

最后,我们需要更有效地开展临床试验,例如在患者招募和随访方面都可以通过计算方法来支持。在许多情况下,其实仅涉及简单的计算匹配算法,却被重新标记为“AI”方法,这种算法通常可以成功地将患者与临床试验相匹配,并监控治疗方案的遵守情况。“AI”这个术语的使用在某些情况下似乎是当今时代思维定势的结果,然而这只是个术语而已,似乎临床研究完全可以通过更好的治疗-患者匹配方法来改善。

对于药物发现早期阶段的支持数据,我们需要认识到,目前拥有的数据不太可能给我们提供判断化合物有效性和安全性所需的答案,我们将在本文的第二部分详细讨论这一问题。只有理解相关的生物学终点,我们才能获得基于质量的决策所需的数据,这是整体提高药物发现成功率所必需的,可能通过解释各个靶点对疾病的作用而实现。我们需要更好地了解:什么在起作用,在哪里起作用,为解决有效性和安全性需要获得哪些数据。当有足够大规模的数据可用时,才可以使用机器学习和AI方法将这些数据应用于决策,一旦我们达到这个阶段,药物发现中的AI工具将被提升到一个与我们现在完全不同的水平。

7. 结论

尽管AI药物发现领域最近受到了很多关注,但本文试图说明,以我们当前生成和利用数据的方式,我们不太可能做出提高药物发现成功率所需的更好决策,其关键原因是在决策的很多阶段都使用替代指标,而且是计算模型中大规模使用的核心数据类型,而并不太可能适用于对药物的体内表现做出更高质量决策,特别是在更复杂的疾病中。虽然化学数据可以大规模获得,并且已经成功地用于配体设计和合成,而这些数据主要涉及配体发现,对于诸如靶点验证当然很有帮助,但是需要进一步的步骤才能在药物发现而不是配体发现中充分利用AI

为了真正推进该领域的发展,我们需要更好地了解生物学,并以假设驱动的方式生成包含感兴趣信号的数据,这些数据与疗效和安全性终点都相关。换句话说,我们需要让更好的候选化合物进入临床、更好地验证靶点、改善患者招募、并改进临床试验的执行方式,所有这些方面都需要生成和利用更恰当地反映药物发现的生物学方面的数据,这涉及生成具有更有意义的终点的新数据。在许多情况下,这些数据可能是高维度的,一旦可用,我们就可以应用AI方法。

然而,这个目标不太可能用目前已经产生的许多替代数据来实现,至少如果替代终点在它们的生物学背景中没有被充分理解的话。如本文第二部分所述,为了预测药物的有效性和安全性、并降本提速,我们需要了解测量什么指标以及如何测量。只有当这些数据可用于AI方法时,这个领域才有望取得真正的进展

PS:本来是想一口气读完上下篇,结果信息量太大,本人基础知识又太薄弱,很多引用文献都只点进去看了个摘要,完全是囫囵吞枣,就先把上篇发出,再去啃下篇吧。

$Schrodinger(SDGR)$ $Recursion(RXRX)$ 

全部讨论

2023-07-13 11:40

有下篇吗?

2023-06-23 14:37

AI是机器学习逻辑,本来就不全是靠知识逻辑发现新联系的

2022-07-29 22:28

专业

2022-07-28 16:17

火箭烧煤

2022-07-28 11:58

好文,大赞,吃瓜群众看现在诸如Deepmind这些深度学习AI开发药物,模型等,但最大的问题出在生物这门基础学科上,人类对宏大复杂多变又交互的生物运作机制仍没有一个蓝图,不然各大绝症如癌症不等AI问世都可能已经有解药了

2022-07-28 10:16

太专业了