上交团队开发蛋白突变结构和能量预测模型,将AI蛋白计算效率提升1万倍

近年来人工智能(AI)技术逐渐成为“科学的新范式”。从解决传统的“计算科学问题”到“基础学科微观行为机制”的探索与设计平台,AI 技术正不断深入各垂直应用领域,推动大量领域的快速发展。

在基础学科领域,研究者可以借助 AI 技术打破人类思维的局限性,发现新规律、新现象。例如,决策或计算任务的自动执行、人工智能辅助优化方案、数据高效生成等。最重要的是,AI 处理和分析海量数据的能力可以帮助研究者挖掘到一般方法难以获取的数据模式。

因此,在 AI for Science 相关学科中,AI 能够取代传统的低效率方法,缩短研发周期,加速基础学科的发展。在物理层面,AI 通过更奇特的表征,重新发现、理解和扩展基本物理规律,包括对称性、守恒律、经典力学定律等,以物理世界为基础的直觉发现新的科学概念和范式,为物理学提供了另类见解。

在化学层面,AI 利用化学知识数据,提取高价值特征,结合自动化技术优化的重要反应化学合成过程,减少废物产生,提高可持续性,促进绿色化学的发展。

在材料层面,AI 以材料的电、光、力、磁、热等性质为导向,在原子尺度、微观结构等多维度对材料进行高效、高通量筛选与定向设计。在生物层面,AI 技术涉及的一揽子技术以理性设计各种生物结构和网络为手段,能够促进旧系统的优化、高性能新结构的产生,在终端产品上实现极大降本增效。

图丨李金金(来源:李金金)

在上海交通大学获得凝聚态物理学博士学位后,李金金赴美国伊利诺伊大学厄巴纳-香槟分校从事博士后研究,在美国加州大学圣芭芭拉分校担任研究员后,回到母校上海交通大学任教并成立上海交通大学人工智能与微结构实验室(AIMS-Lab)。

将 AI for Science 在材料科学、生命科学应用

上海交通大学人工智能与微结构实验室(AIMS-Lab)聚焦于 AI for Science 研究,探索 AI 在材料科学及生命科学领域的应用[1-6]。将 AI 应用在材料科学,AIMS-Lab 实验室提出了基于知识与数据双驱动的可解释模型,充分结合模型内在可解释性与事后可解释性,挖掘模型所学信息,实现了高效高性能新材料的发现与设计。

目前,他们开发的 AI for Materials 模型已经发现了一系列新型化合物,例如尖晶石、石榴石、四元半导体、双钙钛矿等。AIMS-Lab 团队针对锂离子导体中锂离子迁移机制不清晰、计算与实验成本高等问题,开发了一个受物理启发的机器学习预测平台 IonML,同时提供了涵盖上万个超离子导体的数据库,可实现数据检索、下载、预测以及优化等多种功能。李金金表示,在不久的将来,这些新材料会被实验合成,并在光电器件、固态电解质、光伏薄膜等领域得到实际应用。

该团队开发的 AI 与材料科学一体化的端到端的平台——AlphaMat 已于近日上线,其包含了近百个功能,输入指令即可完成对应的任务,不需要具备编程基础,仅需 5 分钟即可快速应用[1]。

AlphaMat 支持材料科学领域 AI 应用的整个流程,集成 26 个 AI 模型、91 个材料数据后处理和分析工具,包含上百万个材料属性的数据库,并将实时扩展,可满足几乎所有建模需求。李金金表示,该平台的推出初衷是降低门槛,让更多基础学科的研究人员加入到材料信息学的研究中,共同推动 AI for Science 的发展。

(来源:AIMS-Lab)

在生命科学领域,结合量子力学、神经网络和迁移学习算法,AIMS-Lab 团队开发了 ITLFF、MLQM-protein 等多个生物大分子力场构建软件、蛋白突变结构和能量预测软件、酶功能(酶活、热稳定性)筛选算法等。在全球人工智能辅助生物制造领域热潮的推动下,涌现了大量的人工智能算法预测生物分子的结构、力场、能量等参数。

但是,由于蛋白质体系庞大、结构复杂、应用环境复杂多变、高精度数据获取难度大等问题,前人的工作始终无法实现基于高精度标准的人工智能生物大分子(如酶蛋白)的预测。相比于传统的高精度量子力学计算方法,研究团队提出的一种基于共轭帽二体分块算法的深度神经网络方法,能够将计算效率提升约 1 万倍,已被应用于结构生物学和合成生物学领域,如药物分子设计、多肽/抗体设计以及酶分子设计与改造。

该团队基于量子力学计算、分块算法、势能面模型和深度学习提出了基于人工智能的蛋白质量子力学势能面(Quantum-PES)算法,基于量子力学精度数据集构建高精度高泛化能力的势能面预测模型,解决了量子力学在生物大体系中的应用难题。

该算法能对任意蛋白质能量、原子力、稳定性等进行高效量子力学精度计算,能够实现蛋白质及其复合物的结构动态模拟,深入解析作用机制和结构-功能关系,实现对酶蛋白的定向设计,可以批量获取具有高活性、高稳定性、适应工业环境等良好属性的酶制剂产品。能够实现对任意蛋白质能量、原子力及稳定性的高效高精度计算。

蛋白分子突变与其特性和众多疾病具有明确的因果关系,因此准确预测蛋白质突变,对功能性质造成的影响至关重要。然而,三维结构的稀有性和复杂性严重限制了蛋白质性质功能预测模型的开发和应用。同时,基于结构信息的计算速度较慢,而通过序列进行模型构建对特征提取和算法具有非常高的要求,开发效率极低。

即便如此,基于序列的模型也很难保证较高的预测精度。AIMS-Lab 团队以数据驱动为基础,提出了基于人工智能和大数据的聚类树回归算法(Clustered Tree Regression,CTR)技术,将无监督学习和有监督学习相结合,减小了人工智能模型中蛋白质序列特征分布差异大所带来的精度损失,实现弯道超车。

该团队构建了包含上百万蛋白质数据的序列向量数据库,在不依赖于蛋白质三维结构和冗余训练的前提下,可于毫秒时间尺度内,实现在大量数据中充分挖掘蛋白质特征的目标,解决了基于结构的生物分子预测算法的复杂维度难题,在蛋白质大模型的预训练中发挥重要作用。这些 AI 蛋白模型在对理解蛋白质折叠、DNA 动力学模拟以及实现新药设计等方面具有重要的意义。

谈及科研之路的感悟,李金金表示,科技路漫漫,筚路蓝缕启山林,青春光熠熠,君子不器拓边界,希望每位科研工作者和学生都有一份超越自我之心、挑战自我心、战胜自我之心,以不甘落后的精神来面对每个挑战。

以解决实际问题为导向,推动 AI 在基础学科中的应用

AIMS-Lab 的科研成果离不开来自 AI、材料、化学、生物等多种学科背景的成员,团队组成与 AI for Science 内核高度吻合,是跨学科研究和创新的结果。在经过各个学科领域的思维碰撞和讨论后,许多跨学科的难题迎刃而解。

这是 AI 与多学科交叉融合的一个缩影。近年来,很多高校已经开设了人工智能或相关的专业,这有利于培养专业从事 AI 和数据挖掘的高质量人才。李金金指出,我们必须看到,在解决基础学科的关键问题时,往往会出现对基础领域背景不清晰、科学问题理解不深入的情况,这说明目前更需要具有交叉背景的人才。

举例来说,传统计算机科学的研究人员处理传统计算机领域的问题很得心应手(例如,计算机视觉、图像识别、自然语言处理、语音识别等)。但是,面对 AI for Science 中的一些基础学科(如物理学、化学、材料学、生物学等),单纯计算机科学的研究人员由于缺乏相关专业背景知识,会面临无从下手、问题解析不深入、提出的 AI 模型不具备可解释性等情况。

因此,如何把 AI 算法由“黑箱”变成具有可解释性的物理化学模型,才是 AI for Science 发展的灵魂所在。只有解决了这个问题,强大的 AI 才能为人类所用。另外,为了实现真正的应用落地,研究者也不应该局限于高效率与高精度的理论发展,而更应该与实验科学家探讨,以解决实际问题为导向,推动 AI 在基础学科中的应用。

AIMS-Lab 实验室将持续专注 AI 在物质科学、生命科学等领域的研究,涵盖数据库平台构建、智能模型开发、实际应用等。“未来,我们希望 AI 不仅能够对实验的结果进行准确地预判,也能对实验现象和产品的性能进行可靠地解释。实验使 AI 更强大、更精准;而 AI 则让实验更加降本增效,带领人类更快速地去发现并创造。”李金金最后说道。

参考资料:

1. Jinjin Li, et al. AlphaMat: a material informatics hub connecting data, features, models and applications, npj Computational Materials, 9, 130 (2023). 网页链接

2. Jinjin Li, et al. A Data-Driven Platform for Two-dimensional Hybrid Lead-halide Perovskites, ACS Nano, 17(14), 13348–13357 (2023). 网页链接

3. Jinjin Li, et al. IonML: A Physically Inspired Machine Learning Platform to Directed Design Superionic Conductors, Energy Storage Materials, 59, 102781 (2023). 网页链接

4. Jinjin Li, et al. A deep transfer learning-based protocol accelerates full quantum mechanics calculation of protein, Briefings in Bioinformatics, 24(1), bbac532 (2023). 网页链接

5. Jinjin Li, et al. Clustered Tree Regression to Learn Protein Energy Change with Mutated Amino Acid, Briefings in Bioinformatics, 23(6), bbac374 (2022). 网页链接

6. Jinjin Li, et al. Machine Learning Accelerates Quantum Mechanics Predictions of Molecular Crystals, Physics Reports, 934, 1-71 (2021). 网页链接

排版:刘雅坤

由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开售!点击下方海报可购买图书!!

雪球转发:0回复:0喜欢:0