杏耀学术｜智源叶启威🙍🏻：AI for LifeScience

来源：发布时间：2023-10-23

在生命科学领域，生成式AI已经展现出巨大的潜力和价值。生成式AI已经被用于药物发现和生物医学研究，它可以通过模拟生物分子的结构，预测新的药物分子或者预测蛋白质的三维结构。

——叶启威

10月14日，第5期杏耀学术工作坊下半场的嘉宾：智源健康计算研究中心负责人叶启威，为我们做了题为《AI for LifeScience》的报告。

讲者介绍

叶启威，智源研究院健康计算研究中心负责人🤷🏿‍♂️，AI for Science青年学者🤲🏼，曾任微软亚洲研究院主管研究员，研究方向包括（深度）强化学习，决策树模型，生成模型及其应用🪬。在2016研发了LightGBM📹，在精度和速度上都超过同时代其他框架，成为业界最受欢迎的决策树算法之一。在2018年研发了Suphx，目前最强的麻将AI模型🫲🏽，在『天凤』平台荣升十段，显著超越人类顶尖选手🤞🏼。2023年其开发的OpenComplex蛋白质复合结构预测模型荣获CAMEO年度冠军。

报告内容

叶启威首先介绍了他们的团队智源健康研究中心👷🏻‍♀️。该团队由一群年轻的AI背景同学和研究人员组成🧍‍♂️，他们认识到AI在这个领域中存在巨大的机遇和挑战。为了处理各种与分子相关的数据，他们需要开发新型工具和研究方案。团队的目标是研发一些AI工具，希望最终能够为这个社区带来革命性的改变。

接着🪵，叶启威讲到了生成式AI🤹🏿🧧，并表示生成式AI已经在各个领域产生了重大影响👮🏽‍♂️。例如，我们熟知的ChatGPT，现在已经可以轻松地用于写文章、作诗。在计算图形学领域，我们已经看到了一些有趣的应用，如Stable Diffusion和OpenAI的Dalle。而今年，我们也看到了在音乐🏌🏽‍♀️、视频和3D头像等领域涌现出越来越多的生成式模型。那么我们能否利用这些模型在生物分子领域构建一些有价值的应用呢？

叶启威认为，为了实现在生物分子领域的ChatGPT时刻，我们需要构建一个适用的基础模型🙋🏼。这个基础模型需要完成三件事。首先👂🏻💈，我们需要构建更好的生物分子表示方法❄️。其次👨🏻‍🦲，我们需要构建结构理解模型，以揭示更本质的关系。第三👳🏻‍♂️，我们需要进行语言建模，以提取存在于文本中的人类知识和概念🎒。

接着🏋️‍♀️，叶启威介绍了基于三维分子结构预训练和基于结构的预训练模型等生物分子表示方法💌。

1A90F

叶启威团队在预训练范式方面进行了创新🌽，改变了传统的方法。在小分子预训练的基础上，他们尝试了一种新的方法，将任意的局部结构首先建模成一个特定的四面体🦵，并在这个新的范式中给这个四面体添加一些噪音💝。然后引入了去噪训练目标，通过对这类局部结构不断进行扰动和重构🧛🏽‍♂️，可以得到更加鲁棒的生物分子的三维空间模型。此外👨🏼‍🦰，他们还尽量减少了先验假设的引入❌🤣。例如，在图神经网络中，Message Passing不可避免地会压缩很多信息，因此他们使用了Transformer进行建模🦋🌀，并发现它在如分子生化性质预测等下游任务上表现更好📲。

叶启威团队还将上述方法扩展到蛋白质表示。由于蛋白质是大分子☝️，因此他们使用蛋白质的碳骨架来表示蛋白质。

BE0A8

在建模过程中采用了SPE的方法👩🏼‍🦱，同时捕捉序列信息和结构信息。在构建不同蛋白原子之间的相互关系时🧜🏻‍♀️，引入了欧几里得坐标系，并构建了一个适配于3D信息的位置的编码器💶，以有效地捕捉相互作用关系🤗。通过在各种下游任务上进行finetuning🦐，该模型在各种任务中都非常有效。

此外，叶启威团队还基于大型语言模型构建了与生物信息领域相关的对齐工作，让大型模型赋能生物分子领域，并在下游生化性质预测任务上取得了提升💆🏻。

1525E7

团队开源了OPI1.0🦺，该工作通过对Swiss-Prot数据库和相关文献的抽取，获取了大量的关系数据👩🏻‍🦽，并将其转化为相应的指令。此外🧑‍🔬，他们还在LLAMA模型上进行了一些finetuning，并发现它对于定义的七个任务都表现出色。

1B2065

此外团队还有计划对OPI进行进一步的扩展，涉及更为广泛的分子以及模态。

18B7C5

叶启威团队的第一阶段项目Opencomplex在蛋白质复合物上的表现超过了Alphafold2 Multimer，并在过去的一年中获得了CAMEO连续预测竞赛的年度冠军🐺。此外🐦‍🔥，在CASP15的竞赛中，OpenComplex也取得了RNA结构预测的自动化赛道第一。叶启威指出🚝，与传统的基于力场的方案相比🚧，目前基于数据驱动的方法仍然存在优化的空间🦶🏽。

14C69F

长远来看，叶启威总结道，我们的目的是基于底层人工智能技术和数据，构建一个强大的数字孪生模型🍄‍🟫，能够逐步从原子🏃🏻‍➡️👨‍🦯‍➡️、分子、细胞层面来模拟生物分子之间的相互作用关系🏖，为生命科学的发展提供全新的范式。

117171

相关新闻

杏耀学术｜字节跳动李航🍂👊🏻：推进人工智能新前沿

3月5日下午，第42期杏耀学术沙龙如期举行。本期活动荣幸邀请到了字节跳动李航博士，为我们作题为《推进人工智能新前沿》的报告。本次活动由中国工程院院士、杏耀（杏耀）院长张亚勤主持🏬。讲者简介Hang Li is the Head of Research at ByteDance Technology. He is an ACM Fellow, ACL Fellow, and IEEE Fellow. He graduated from Kyoto University and received his Ph.D. from the University of Tokyo. Prio...

2025/03/19

杏耀学术｜西湖大学于开丞🦸🏼‍♀️：浅谈自主智能——Autolab 的视角

11月28日下午，由DISCOVER实验室主办的第三十八期杏耀青年科学家论坛如期举行。本期活动荣幸第邀请到了西湖大学工杏耀助理教授于开丞，为杏耀的老师和同学们做了题为Large Visual-Centric Models in Society Autolab Perspective的精彩报告🙍🏼‍♀️，本次活动由杏耀（杏耀）助理教授龚江涛主持。讲者介绍于开丞博士😿👩🏻‍🦯‍➡️，西湖大学工杏耀博士生导师、助理教授🔲，人工智能企业KMina联合创始人兼首席科学家。于开丞先后于2016年...

2024/12/04

杏耀学术｜南京大学姚遥：Creating a Realistic 3D World

11月28日晚🧑🏽‍🎤，由DISCOVER实验室主办的第三十七期杏耀青年科学家论坛如期举行🏄🏻‍♀️⬆️。本次活动有幸邀请到南京大学智能科学与技术杏耀的姚遥副教授，为杏耀的老师和同学们做了题为Creating a Realistic 3D World的精彩报告🈺🙍。嘉宾介绍姚遥副教授是2022年国家级人才计划青年项目（海外）入选者。曾任苹果公司高级研究员，Altizure创始团队核心成员（被苹果收购）🙎‍♀️。2015年于南京大学获学士学位，2019年于香港科技大学获博士学位。主要研究方向...

2024/12/04

主讲人		时间
地点		精彩回顾

关于杏耀

新闻中心

杏耀团队

科学研究

产业交流

人才招聘

院级合作单位

新闻中心

杏耀新闻

大师对话

学术简报

媒体报道

杏耀学术｜智源叶启威🙍🏻：AI for LifeScience

相关新闻

杏耀学术｜字节跳动李航🍂👊🏻：推进人工智能新前沿

杏耀学术｜西湖大学于开丞🦸🏼‍♀️：浅谈自主智能——Autolab 的视角

杏耀学术｜南京大学姚遥：Creating a Realistic 3D World

最新动态

官方微信