8月26日,首届全球AI药物研发算法大赛决赛答辩暨颁奖典礼,在清华大学生物医学馆举行。来自微软研究院、中国科学院上海药物研究所、上海交通大学等单位的十五支团队,从全球878支团队中脱颖而出,进入了决赛答辩环节。
产教融合,共育AI药物研发人才
总决赛开幕式上,清华大学药学院副院长陈立功代表主办方致开幕辞,并对来自全球高校、研究院所和企业的嘉宾参赛团队表示热烈的欢迎。他表示,长期以来,药物研发面临成本高、成功率低的问题,而AI技术的发展为此带来了新的机遇。清华大学药学院希望通过比赛,促进高校、科研院所与企业在AI+药学领域的合作与发展,解决制药领域的难题,同时能够从大赛中,孕育更多AI与生物医药交叉学科的人才。本次大赛的主要内容是预测小分子在细胞水平是否能够抑制新冠病毒,是一个分子表示学习的问题,也是药物化学与小分子药物设计中的关键问题!
总决赛评委,分别为中国科学院上海有机化学研究所丁克教授、上海交通大学医学院药物化学与生物信息学中心主任张健教授、罗氏中国创新中心AIDD负责人林翼博士、清华大学药学院田博学副教授和百度资深产品设计师,飞桨螺旋桨PaddleHelix产品负责人张肖男女士。
专家评委们对团队的答辩进行提问并提出宝贵建议
总决赛团队逐鹿清华,答辩现场“神仙打架”
来自微软亚洲研究院的ViSNet-Drug团队,利用自主研发的AI2BMD动力学模拟系统和预训练的ViSNet模型。在初赛中, AI2BMD对小分子和靶点蛋白Mpro的结合自由能进行精确计算并对数据进行pseudo label标注。AI2BMDk可对超过10,000原子的蛋白质模拟,达到接近密度泛函理论(DFT)的精度的能量计算并缩短了数个数量级的计算时间。在复赛中,团队利用AIMD-Chig数据集对ViSNet模型进行预训练,并利用初赛数据进行多标签多分类学习。值得关注的是,该团队以比赛为契机,将ViSNet迁移到了飞桨PaddlePaddle框架进行了实现,最终取得了更优的结果。
来自中国科学院上海药物研究所的蓝风信团队,使用Unimol和KANO预训练模型和分子指纹,结合残差网络进行PaddleHelix中GEM模型的优化,基于ADMET问题的较好表现,使用了各种常见的指纹形式,并通过改变网络架构将这些信息融入。此外,模型创新点还有使用Resnet代替简单的线性层提取GEM结束后的图表征信息。在复赛数据处理方面,团队巧妙地使用复赛数据训练出的模型给初赛数据打上标签,使用这种标签训练了用于复赛的模型,并且额外收集了数据来保证模型最终的表现。
来自上海交通大学的MolAI团队,使用经过大规模数据集预训练所得到的预训练模型在预测药物分子亲和度的下游任务上做finetune。团队的方法使用了4个基于预训练模型预测的结果去做ensamble。其中,4个模型可以大致分为基于图表示的学习和基于序列信息的学习。基于图表示的学习采用GNN去提取分子图的特征,基于序列信息的学习则使用Transformer去提取序列的特征。最终,团队的方案也取得了不错的效果。
本次比赛,要求选手基于飞桨PaddlePaddle完成算法的搭建,比赛过程中,我们提供了基于百度飞桨螺旋桨(PaddleHelix)工具的基线及一系列赛事培训,以赛促学,让更多选手关注AI药物研发领域。值得一提的是,在本次总决赛的队伍中,有不少团队是从其他领域跨界而来,比如来自金融科技领域的paipai团队,来自软件开发领域的得闲饮茶团队,这次比赛,也成为了其他领域选手入门和加入AI药物研发领域的一次敲门砖。
15支队伍载誉而归,AI制药未来可期
获奖团队合影
在颁奖典礼和闭幕式上,百度飞桨教育生态运营负责人钱芳表示,医药工业,它关系到国计民生,是实现健康中国建设的重要基石。2022年5月,百度飞桨联合清华大学药学院,筹备建设“AI+药学”产学研融合创新基地,推出了一系列AI+生物计算前沿课程和人才培养计划,旨在为AI药物研发领域的人才培养提供重要平台。此次赛事的成功举办,也是飞桨与清华药学院在AI+药物研发领域产教融合的重要一环。
面向未来,飞桨希望与以清华大学药学院为代表的产学研用各方携手努力,加快我国AI制药产业的人才培养,共同开创我国AI制药领域的新局面。
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~