1 月12日,我院朱山风研究员团队在《生物信息学》(Bioinformatics)杂志上发表了题为《Sc2Mol:一种基于化合物骨架的两步式分子生成模型》 (“Sc2Mol: a scaffold-based two-step molecule generator with variational autoencoder and transformer”)的研究成果。
探索化学空间搜寻具有制药潜力的分子是药物发现的关键问题之一。已有许多计算方法使用生成式模型来产生与给定训练集相似的类药分子,但是这些方法或是未能充分考虑到化合物骨架对生成分子的指导作用,或是需要预先定义特定的子片段模式而引入偏见。朱山风研究员团队提出了一种基于化合物碳骨架的两步式分子生成模型 Sc2Mol。该模型受到基于化合物骨架的药物设计以及有机合成中前体修饰启发,使用 SMILES 字符串作为分子的表示形式,将分子生成拆分为基于变分自编码器的骨架生成和基于transformer 的骨架修饰两步。Sc2Mol 的优点是无需预先定义的专家知识即可自动从训练集中学习相应的化学规律,并同时支持随机新分子生成和基于骨架的化合物优化修饰。研究人员在类药分子数据集 MOSES 和 ZINC-250k 两个数据集上评估了该模型的性能。与现有的先进模型相比,Sc2Mol 模型在随机生成新分子任务上取得了最佳的成功率、新颖度和多样性,并且生成的分子性质分布更接近于训练数据;在化合物优化修饰任务上,Sc2Mol 模型输出的结果与参考目标分子的平均相似度达到了最高。此外,研究人员还开展了关于治疗神经系统相关疾病药物的案例研究。实验结果表明,Sc2Mol 既能够基于初始命中化合物产生与湿实验优化相似的类药候选分子,亦能够在特定数据集上微调产生与现有上市的苯二氮平类药物相似的新型分子。
我院朱山风研究员是本文的通讯作者,实验室博士生廖智睿是本文的第一作者。
原文链接: https://academic.oup.com/bioinformatics/article/39/1/btac814/6964383