本文原载于中国食品药品网、食事药闻APP《人工智能药物研发》专题
导读
本文介绍了需要应用机器学习生成分子的场景,主要的分子生成模型,探讨了分子生成的各种表达方式,分析了影响分子生成质量的主要因素,最后提出了利用机器学习来加速分子生成、优化先导化合物的方向。
按分子量来划分,药物可以分为大分子和小分子两种类型。由于便于储存、运输、携带和服用,小分子药物一直是新药研发的一个重要领域。
对于小分子药物的临床前研发来讲,会经历靶点确立、寻找苗头化合物、生成先导物、优化先导物以及后续的一系列工作,直至提交临床前候选化合物,准备做临床试验。在这个过程中,由于化合物的筛选、优化、评价变得越来越苛刻,要求越来越高,实际合成这些化合物的担子也越来越重。从上世纪八十年代起,计算化学开始在新药研发中有了越来越多的应用,其中一个发展方向就是虚拟筛选:通过计算机生成虚拟化合物,再通过筛选,去决定优先合成哪些更符合要求的化合物,从而达到提高研发效率的目的。
在实际的研发过程中,不同的研发阶段对分子生成、筛选的要求是不同的。在寻找苗头化合物时,分子生成、虚拟筛选是跟随组合化学、高通量筛选的开发应用而发展起来的。通过最开始的模拟组合化学反应,逐步完善,建立了巨大的小分子数据库,比如说,包含了两亿多个可购买的小分子数据库(ZINC15),基本上可以满足寻找苗头化合物阶段虚拟对接的需要。
在生成、优化先导物时,相比对追求活性的执着,是否有自主知识产权,对新药研发来说才是至关重要的。如何通过已知化合物,衍生出新的、有活性的、并最终能满足临床候选化合物所有条件的化合物系列,就成为一个需要药物化学家们不断探索、钻研的问题。从数学角度来看,这其实是一个如何生成一系列化合物,使它们的物理、化学性质满足一个或多个边界条件的问题。
其实,这类问题有两类解决方案:一类是首先生成化合物,然后再用各种条件去筛选,比如说各式各样的建立在靶点系列基础上的分子库;另一类是一边生成分子,一边筛选,同时不断把筛选信息反馈给生成函数,使得后续生成的分子更加符合筛选条件。
下面介绍一些现在已经可以应用、同时还在不断完善中的机器学习的分子生成方案。这些分子生成的方案,都遵循一个通用的模式,即用一个算法作用在一个分子训练集上,从而产生一个生成集,然后通过比较生成集来评价这个算法的性能。首先需要说明的一点是:如何检查一个机器学习程序生成出来的分子是不是一个“真”分子,可以用一个计算机辅助药物设计软件包(RDKit)的功能来完成,也可以通过另一个功能来测试一下这个分子的可合成性。事实上,很多筛选条件都可以通过这个软件包的不同功能来实现。更复杂的筛选条件就需要通过机器学习程序来完成了。
1.常用的分子生成模型
1.1随机生成模型
这是一个底线模型,为达到某个(些)特定筛选条件,随机生成分子,在正常情况下并没有应用这种模型的场景,经常是用来为下面的其它方案提供一个对照。
1.2建立在随机生成模型基础上的遗传算法生成模型
这是一种结合特定的筛选条件而不断优化的模型。在随机生成的基础上,根据筛选条件给出的反馈,给出在哪些位置和进行怎样的置换能够产生更多的符合条件的化合物。根据对生成分子的描述方式不同,又分为用简化分子线性输入规范(SMILES,Simplifiedmolecular-inputline-entrysystem)描述的遗传算法和用图形(graph)描述的遗传算法两种生成模型。这些遗传算法的生成模型,同随机模型相比,都在不同程度上提高了生成符合条件的分子机率。
1.3需要指出的是,对分子的不同描述方法,会引进不同的机器学习算法
下面介绍的这两种模型就是根据不同的分子描述形式应运而生的。当分子采用图形描述时,可以采用蒙特卡罗树搜索来生成新分子,这种方法可以同时应用上面提到的遗传算法来提高生成分子的几率。这种模型不但可以生成为某种条件而筛选的分子,还可以生成不附带筛选条件的分子集。
当然,采用简化分子线性输入规范(SMILES)的描述,可以通过采用长短期记忆网络(LSTM)来实现。长短期记忆网络(LSTM,LongShort-TermMemory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的。由于这种循环算法的特性,使得对应用SMILES表达分子的环型结构、以及手性中心等立体结构,有更完善的呈现。LSTM可以用来生成带或不带筛选条件的分子集。
还有一类自动编码器的深度学习算法,如变分自动编码器(VariationalAutoencoder,VAE)和对抗自动编码器(AdversarialAutoencoder,AAE),利用潜在空间(LatentSpace)对分子的描述方法生成分子。一方面利用编码器将训练集的分子特征存入LatentSpace,另一方面通过解码器将这些分子特征重新组成新的分子。这类方案利用对LatentSpace的不断积累,使生成的新分子集比较好地保持训练集的物化性质的分布。
另一种现在很流行的深度学习算法是生成对抗网络(Generativeadversarialnetwork,GAN)。这个算法通过两个函数,生成器和鉴别器互相对抗,来产生符合要求的分子。由于组成分子的原子的不连续性,鉴别器无法直接给生成器反馈信息,借鉴在自然语言处理中采用的方法,通过一个奖励方程(rewardfunction,或policygradient)来实现信息反馈。这个奖励方程可以用来作为筛选条件,既可以用来保持生成集的物化性质的分布与训练集的分布相同,也可以推动生成集的物化性质的分布朝另一个方向转化。这种算法可以使用各种分子的描述方法,SMILES,Latentspace,或graph,通过结合各种不同的筛选条件,能满足各式各样的需求,是一种很有潜力的算法。同时,在视觉和自然语言处理邻域里,生成对抗网络的开发非常火热,有很多改进可以借鉴。
2.常用的分子描述方式
除了各种机器学习算法本身的特性,影响分子生成的另一个原因就是数据本身了。在机器学习的广泛应用中,越来越多的工程师、管理人员意识到,影响机器学习应用成功的首要原因,并不一定是模型本身,而有可能是送到模型里去计算的数据。在应用机器学习模型生成分子这个领域,这个数据包含两个方面:一是分子的表达方式,二是可以用来做训练用的分子集。
首先介绍一些分子的描述方式。
最简单、直接的分子的描述方式是简化分子线性输入规范(SMILES)。SMILES是一种用ASCII字符串明确描述分子结构的规范。由于SMILES用一串字符来描述一个三维化学结构,在机器学习的过程中可以引进“自然语言处理”的计算方法来处理分子。
在计算化学中经常用到的一类分子表达方式是指纹(fingerprint)。这类指纹可以用多种分子碎片的定性(量)统计来表达。有些分子碎片是有化学意义的,其它分子碎片化学意义不那么明显,也可以用一些图论(graph)的方式来表达。在大多数情况下,这些指纹表达都使用了一个Hash功能,把指纹的长度限定在一个有限的范围内,从而限制了表达式的精确度和通过指纹解码还原分子的可能性。在定量构效关系(QSAR)的研究中,这类图论类的指纹,可以较好地表达分子物化性质。对于如何应用筛选条件去引导生成分子集的物化性质的变化,分子指纹能提供很大帮助。
上面提到的LatentSpace可以看作一种通过机器学习生成的指纹。当通过一个很大的分子集来生成一个潜在空间时,这个潜在空间就包含了所有可能的分子特性,通过对这些特性的描述来表达这个分子。
最后一类分子描述是图形(graph)。拓扑图论描述、处理是机器学习的一个重要方向,有很多的尝试在进行中。在OpenGraphBenchmark(图基准数据集)中,分子的拓扑图论描述也是其中的一个分支。通过对各个实验室、团队提出的拓扑图论描述方案的比较,试图找到最佳方案来表达分子,使得我们可以在分子生成方面利用与拓扑图论有关的最新进展。
在这几类分子表达方式中,只有SMILES是与分子三维结构一一对应的。其它几种方式逆转都有一定的难度。
3.分子训练数据集
在开发这些机器学习生成分子的方案时,一般都采用了比较大的训练集。但在实际工作中,一个项目相关的分子数量,会在几个(FIC)到几千个(BIC)之间,在这种情况下,一方面需要开发新的算法,另一方面也可以结合已有的计算化学的方法来丰富训练集的分子数目。
有两个比较著名的大的分子集。一个叫ZINC,是一个小分子结构数据库,在该数据库中存放有大量现在市场销售的小分子化合物。UCSF(加州大学旧金山分校)最初准备这个数据库是为当时他们的对接软件DOCK配套的,现在这个数据库已经成为虚拟筛选的标配。
另一个数据库叫ChEMBL。ChEMBL是一个大型的药物发现数据库,其中包括了收集药物研究和开发过程中公开发表的文献中的药物化学数据,有关小分子及其生物活性的信息来自几种核心药物化学期刊的文章。
我们可以根据实际工作的具体需要选择最适合的数据库作为训练数据集。
4.生成分子的策略与当前面临的挑战
在不同的研发阶段对生成分子有不同的策略,就是在同一阶段对不同的项目要求也不尽相同,很难给出一个统一的生成方式。在靶点验证阶段,主要任务是找出足够多的苗头化合物,对化合物本身的新颖性要求不高,更希望看到苗头化合物的多样性。而到了先导物生成、优化阶段,我们的重点是如何保证生成分子的新颖性(novelty)和一致性(consistency),并且期望在适当的时机有一定的可转化性,这样才能更好地与药物化学的努力同步。
由于分子结构之间是不连续的,生成的分子会有很大的跳跃性。通常遇到的问题是很难控制生成分子之间的转换,从而造成分子生成失控。
我们需要在开发新的机器学习模型的同时,确保使用了准确数据。同时也要利用新药研发中的现有计算化学工具、方法,比如虚拟筛选技术,包括药效官能团模型、分子骨架模型,以及虚拟对接。也可以结合其它实验结果,高通量测试、DNA编码数据库来实现。
这不仅是一个生成新分子的问题,还有其他方面的问题需要同时应对。在实际的研发过程中,这是一个动态过程,需要在先导物生成、优化过程中,不断地发现、解决问题。
专家简介
岳石怡博士,本科毕业于吉林大学,法国巴黎第七大学有机化学博士,有近30年的小分子药物设计、拥有10多年欧美药企和国内CRO的工作经验。现为南京浦意生命智能科技有限公司首席技术官。
原康龙化成计算化学和生物信息执行总监,负责为客户提供综合药物化学项目的计算化学支持,以及PDX相关项目的生物信息学支持。
原阿斯利康蒙特利尔研发中心首席研究员,为超过30个以GPCR和离子通道为靶点的开发先导物项目提供支持。借助机器学习方法,针对超过50个GPCR靶点进行面向GPCR的组合化学设计,共合成、测试了超过30多万的化合物。密切参与和促成多个中枢神经、止痛领域的G蛋白偶联受体和离子通道靶点的先导物优化项目,并推进到FGLP和临床试验阶段。多项专利起草、申请和执行经验,发表相关SCI论文30多篇,拥有一项“验证用与新药开发的机器学习技术”专利。