最近电影《我不是药神》引发热议,原研药贵,且研制过程九死一生。近期Science Advances上发表了《Deep reinforcement learning for de novo drug design》(基于深度强化学习的新药设计)、以及2017年Journal of Cheminformatics上的《Molecular de-novo design through deep reinforcement learning》。掀起来人工智能方法研制新药的序幕,人工智能到底如何研制新药的?这种方法有什么优缺点?
在制药行业,新药研发是个费时费力、成本高昂、而且成功率极低的工作。一般研制一个新药,需要上十年的时间,费用超过10亿美元。制药企业积累了大量调控蛋白功能的小分子化合物,规模约百万规模的化合物。需要从百万个候选化合物中,刷选出1个药物。这有点像是大海捞针,运气成分很大。而人工智能方法利用机器学习方法,从海量化合物数据库中提取关键有效信息,也许可以大大减少研发时间,提高筛选的成功率,成为新药研发的新的方法。一旦这条路能顺利走通,必将革新小分子化学药研制。
人工智能方法筛选分子有两个途径:一个是用监督学习的方法建模筛选模型,这种方法好比构建一个大海捞针的模型。另一种方法是利用生成建模依照所需特性来生成分子结构,该方法不需要捞针,而是自动生成生成针取代常规的筛选的过程。我们最初提到近期两篇文章,用的是后一种方法。该方法的的目标是训练出一个生成药物分子的模型,在完成训练之后用该模型生成候选药物。
人工智能具体用到了两类方法:一个是深度学习方法,在这里深度学习方法主要是RNN和生成式对抗网络(GAN,Generative Adversarial Networks ),GAN是近年来非常火的一种学习模型,通过生成模型和判别模型相互博弈产生模型。另一个是强化学习方法,用人类已经研制出的药物作为监督样本,调整模型参数。关于强化学习、监督学习、非监督学习方法,Yann LeCun大神对它们有一个比喻图如下:
生成模型的输入是什么呢?回想GAN方法正在图像处理中,输入就直接是图像本身。而在新药研制中,如果将分子数字化是个很好玩的事情,因为总不能将一个分子直接搬到计算机内存里去吧(想想都怪怪的),只能将分子数字化。而人类对分子描述包括分子式、分可以作为分子的数字化特征。
例如在《The cornucopia of meaningful leads: Applying deep adversarial auto encoders for new molecule development in oncology》论文中,他们使用用美国癌症研究所(NCI)的 NCI-60 药物筛检数据库中针对乳癌细胞 MCF-7 的 6252 种化合物,以及分子指纹和分子浓度、生长抑制百分比等数据作为分子的数字化特征,模型输入包括166个参数,来训练一个生成模型。他们所设计的深度网络结构,由输入层(166+1),编码网络(分别由128个和64个神经元组成的两层网络)、解码网络(分别由64个和128个神经元组成的两层网络)、输出层(166+1)、中间的潜在层(分别由4个神经元和1个代表抑制癌细胞效果数据的GI)、鉴别网络(分别由64个和3个神经元组成的两层网络)组成。研究人员在PubChem的七千多万个小分子中,发现了69个化合物,其中13个是已经申请专利的药物分子,另有13个是被PubChem BioAssay登记有效的化合物。
也有文章直接用分子式或者SMILES数据、分子图像以及其他化学和生物相关的分子结构表征数据作为输入,建立模型。想想都觉得疯狂,直接用SMILES数据描述一个分子,也就是将一个分子类比一个自然语言句子,采用自然语言处理方法中常用的RNN或者LSTM方法对这个分子进行建模。这个AI系统得多智能啊!!!直接看分子式就能研制药物了!!本文一开头提到的两篇论文就是用SMILES数据作为模型输入,训练模型的,他们发现直接学习分子式也是一个可行的策略。
对分子式用SMILES编码方法如下图。在本文开头提到的文章中,作者利用RNN方法(或者LSTM方法)可以训练出生成全新SMILES字符串的模型,再基于强化学习中的迁移方法,利用之前人类的小分子数据集作为学习范本,对前面RNN模型进行微调。最终得到的生成模型有可能产生出于真实世界中药物的化合物。
用人工智能方法设计新药看起来很容易、但实际上,当前AI设计新药存在许多缺陷:一是很难解释,设计出来的模型为什么能成功,缺乏解释。二是样本量不够大。尽管分子式达到了千万的规模,但是监督数据却非常少,根据《Nature Reviews Drug Discovery》2016年的数据,在被FDA批准的1578个药物中,总共涉及的靶点数才667个。而且还没办法想AlphaGO那样自动生成样本。三是强化学习方法中的奖励分无法明确给出,使得现有的强化学习方法运用在新药研制上,真正起作用有限。四是就算挑选出新的分子式,它的临场表现如何还得经历九死一生的过程。