巅峰对话:CADD到AIDD----新药研发反内卷的“破局者”
【ZiDongHua之会展赛培坛:维亚生物 、维亚医药观"CADD到AIDD,创新破内卷?"沙龙、 计算机辅助的药物设计、 CADD 、AIDD 、人工智能 、ChatGPT、 蛋白设计 、核酸药物设计】ChatGPT是一个自监督学习预训练的语言大模型,它在文本的生成和语言的处理上比较前沿,但可能需要进行针对性训练(包括高质量数据的finetuning和更多的相关的人类反馈强化学习—RLHF)才会更加适用于生物医药领域的应用。他觉得可以应用在生物医药的场景包括蛋白设计和核酸药物设计,因为氨基酸序列及核酸碱基碱基更适用于语言的读取和编辑。
巅峰对话:CADD到AIDD----新药研发反内卷的"破局者"
/美通社/ -- 在创新药"内卷"时代,CADD/AIDD作为目前生物医药领域火热的前沿技术,为药物发现与开发带来了极大的助力,它们会是新药研发"反内卷"的破局者吗?2月24日,由维亚生物举办的维亚医药观"CADD到AIDD,创新破内卷?"沙龙同步线上线下成功举办,定向邀请了维亚科学家、学术界专家、AI制药企业创始人及研发代表,共同把脉CADD/AIDD发展动向,探讨如何开启创新药研发新范式。
维亚生物生物部高级主任钱玥博士
计算机辅助的药物设计(CADD)——为药物设计按下快进键
都说ChatGPT人工智能颠覆了大家对AI的看法,但这背后计算工具功不可没。钱玥博士以此为出发点,介绍了CADD如何帮助药物化学团队快速推进药物设计流程,并通过实践案例深入阐述了CADD中那些至关重要的计算工具在具体场景中的落地。以CFD靶点为例,在药物设计前期,数据收集是第一步,对于给定的基因,首先需要在数据库中收集并整合已有的结构信息、骨架的分析及活性数据等,以帮助后续研究快速了解启动。然后,维亚CADD团队一般会通过SiteMap、Binding response以及Cosolvent MD从零开始寻找结合位点,再基于自有的超算中心平台,结合维亚200k结构多样性化合物库进行高通量虚筛,接着通过分子生成对此前得到的小分子进行一系列的迭代,从而筛选出比较有潜力的骨架。此外,从头设计也是维亚寻找苗头化合物及先导化合物的强有力工具,CADD团队从已发表的药物分子研究中提炼出其药效团模型,并且可以结合分子生成及小分子片段的连接,设计出一整套自动化De novo设计的流程。进入先导化合物优化阶段,对于计算化学来说,最重要的步骤在于做自由能微扰,也就是计算某一分子从A转变到B的自由能变化,得到结果后再与药化团队合作,以展开后续的优化。在此她强调道,对比薛定谔的模块,维亚自有的自由能微扰对应自由能变化(dG)误差在1kcal/mol之内,可信度较高。
中国科学院上海药物研究所研究员郑明月博士
基于AI的药靶相互作用预测
药物靶标相互作用预测一直是药物设计的核心和难点问题,那么如何解决这一难题?郑明月博士提出了药物-靶标作用识别可以类比为人脸识别问题的思路,并列举多个案例分享了基于序列的药靶作用预测、基于转录组的药靶作用预测及基于AI的多靶标药物设计。同时,郑明月博士也表示,更精准的药物靶标相互作用预测仍需要探索。
"药物研发新范式,AI+如何赋能药物创新?"圆桌讨论
在维亚生物首席创新官兼维亚生物创新中心负责人戴晗博士主持下,华东理工大学教授兼康仁汇诚创始人唐赟博士、索智生物创始人兼首席执行官许大强博士、湃隆生物首席执行官李铭曦博士、英矽智能联合首席执行官、首席科学官及药物研发负责人任峰博士、晶泰科技首席科学官张佩宇博士共同讨论了3个议题:
Q1:很多人将CADD/AIDD称为药物研发新范式,各位是如何看待药物研发从结构驱动到数据驱动这一趋势的?
嘉宾们结合自己在医药行业多年的从业经验及公司布局情况发表了个人看法。唐赟博士表示,AI三要素是数据、算法和算力,其概念早在20世纪50年代就出现了,但此后由于数据匮乏而经历了很长一段时间的停滞。后来,随着互联网时代的到来,数据共享得以推动,特别是近年来AlphaGo、AlphaFold2、ChatGPT等的出现带动人工智能火了起来,但是这是否会颠覆传统模式,取代人工操作仍有待商榷。传统意义上讲,CADD被称为结构驱动,AIDD被称为数据驱动。基于此,唐赟博士认为,AIDD是CADD发展演变的高级阶段,就好比一个硬币的两面,缺一不可。两者结合起来,共同促进药物研发。
许大强博士表示,新药发现无外乎设计、合成、测试、分析四步,AI制药亦是如此,但AI可以大大提高效率和精度。AI在新药研发中潜力巨大,不过目前仍处于过渡阶段,未来仍有一段很长的路要走。那么现阶段该如何运用AI技术呢?许大强博士表示,索智通过自有的"端-到-端"的CADD/AIDD技术平台"AIxMol",大大地提高了活性分子设计和优化的效率。 同时,根据索智公司管线研发需求,搭建了包括多靶点分子设计等特有的技术平台,专门赋能产品的差异化创新。
李铭曦博士认为,CADD/AIDD没有明显的定义,两者是相互融合的。AI是一个很好的工具,帮助研发人员去提升效率,降低成本,是未来5-10年,甚至10-20年的一大趋势,也许在未来我们会看到很多创新药背后都有AI的身影,且这个趋势是不可逆转。同时,新工具的出现,像ChatGPT等,还会推进整个医药研发往前迈进。
任峰博士从传统药化专家的角度进行了分享,他认为,从CADD到AIDD,两者都是基于计算机,都可以降本增效,但前者侧重于评价,后者更多的在于创造性,从蛋白的结构到生成化合物,最终目的在于生成first-in-class的hit。
张佩宇博士表示,CADD和AIDD是很好的互补。AIDD是自上而下的过程,从数据出发去找出物理规律的一种方法,而CADD是自下而上的,从原子-原子、分子-分子相互作用出发,找到其中的物理规律。
Q2:目前AI制药公司的数据源多来自于公开资料,如已发表的医学文献,公开的靶点库、药企、科研机构或院校的公开数据等,但专业的高质量数据、失败的数据依然难以获得。如何打破数据缺乏的困境,各位有什么好的想法吗?
唐赟博士表示,数据的数量和质量都很重要,尤其是质量。我搭建的预测模型基本都是依靠网上公开的数据,但是还是比较有限,大部分都是小样本数据,这极大地阻碍了AIDD的发展。尤其是阴性数据很缺乏,在公开文献中也不多见,鉴于此,我们是不是可以呼吁学术界在发表文章时把阴性数据也公布出来。对于企业界而言,每个公司有自己的内部数据,但都是分割的,那么是否能够几家公司达成协议,在小范围内进行数据共享,从而达到双赢的目标。
李铭曦博士分享了湃隆生物在面临数据缺乏问题时的应对方法:第一,有意识选择公开数据丰富且高质的靶点,就比如我们的CDK靶点,从一个CDK积累数据,在此基础上不断学习,一直到目前的3个CDK产品。第二、有意识地收集底层的一些小数据,比如阴性数据等,这些在domain类似的靶点中会起到很大的作用。
张佩宇博士认为,数据主要有drylab和wetlab两个来源。drylab对于某一些与结构相关的研究来说,是一个很好的数据来源,晶泰的XFEP等计算工具可以产生大量的干实验数据支持AI建模。对于wetlab而言,小分子合成相对比较耗时,抗体药则可以快速地表达几百个序列。晶泰科技通过自动化机器人与实验人员协作,不仅能实现7X24小时连续实验,更可以快速地拿到高质量的结构化数据进行反馈迭代,效率更高。
Q3:近日,科学家们采用类似ChatGPT的蛋白质工程深度学习语言模型——ProGen,首次实现了AI预测蛋白质的合成,研究成果已在Nature子刊上发表。生物版ChatGPT未来发展趋势如何?将会使药物发现哪些环节受益?
许大强博士表示:ChatGPT是一个自监督学习预训练的语言大模型,它在文本的生成和语言的处理上比较前沿,但可能需要进行针对性训练(包括高质量数据的finetuning和更多的相关的人类反馈强化学习—RLHF)才会更加适用于生物医药领域的应用。他觉得可以应用在生物医药的场景包括蛋白设计和核酸药物设计,因为氨基酸序列及核酸碱基碱基更适用于语言的读取和编辑。
任峰博士表示:ChatGPT应用的gpt模型,我们是全球第一家应用它来生成分子的公司,且现在ChatGPT的出现,进一步证明了gpt模型在生物医药上的可行性。另外,AIDD之所以被称为工具,主要在于它的局限性,不能make decision。但是如果未来有一个Transformer模型可以训练机器去学习并消化药化知识,那对于AI制药来说也许将是一种颠覆性的突破。
评论排行