生命科学领域|首个知识与数据联合驱动的多物种生命基础大模型

时间：2024-10-25 22:59:33 发布：tgy 来源：中国科学院自动化研究所第一对焦：中国科学院自动化研究所

【ZiDongHua 之自动化学院派收录关键词：中国科学院自动化研究所生命科学领域大语言模型计算机视觉自然语言处理】

　　首个知识与数据联合驱动的多物种生命基础大模型GeneCompass

　　近年来，大语言模型（LLMs）已在自然语言处理、计算机视觉等通用领域引发了新一轮技术革命，进而通过与不同自然学科分支的融合形成了人工智能驱动的科学研究新范式。在生命科学领域，单细胞组学技术的突破产生了大量不同物种细胞的基因表达谱数据，形成了海量的生命“语料”。如果把基因表达值看作单词，它们组合在一起就构成了细胞“句子”，进而形成了组织“段落”和器官“文章”，而不同物种可以看作生命“语种”。利用LLMs相关技术学习和理解这些生命“语料”，有望构建系统精准破解基因密码的生命基础大模型，探索生命普遍存在的基因调控机制，增进理解生命底层共性规律并创新各种重大疾病的诊疗手段。

　　中国科学院动物研究所、中国科学院自动化研究所、中国科学院计算技术研究所、中国科学院计算机网络信息中心、中国科学院数学与系统科学研究院等组成多学科交叉研究团队在生命科学人工智能（AI for Life Science）研究方面取得了重要突破，于2024年10月发表在生命科学领域顶级期刊Cell Research上。

　　论文建立了世界首个知识与数据联合驱动的多物种生命基础大模型GeneCompass，同时处理了人类和小鼠两个物种的转录组数据，包含了超过1.26亿个单细胞并覆盖3.6万个基因，融合了启动子序列、基因共表达关系、基因家族标注和基因调控关系等四种先验知识。GeneCompass的参数量超过1.3亿，实现了对基因表达调控规律的全景式学习理解，同时支持细胞状态变化预测及多种生命过程的精准分析，展示了人工智能赋能生命科学研究的强大能力和巨大潜力。

　　模型架构：知识嵌入的生命基础大模型GeneCompass

　　GeneCompass是国际上首个融入先验知识的预训练基础大模型，发展了知识与数据联合驱动的新范式。GeneCompass采用gene2vec、DNABert等工具将启动子序列、已知基因调控网络、基因家族信息和基因共表达关系等四种生物学先验知识进行编码，在单细胞转录组的基因ID和表达值基础上加入人类注释信息编码，提高了对生物数据间复杂特征关联关系的理解。通过训练整合了不同物种的数据信息及先验知识，GeneCompass显著提升了多种下游任务的性能，有望进一步提高传统生物学研究的效率和精准性，为尚无法突破的复杂生命科学难题带来新的切入点。

　　GeneCompass采用基于Transformer的深度学习架构，通过扩展传统的掩码语言模型Masked Auto Encoder（MAE）方式进行预训练，根据单细胞转录组的上下文同时预测掩码的基因ID及其表达值，捕获不同基因之间在不同细胞背景下的长程动态关联，通过多任务联合预训练形成更加细粒度的生命基础大模型。预训练完成后，GeneCompass进一步应用于多种下游任务，对单细胞转录组数据进行编码，支撑细胞类型标注、基因扰动预测、药物反应预测和基因调控关系预测等多种任务。

　　GeneCompass模型架构

　　规模效应：多物种联合训练捕获生物共性进化保守规律

　　研究人员发现基于大规模跨物种数据的预训练模型对于单物种的子任务符合尺度定律（scaling law）：即较大规模的多物种预训练数据量较单一物种数据量产生更优异的预训练表征，并进一步提高下游任务的性能。这一发现显示了物种间存在保守的基因调控规律，并且这些规律能够被预训练模型学习理解。这同时预示着随物种和数据的扩展，模型性能有望进一步提升。

　　研究结果：GeneCompass具有跨物种表征能力

　　研究人员对人类和小鼠同一细胞类型（心肌细胞）中同源基因和非同源基因的GeneCompass编码进行了相似性分析，可以看出相较于非同源基因，不同物种的同源基因具有更相似的编码，同源基因在人类和小鼠之间也具有相似的基因调控关系。

　　研究人员将GeneCompass编码后的基因嵌入与跨物种细胞类型标注的当前最优方法CAME进行结合，发现在多种细胞尤其是视网膜细胞中，GeneCompass能够显著提升跨物种细胞类型标注的精度。这些结果都展示了GeneCompass通过多物种联合预训练获得了生命底层的共性规律，增强了基因表征的能力。

　　在基因扰动预测、药物反应预测、基因调控预测、药物剂量反应预测、剂量敏感基因预测等多种下游任务中GeneCompass模型均展现出强大的功能。

　　综上所述，作为迄今为止最大规模的、具有知识嵌入的跨物种预训练生命基础大模型，GeneCompass可实现多个跨物种下游任务的迁移学习，并在细胞类型注释、定量基因扰动预测、药物敏感性分析等多个任务中取得比现有方法更优的性能。这充分展示了基于多物种无标注大数据预训练，再利用不同子任务数据进行模型微调的策略优势，有望成为实现基因-细胞特征相关联的各种生物问题分析预测的通用解决方案。

　　中国科学院自动化所刘国乐和江洁与合作单位的杨晓东、冯桂海、卜德超、王鹏飞、陈述白、杨沁蒙等为文章共同第一作者。自动化所杨戈研究员，刘静研究员与合作单位李鑫研究员、陈益强研究员、李非研究员、周元春研究员、赵屹研究员为共同通讯作者。

　　论文链接：

　　https://www.nature.com/articles/s41422-024-01034-y

　　代码链接：

　　https://github.com/xCompass-AI/geneCompass

我要收藏

点个赞吧

自动对焦：生命科学领域大语言模型计算机视觉自然语言处理

咨询详情：如需咨询文中涉及的相关产品或解决方案详情，请加微信：ZiDongHuaX 。

微信联盟：生命科学领域微信群、大语言模型微信群、计算机视觉微信群、自然语言处理微信群，各细分行业微信群：点击这里进入。

鸿达安视：水文水利在线监测仪器、智慧农业在线监测仪器　　　　　　查看各品牌在细分领域的定位宣传语