清华大学自动化系生命基础模型实验室在《自然-方法》合作发表人工智能细胞大模型

发布：tgy 来源：清华大学自动化系发布时间：2024-07-01 11:34
第一对焦：人工智能

　　【ZiDongHua 之创新自科文收录关键词：人工智能大模型自然语言处理】

　　紫冬学术 | 清华大学自动化系生命基础模型实验室在《自然-方法》合作发表人工智能细胞大模型

　　近年来，人工智能领域在大模型方面取得了显著进展，这些模型通过预训练的方式从大规模、多来源的数据中提取深层次规律，进而能够作为“基础模型”服务领域的多样化任务。例如，语言大模型通过学习大量文本数据，掌握了理解和识别语言的能力，引领了自然语言处理领域的新一轮革命。类似地，生命科学中的细胞的DNA序列、基因表达等属性也可以被视为一种细胞“语言”，如果能够基于这种细胞“语言”开发人工智能细胞大模型，将有望为生命科学和医学研究提供全新研究范式和革命性研究工具。

　　自动化系生命基础模型实验室主任张学工教授、电子系/AIR马剑竹教授和百图生科宋乐博士合作，建立了一个名为scFoundation的细胞大模型。该模型基于5000万个细胞的基因表达数据进行训练，拥有1亿参数，能够同时处理约20000个基因。作为基础模型，它在“虚拟药物试验”等多种生物医学下游任务中表现出卓越的性能提升，提供了人工智能在单细胞研究中的新范式（图1）。研究成果于2023年5月完成，2024年6月6日以单细胞转录组大规模基础模型（ Large-scale foundation model on single-cell transcriptomics）为题，正式发表于Nature Methods期刊上。

　　图1 scFoundation模型及下游应用场景

　　细胞“语言”与自然语言不同，存在着特征高维度、取值连续且稀疏等难点。为此，研究团队针对性设计模型架构，使scFoundation的值编码模块可直接将连续的基因表达值转化为向量，并通过设计一个基于Transformer的非对称模型架构，在保持参数规模不变的同时大幅提高了计算效率。此外，考虑到单细胞数据质量存在明显差异的特点，研究团队还设计了一种由低质量数据恢复高质量数据的预训练任务，进一步增强了预训练模型对不同来源下游数据的适应能力。

　　在实际应用中，scFoundation模型支持“开箱即用”和“微调”两种模式。在“开箱即用”模式下，得益于其独特的预训练任务，该模型能直接用于提升细胞数据的质量，在不需要进一步调整的情况下便可达到或超越现有方法的效果。此外，用户可以利用scFoundation提取细胞的预训练表征，该表征可以用于识别细胞类型特异基因模块和转录因子，并可广泛应用于“虚拟药物试验”等下游任务中。实验测试结果表明，利用scFoundation模型可以显著提升细胞癌症药物反应、细胞扰动实验等任务的性能。在“微调”模式下，scFoundation在细胞类型标注等任务上的表现远超传统方法。研究团队通过多项实验分析了模型中不同模块设计对性能的具体影响，相关模型细节已在NeurIPS 2024的xTrimoGene模型文章中发表。目前模型权重及代码已开源，同时也提供了模型API供在线轻量使用。

　　综上所述，scFoundation模型为生命科学基础研究、细胞扰动响应预测、药物靶点发现等领域提供了创新方法工具，并在模型架构、训练框架和下游示范应用体系等方面为细胞大模型研究提供了新的思路和方法，成功地拓展了单细胞领域基础模型的边界，为开展数基空间中的虚拟药物实验等未来研究奠定了基础。

　　自动化系生命基础模型实验室主任张学工教授、电子系和智能产业研究院马剑竹教授、百图生科宋乐博士为通讯作者。自动化系博士研究生郝敏升为该论文的第一作者。

自动对焦：大模型自然语言处理

咨询详情：如需咨询文中涉及的相关产品或解决方案详情，请加微信：ZiDongHuaX 。

微信联盟：大模型微信群、自然语言处理微信群，各细分行业微信群：点击这里进入。

鸿达安视：水文水利在线监测仪器、智慧农业在线监测仪器　　　　　　金叶仪器：气体/颗粒物/烟尘在线监测解决方案

西凯昂：SMC气动元件、力士乐液压元件、倍加福光电产品等　　　　　山东诺方：颗粒物传感器、粉尘浓度传感器

深圳金瑞铭：RFID射频识别、智能传感器等物联网解决方案　　　　　　北京英诺艾智：容错服务器、边缘计算解决方案

清华大学自动化系生命基础模型实验室在《自然-方法》合作发表人工智能细胞大模型

道尔芬智能与沈阳新松达成战略合作共推免示教焊接与机器人技术创新发展

非夕科技入驻西门子长三角创新赋能中心，双方将为制造业赋能

三相科技领衔制定首项国标，打破高端数控机床进口电机垄断

华科大首创的这一技术，再刷新“世界纪录”！

关于发布中国电子学会-腾讯Robotics X犀牛鸟专项研究计划（2024）的通知

人工智能赋能开放教育教学创新——上海开放大学第三届开放教育研讨会成功召开

国科科仪控股企业国科仪器正式发布国内首台冷冻双束电镜光电关联成像系统

“脑科学、脑计算与类脑研究”发展战略研讨会在京召开

湖北：“四链”融合！推进科技创新和产业创新

中国联通工业AI创新发展论坛暨联通光电通信产业园建设启动活动举办

行业荣誉加冕宏景智驾，科技创新与标准引领并行

西开电气多项科技项目荣获2023年度中国西电科学技术奖

首自信公司亮相数博会：四大创新模型，赋能钢铁行业转型

优思泰科荣获2024年新质生产力“智”汇常州创新创业邀请赛二等奖

北京智能检测装备创新中心揭牌启动建设

2024清华自动化论坛（广州）暨创新创业展举办

凌度智能闯入双创大赛决赛，以创新推动清洁机器人发展

创新驱动智造未来 | 康吉森工业自动化创新之路

全国首个！武汉市中小企业数字化转型创新中心正式启用

“人机共融智向未来”——龙游县人形机器人产业创新发展大会成功举办

清华大学自动化系生命基础模型实验室在《自然-方法》合作发表人工智能细胞大模型

道尔芬智能与沈阳新松达成战略合作 共推免示教焊接与机器人技术创新发展

非夕科技入驻西门子长三角创新赋能中心，双方将为制造业赋能

三相科技领衔制定首项国标，打破高端数控机床进口电机垄断

华科大首创的这一技术，再刷新“世界纪录”！

关于发布中国电子学会-腾讯Robotics X犀牛鸟专项研究计划（2024）的通知

人工智能赋能开放教育教学创新——上海开放大学第三届开放教育研讨会成功召开

国科科仪控股企业国科仪器正式发布国内首台冷冻双束电镜光电关联成像系统

“脑科学、脑计算与类脑研究”发展战略研讨会在京召开

湖北：“四链”融合！推进科技创新和产业创新

中国联通工业AI创新发展论坛暨联通光电通信产业园建设启动活动举办

行业荣誉加冕宏景智驾，科技创新与标准引领并行

西开电气多项科技项目荣获2023年度中国西电科学技术奖

首自信公司亮相数博会：四大创新模型，赋能钢铁行业转型

优思泰科荣获2024年新质生产力“智”汇常州创新创业邀请赛二等奖

北京智能检测装备创新中心揭牌启动建设

2024清华自动化论坛（广州）暨创新创业展举办

凌度智能闯入双创大赛决赛，以创新推动清洁机器人发展

创新驱动 智造未来 | 康吉森工业自动化创新之路

全国首个！武汉市中小企业数字化转型创新中心正式启用

“人机共融 智向未来”——龙游县人形机器人产业创新发展大会成功举办

道尔芬智能与沈阳新松达成战略合作共推免示教焊接与机器人技术创新发展

创新驱动智造未来 | 康吉森工业自动化创新之路

“人机共融智向未来”——龙游县人形机器人产业创新发展大会成功举办