生物信息学|清华大学自动化系汪小我团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法

发布：自动化网来源：清华大学自动化系发布时间：2023-04-17 17:29
第一对焦：生物信息学

【ZiDongHua 之创新自科文：生物信息学清华大学、清华大学自动化系、人工智能、神经网络、深度神经网络模型、多面神经元】

清华大学自动化系汪小我团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法

近日，清华大学自动化系汪小我团队与美国斯坦福大学统计系王永雄团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法。该方法针对广泛应用于基因调控序列研究的卷积神经网络（CNN）模型，通过剖析神经网络中的多面神经元机制（multifaceted neuron），开发了神经网络解释算法（NeuronMotif），实现了从神经元中自动归纳和提取转录因子结合位点等关键序列模式（Motif）及其组合、次序、间距等基因调控序列编码规则。该方法能够帮助研究者更加深入地理解基因调控编码规律，同时为神经网络模型的解释提供了新手段。

该研究发现，CNN解释困难的一个主要原因在于深层神经元大多都是“多面神经元”（multifaceted neuron）。这种神经元能够同时被多种不同序列模式激活，直接对这些混合模式进行可视化往往只能获得难以被人理解的结果。通过深入分析，该研究发现CNN中的最大池化结构是导致深层神经元识别多种序列模式的关键原因。具有不同模式的序列特征在被输入到神经网络以后，会逐层计算得到每一层网络对应的特征图（feature map），这些特征图在通过最大池化层后会丢失单碱基精度空间分辨率，导致输出的特征图变得高度相似，难以对这些混合模式进行解耦。

针对多面神经元问题及其形成机制，研究团队提出了Neuron Motif方法，该方法首先基于蒙特卡洛采样和遗传算法得到大量能充分激活神经元的序列集合，然后计算这些序列在神经网络各层的特征图，并通过反向逐层聚类的方式分离不同序列模式所对应的特征图，将具有不同模式的序列划分到不同的子集中，最终通过对每个子集的可视化获得易于理解的序列模式特征。在此基础上，该方法构建了基于结构化语法树的自动化知识提取方法，从数据中自动归纳转录因子结合位点序列模式、组合模式、间距、次序等调控序列语法规则。

NeuronMotif归纳提取的调控序列语法规则能够得到文献和多种生物组学数据的支撑和验证。通过对人类基因组数据的学习，NeuronMotif发现了数百种序列模式，与JASPAR数据库中的已知转录因子motif序列模式高度匹配；通过NeuronMotif获取的深层神经元语法规则与多种细胞/组织中的ATAC-seqfootprinting模式高度匹配，并得到了基因表达数据（RNA-seq）的支持；序列模式的组合和排布等规律在跨物种基因组序列上具有显著的序列保守性。

综上所述，NeuronMotif为我们提供了一种解读深度神经网络模型中深层神经元识别模式的新方法。此外，NeuronMotif的解释结果还可用于人工神经网络的诊断和改进，帮助降低神经网络调参的困难。借助该方法，我们可以通过神经网络的训练和解释，从数据中获取可供人类专家理解的知识，帮助我们更加深入地理解胚胎发育、疾病发生等生物过程中的基因调控规律，并为基因治疗等应用中定制化逆向构造人工基因调控序列提供支撑。

研究成果以“NeuronMotif: 通过深度神经网络的逐层解耦破译基因顺式调控编码”（NeuronMotif: Deciphering cis-regulatory codes by -wise demixing of deep neural networks）为题发表在《美国科学院院刊》（PNAS）上。

清华大学自动化系博士后魏征为本文的第一作者，清华大学自动化系汪小我教授和美国斯坦福大学统计系王永雄教授为本文的共同通讯作者。清华大学李衍达教授、张学工教授、江瑞教授、魏磊助理研究员、花奎博士，斯坦福大学博士后马士宁也对本文作出了重要贡献。该研究得到了国家自然科学基金、国家重点研发计划、清华大学国强研究院、北京智源人工智能研究院等的资助。

论文链接（点击文末“阅读原文”）：

https://www.pnas.org/doi/10.1073/pnas.2216698120

自动对焦：清华大学人工智能神经网络深度神经网络模型多面神经元

咨询详情：如需咨询文中涉及的相关产品或解决方案详情，请加微信：ZiDongHuaX 。

微信联盟：清华大学微信群、人工智能微信群、神经网络微信群、深度神经网络模型微信群、多面神经元微信群，各细分行业微信群：点击这里进入。

鸿达安视：水文水利在线监测仪器、智慧农业在线监测仪器　　　　　　金叶仪器：气体/颗粒物/烟尘在线监测解决方案

西凯昂：SMC气动元件、力士乐液压元件、倍加福光电产品等　　　　　山东诺方：颗粒物传感器、粉尘浓度传感器

深圳金瑞铭：RFID射频识别、智能传感器等物联网解决方案　　　　　　北京英诺艾智：容错服务器、边缘计算解决方案

生物信息学|清华大学自动化系汪小我团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法

“紫东太初”开始像人一样思考实现感知理解决策执行一体

智造实力领先，中之杰智能获2024IDC中国生态创新奖

光谷脑机接口芯片完成首例临床测试，将为全球科研团队提供价值1亿元设备

首自信公司亮相2024全国数据治理年会暨博览会，并成功入选数据管理优秀案例

智能化探索频传捷报！博泰车联网入选高工智能汽车硬科技创新TOP50

宏景智驾荣获高工智能汽车TOP50智能汽车硬科技创新奖

打破国际垄断、填补国内技术空白！浦东这家企业全球首发智能焊接新产品

工业设计未来设计创新项目需求

博泰车联网斩获“ICCE产业创新实践”等多项重磅荣誉

2024第十届中国创新设计大会暨中国创新设计产业战略联盟成立十周年大会在嘉善成功举行

国地中心携手上海大学成立人形机器人联合创新中心，共启人形机器人发展新篇章

中国科学院自动化研究所3项成果获2023年度北京市科学技术奖

2024中国5G+工业互联网大会丨百度创始人李彦宏：大模型赋能科技创新和产业创新，在自动驾驶领域应用广泛

中科创达成立中国大陆首个Arm SystemReady Devicetree合规实验室

携手合作赋能创新—2024汽车创新大会在广州开幕

华为云（深圳）具身智能产业创新中心启动，华为云与乐聚加速推进具身智能

首批16家企业“加盟” 多家上市公司参与华为（深圳）全球具身智能产业创新中心正式运营！

CoRL 2024 | 谷歌DeepMind、Meta与Franka Robotics共探机器人学习领域新突破！

三年世界声博会，看国家智能语音创新中心的创新之路

最大载重500公斤！航程超800公里！北京科创企业新研无人机亮相中国航展

生物信息学|清华大学自动化系汪小我团队合作提出自动归纳基因调控序列编码模式的神经网络解释方法

“紫东太初”开始像人一样思考 实现感知理解决策执行一体

智造实力领先，中之杰智能获2024IDC中国生态创新奖

光谷脑机接口芯片完成首例临床测试，将为全球科研团队提供价值1亿元设备

首自信公司亮相2024全国数据治理年会暨博览会，并成功入选数据管理优秀案例

智能化探索频传捷报！博泰车联网入选高工智能汽车硬科技创新TOP50

宏景智驾荣获高工智能汽车TOP50智能汽车硬科技创新奖

打破国际垄断、填补国内技术空白！浦东这家企业全球首发智能焊接新产品

工业设计未来设计创新项目需求

博泰车联网斩获“ICCE产业创新实践”等多项重磅荣誉

2024第十届中国创新设计大会暨中国创新设计产业战略联盟成立十周年大会在嘉善成功举行

国地中心携手上海大学成立人形机器人联合创新中心，共启人形机器人发展新篇章

中国科学院自动化研究所3项成果获2023年度北京市科学技术奖

2024中国5G+工业互联网大会丨百度创始人李彦宏：大模型赋能科技创新和产业创新，在自动驾驶领域应用广泛

中科创达成立中国大陆首个Arm SystemReady Devicetree合规实验室

携手合作 赋能创新—2024汽车创新大会在广州开幕

华为云（深圳）具身智能产业创新中心启动，华为云与乐聚加速推进具身智能

首批16家企业“加盟” 多家上市公司参与 华为（深圳）全球具身智能产业创新中心正式运营！

CoRL 2024 | 谷歌DeepMind、Meta与Franka Robotics共探机器人学习领域新突破！

三年世界声博会，看国家智能语音创新中心的创新之路

最大载重500公斤！航程超800公里！北京科创企业新研无人机亮相中国航展

“紫东太初”开始像人一样思考实现感知理解决策执行一体

携手合作赋能创新—2024汽车创新大会在广州开幕

首批16家企业“加盟” 多家上市公司参与华为（深圳）全球具身智能产业创新中心正式运营！