【ZiDongHua 之创新自科文收录关键词:中国科学院自动化研究所   曾毅    人工智能
 
  类脑心理揣测脉冲神经网络助力多智能体合作与竞争
 
  类脑心理揣测脉冲神经网导语 | 2023年6月23日,中国科学院自动化研究所曾毅研究员课题组在Cell Press细胞出版社期刊Patterns上发表了一篇题为“A Brain-inspired Theory of Mind Spiking Neural Network Improves Multi-agent Cooperation and Competition”的新研究。他们受心理揣测(Theory of Mind)机制启发,构建了包含模拟自我和他人的心理揣测脉冲神经网络模型(MAToM-SNN),助力多智能体高效地合作与竞争。
 
  研究亮点
 
  智能体能利用自身经验或对他人的观测来揣测他人行为
 
  具备心理揣测能力的智能体自适应地调整策略以更好地与他人交互
 
  心理揣测模型能够提升多智能体在合作和竞争任务中的表现
 
  心理揣测模型在基于脉冲神经网络和循环神经网络的多智能体强化学习任务中展现出高度的泛化性
 
  论文简介
 
  人类等群体动物在自然界中广泛存在着合作或竞争等社会行为。心理揣测等社会认知能力在社会智能的群体涌现中起到至关重要的作用。心理揣测是指能够区分自我和他人,揣测他人心理状态(包括信念、意图、愿望等)的能力(图1A)。近年来,这种认知功能在心理学与认知神经科学中受到了广泛的研究并逐渐揭开了心理揣测的神经机制(图1B)。而心理揣测的神经机制为我们研究并探索基于心理揣测的多智能体社会交互、人机交互提供了重要启发与创新源泉。
 
  
 
  图1. A,心理揣测例子;B,心理揣测涉及的脑区及神经回路
 
  中国科学院自动化研究所曾毅研究员负责的类脑认知智能研究组借鉴人脑心理揣测的神经机制,提出了面向多智能体的类脑心理揣测脉冲神经网络(MAToM-SNN,如图2)。具体而言,借鉴腹内侧前额叶皮层(the ventral medial prefrontal cortex, vmPFC)和背内侧前额叶皮层(the dorsal medial prefrontal cortex, dmPFC)分别内化和存储与自我和他人相关的信息,背外侧前额叶皮层(the dorsolateral prefrontal cortex, dlPFC)进一步推断他人决策的神经机制,所提模型分别构建了根据自身经验揣测他人的模块(Self-MAToM)和根据对他人观测揣测他人的模块(Other-MAToM)。两个模块均采用四层全连接的脉冲神经网络结构,用LIF模型(the leaky integrate-and-fire model)模拟脉冲神经元放电情况。此外,受人脑前扣带皮层(the anterior cingulate cortex, ACC)基于对他人预测的行为与真实行为的差别的响应机制启发,所提模型基于代理梯度算法对网络进行训练与优化。MAToM-SNN预测的他人行为给决策模型提供了丰富的状态表征,进而帮助决策网络自适应地调整自身策略。
 
  
 
  图2. 心理揣测模型助力多智能体高效合作与竞争
 
  文章第一作者博士生赵卓雅说:“我们在多个合作、合作竞争混合场景中进行了实验,其中收获(Harvest)、升级(Escalation)、打猎(Hunt)的合作场景需要多个智能体协力收获更多的奖励,而单一智能体仅能取得有限的奖励;欺骗(Physical Deception)、捕食(Predator-Prey)、通讯(World Communication)的合作竞争场景存在对立的双方,其中一方需要合力干扰另一方的判断或围堵/躲避另一方。
 
  我们发现在合作场景中,心理揣测模型能够帮助智能体自主与他人协作获取群体更多利益,做出更具前瞻性的选择;在合作竞争场景中,心理揣测模块帮助智能体更了解队友与对手,因此在与决策模型结合的过程中会衍生出更有利于团队整体的行为。实验结果也证明了心理揣测模型能有效泛化至由传统的人工神经网络和脉冲神经网络构建的决策网络上,提升平均奖励和学习速度(图3,图4)。
 
  
 
  图3. 心理揣测模型助力多智能体合作
 
  
 
  图4. 心理揣测助力多智能体竞争
 
  除此之外,我们在竞争任务中深入研究了心理揣测模型的作用。消融实验显示(表1):具有心理揣测能力的团队(B-ToM)比没有心理揣测能力的团队(B)获得更高的奖励。此外,对立团队中一方拥有心理揣测模型(B-ToM)使得被推断出的团队的奖励(A)会减少。这表明在竞争任务中,心理揣测增加了一个团队的奖励并抑制了对立团队的奖励。当两个团队都有心理揣测模型时,拥有更多智能体的团队(B队)可以获得更多奖励并抑制拥有较少智能体的团队获得奖励。这也证实了我们的模型将有助于人数较多的团队在竞争性任务中提高性能。”
 
  
 
  表1. 竞争任务的消融分析结果
 
  文章共同作者赵菲菲副研究员介绍:“本研究进一步分析了基于自我经验、对他人观测实现的心理揣测模型在社会决策过程中的影响。从图5可以发现,基于自我经验对他人揣测能够在交互早期快速地帮助提升合作效率和表现,随着交互中不断累积到他人的观测数据,后期对他人直接建模更加准确。因此基于自我经验和对他人观测的心理揣测贡献于社会交互的不同阶段,协同助力多智能体的合作与竞争。
 
  
 
  图5. 具有自我经验的智能体与没有自我经验的智能体在竞争中的表现对比
 
  这项工作受人脑心理揣测的机理启发,采用具备生物合理性的脉冲神经网络进行建模,探索人脑区分自我和他人的心理揣测能力在社会决策中的重要作用。同时,这项研究为探索人机交互、多智能体社会决策提供了基础。”
 
  文章责任作者曾毅研究员说:“对高等认知功能,特别是社会认知的类脑智能建模是我们课题组比较有特色的研究。文章中的这项研究通过提出并实现类脑心理揣测模型将心理揣测能力带给了多智能体,并赋能其在复杂社会决策中取得应用,证明了心理揣测能力在社会交互中能够帮助高效地合作与竞争。这是我们课题组前期继探索脑启发的心理揣测脉冲神经网络实现智能体推断他人错误信念、帮助他人规避安全风险之后,进一步拓展至多智能体社会交互的复杂协作与竞争场景的工作。使人工智能具有心理揣测、共情等社会认知能力是发展安全、负责任、有道德、可信的人工智能的基础,将促进人与人工智能的和谐共生。”
 
  文章链接:
 
  https://www.sciencedirect.com/science/article/pii/S2666389923001265
 
  代码:
 
  https://github.com/BrainCog-X/Brain-Cog/tree/main/examples/Social_Cognition/MAToM-SNN
 
  作者介绍
 
  赵卓雅
 
  中国科学院自动化研究所类脑认知智能研究组2019级博士研究生,导师为曾毅研究员。研究方向为类脑心理揣测与决策模型。目前已在Patterns、Frontiers in Neuroscience等发表论文多篇。
 
  赵菲菲
 
  中国科学院自动化研究所类脑认知智能研究组副研究员。研究方向为类脑决策、发育及演化脉冲神经网络。目前已在Patterns、IEEE Transactions on Cognitive and Developmental Systems、Neural Computation、Scientific Reports、Cognitive Computation、Frontiers in Neuroscience以及人工智能领域重要国际会议IJCAI等发表论文多篇。
 
  赵宇轩
 
  中国科学院自动化研究所类脑认知智能研究组副研究员。研究方向为类脑认知计算建模、高等认知功能模拟。目前已在Patterns、iScience、Frontiers in Neuroscience、Cognitive Computation等期刊发表多篇论文。
 
  曾毅
 
  中国科学院自动化研究所研究员、类脑认知智能研究组负责人、脑图谱与类脑智能实验室副主任、人工智能伦理与治理研究中心主任;中国科学院大学岗位教授、博士生导师;中国人工智能学会心智计算专委会主任;国家新一代人工智能治理专委会委员;联合国教科文组织人工智能伦理特设专家组专家。研究方向为:类脑人工智能、人工智能伦理、治理与可持续发展。代表性成果发表在Cell Press细胞出版社旗下期刊Patterns、iScience、Nature出版社旗下Scientific Data、Scientific Reports、Science出版社旗下Science Advances、以及IEEE Transactions和人工智能领域重要国际会议IJCAI和AAAI等。
 
  孙胤乾
 
  中国科学院自动化研究所类脑认知智能研究组博士研究生。研究方向为类脑信息编码、感知决策神经网络。目前已在 iScience、Patterns、Frontiers in Neuroscience等发表论文多篇。
 
  络助力多智能体合作与竞争