第三届智能决策论坛回顾 | 多智能体强化学习分论坛 - 会展赛培坛 - 自动化网 ZiDongHua.com.cn ，自动化科技展示平台、“自动化者”人文交流平台。

　　【ZiDongHua 之会展赛培坛收录关键词：中国科学院自动化研究所智能决策自动驾驶 ChatGPT】

　　第三届智能决策论坛回顾 | 多智能体强化学习分论坛

　　人工智能作为当前最具革命性的技术之一，正在从感知向认知、决策的纵深方向发展。中国科学院自动化研究所长期坚持“智能科学与技术”研究，确立了“自主进化智能”的核心发展目标，将“博弈决策智能系统”作为主攻方向之一。2024年4月13至14日，自动化所举办“第三届智能决策论坛”，聚焦大模型、群体智能、强化学习等前沿学术领域，探讨决策智能的未来发展之路。本系列文章将分专题对论坛报告进行梳理。今天，我们会详细回顾「多智能体强化学习分论坛」的四大报告，欢迎学界、业界同仁及人工智能爱好者共同交流探讨。

　　#报告1

　　博弈交互学习

　　——一种复杂系统决策问题的求解范式

　　报告人：兴军亮

　　清华大学研究员

　　报告要点：

　　✦ 报告总结了复杂系统决策问题研究面临的主要技术挑战。

　　✦ 兴军亮研究员分享了其提出的博弈交互学习复杂系统决策问题求解范式、知识数据混合驱动学习的技术路线以及由此取得的研究进展。

　　✦ 兴军亮研究员分享了其提出的能够吸收人类知识的规划器-执行器-评估器（PAE）算法训练架构，可以大幅提升现有RL算法探索效率，为构建人类可参与的交互式博弈学习范式提供研究和算法基础。

　　兴军亮研究员首先介绍了复杂系统智能决策问题的研究背景，从感知智能、认知智能到复杂系统决策智能，深入回顾了深度学习引发的人工智能研究热潮在过去十余年来的主要进展。然而面向复杂系统的决策问题还存在诸多技术瓶颈，兴军亮研究员指出，复杂系统所呈现出的多尺度性、多层次性和时空演化性给相关研究带来了极大挑战，强对抗环境下的复杂系统智能决策问题还需要大量研究。

　　复杂系统决策问题的应用场景多为巨复杂、高动态、不确定的强对抗环境，面临着难建模、难计算、难解释等技术挑战，兴军亮对其中的主要技术挑战进行了总结：包括稀疏奖励和长时依赖、缺数据少知识难学习、在线适应与迁移难实现、复杂异构群体协作竞争、进化目标不确定难评价等。针对上述技术挑战，兴军亮提出了一种博弈交互学习的研究范式，其主要思路是将传统的计算博弈理论方法和最新的机器学习算法技术融合到一个框架中进行建模计算，同时利用人机交互过程对学习结果、学习过程以及模型机理的可解释性进行探究。

　　基于博弈交互学习研究范式，在解决具体问题的过程中进一步设计了知识数据混合驱动学习的技术路线，目的是通过吸纳知识推理学习和数据拟合学习的各自优势，实现知识和数据双向的迭代增强。这一技术路线的实现主要分为三个过程：第一步，由知识推理模型引导数据学习；第二步，由数据学习结果驱动知识发现：第三步，是不断重复上述两步实现双向迭代增强。学习驱动典型复杂系统从初始状态到有序、再到高级决策的完整智能生成过程。

　　兴军亮团队近年来依托博弈交互学习的求解范式和知识数据混合驱动学习的技术路线，围绕智能体与环境（单体探索）、智能体之间（群体博弈）、以及智能体与人（人机混合）的交互学习问题开展核心算法研究，取得了系列成果。

　　兴军亮重点介绍了引入人类外部知识的高效探索AI。人类擅长从外部知识中吸收有益见解。这种能力对于AI同样重要。但目前的RL智能体仍需通过大量试错来进行学习。兴军亮提出了一种能够吸收人类知识的规划器-执行器-评估器（PAE）算法训练架构：外部知识以自然语言的形式呈现，规划器由易到难提供外部知识，执行器遵循指导逐渐掌握复杂技能，评估器以奖励同时驱动规划器和执行器更新。该算法可以大幅提升现有RL算法探索效率，为构建人类可参与的交互式博弈学习范式提供研究和算法基础。

　　出于真实模拟、有限边界、天使标准、无损探索、有趣益智的考虑，兴军亮团队采用各类不同游戏作为实验环境。他逐一展示了围绕Atari游戏、星际争霸、德州扑克、国标麻将、王者荣耀、足球比赛等典型游戏所开发的一系列AI的应用效果。

　　最后，兴军亮指出，现有博弈学技术需要利用海量训练数据、消耗巨大计算资源、采用暴力学习复杂映射关系。现有问题求解范式也仍存在着学习过程不透明，进化机理不明确，无法实现知识演化的主要问题。他将继续以知识演化为目标，通过知识表征、抽象、迁移，突破知识推理和数据学习融合的混合驱动交互学习决策技术，创新知识数据双向循环、迭代增强的技术解决方案，实现面向复杂系统的可共进增强的人机混合智能。

　　#报告2

　　深度强化学习的挑战及落地

　　报告人：郝建业

　　天津大学副教授

　　华为诺亚决策推理实验室主任

　　报告要点：

　　✦ 在全新的大模型学习范式下，强化学习仍在决策模型中扮演着重要的作用。

　　✦ 郝建业副教授分享了策略表征、世界模型和高效探索的新思路，可支撑在线强化学习获取高质量数据。

　　✦ 郝建业副教授团队构建了具备5种不同类型反馈、1500万时间步的标注数据、超过30种仿真环境、不同奖励模型拟合方法的开源RLHF通用平台和基准Uni-RLHF，推动该领域的进一步发展。

　　郝建业副教授首先快速梳理了传统强化学习范式，包括离线强化学习以及在线强化学习中的on-policy学习和off-policy学习。在刚刚到来的大模型时代，决策领域又产生了全新的两阶段学习范式：预训练 + 微调，即第一阶段进行离线预训练：采集海量数据，用离线方法训练一个具有一定泛化性的预训练策略或世界模型；然后第二阶段进行在线微调：将第一阶段得到的策略或世界模型在线地与环境进行少量的交互迭代，得到当前真实任务下的一个鲁棒策略。郝建业强调，在全新的大模型学习范式下，强化学习仍在决策模型中扮演着重要的作用。

　　高效的离线预训练离不开海量高质量的数据。郝建业提出利用高效在线强化学算法自动获取和收集多样化场景下的海量数据，主要创新性体现在三个方面：策略表征、世界模型和高效探索。

　　策略表征拓展的值函数：将策略表征引入到价值函数中，在GPI过程中每次根据当前策略采样的样本估计改进之后的策略时，利用策略表征拓展的值函数，借由神经网络的泛化性对改进之后策略做泛化，从而降低强化学习算法跟环境采样的成本。理论分析证明了该方法的收敛性。对于多智能体场景，决策空间随着智能体数量的增加而指数级增长，因此需要考虑对策略空间在建模阶段做一个约减。郝建业提出置换不变性和置换等变性两个属性，减少同类型策略的重复学习，利用超网络架构在任何多智能体学习框架前后中增添置换不变性和置换等变性的考量，从而降低策略的拟合难度。

　　将世界模型与上述置换不变性和置换等变性属性相结合：针对蒙特卡洛树搜索进行的策略搜索，设计上述两种属性的世界模型，从而实现在多智能体的复杂策略空间的高效树搜索。上述仅依靠置换不变性和置换等变性考量的多智能体方法已经取得出色的成绩，在添加相应世界模型后，性能将得到进一步的提升。

　　策略表征与高效探索相融合：提出了强化学习与演化学习相融合的学习方法ERL-Re2，演化学习虽然可以帮助强化学习探索到更好的策略，跳出局部最优，但是它需要跟环境做大量的并行交互。因此将策略表征直接带入到评估模型中，可以近似预测出当前策略的好坏，从而极大降低策略与环境的交互成本，达到“1+1>2”的效果。

　　郝建业接下来简要回顾了离线学习中的策略约束方法和价值约束方法，同时概述了当下最有潜力实现鲁棒泛化策略的两个架构Transformer和Diffusion Model。类比大模型的训练，郝建业认为在决策领域同样需要RLHF的过程。针对当前RLHF面临的三个棘手问题：只有二元反馈信息、标注成本极高以及缺乏好的奖励模型，郝建业团队构建了的具备5种不同类型反馈、1500万时间步的标注数据、超过30种仿真环境、不同奖励模型拟合方法的开源RLHF通用平台和基准Uni-RLHF，推动该领域的进一步发展。

　　最后，郝建业还分享了过去两年他和研究团队利用两阶段训练范式产出的两个在工业界实际落地的项目。第一，在强交互博弈场景如路口或多车处的自动驾驶技术，根据真车实际路测的结果可知，两阶段训练范式可以帮助自动驾驶汽车大大提升换道的灵活性与正确性。第二，芯片设计中上百个模块宏观布局的多约束多目标优化问题，利用工业界芯片设计的相关数据进行离线训练后，在线学习阶段算法仅需交互很少的次数就可以获得远远超过已有方法的优异性能。

　　#报告3

　　开放环境下的多智能体强化学习

　　报告人：温颖

　　上海交通大学副教授

　　报告要点：

　　✦ 报告探讨了多模态预训练大模型为智能体交互决策提供泛化的可能性与挑战，分享了跨任务的环境与策略学习、大规模混合博弈策略学习、环境变化下的在线自适应等技术创新，畅想了决策智能在多智能体游戏AI、生产调度和机器人任务中的无限潜力。

　　温颖副教授围绕多智能体合作和复杂双人零和博弈简要回顾了多智能体深度强化学习自2016年来的发展。他指出，在开放环境下，现有多智能体强化学习算法始终面临泛化性能十分低下的挑战，包括：任务的异构性与多样性、合作/竞争博弈学习算法以及混合动机博弈的学习目标对齐。围绕上述挑战，温颖副教授分享了其团队的研究成果。

　　1. 跨任务的环境与策略学习

　　温颖首先介绍了基于Transformer架构的在线/离线策略学习。受Decision-Transformer启发，将多智能体决策也视为一个序列化决策的过程，用统一的网络对所有智能体进行序列建模，通过每个智能体在序列中所处的“位置”对其区分。这种做法能够充分利用训练样本，在提升同构智能体训练效率的同时，减小异构智能体策略间的互相干扰。该方法保证单调提升的情况下，允许所有策略同时训练，极大降低大规模智能体训练的时间成本。

　　进一步地，以决策大模型为中心展开泛化决策控制研究，统一决策感知与输出空间建模，将不同任务数据处理成统一的Token实现“数据模态统一”，并将所有任务都转化为序列建模任务实现“任务统一”。其多模态决策大模型DB1在超过870个任务上测试，其中在80%的任务上性能超过专家性能50%。

　　面对语言智能体根据任务反馈微调所面临的学习目标不匹配和优化粒度差异的挑战，温颖提出基于最大熵正则的词元层次策略优化，将原始最大化奖励目标转化为最优决策序列的概率建模问题，使用词元级软贝尔曼更新以及词元级策略更新以完成优化粒度的对齐。另一方面，利用AlphaZero式的树搜索改善大型语言模型的解码过程，通过树搜索增强LLM的推理能力，为训练集提供改进的轨迹。温颖团队提出的TS-LLM为LLM训练提供新的范式，通过策略精炼和价值函数学习进一步提升模型性能。

　　2. 大规模混合博弈策略学习

　　温颖首先介绍了混合动机博弈的学习目标对齐问题，希望对齐个体与集体奖励。由于个体损失最小化可能导致个体之间或个体与集体目标之间的冲突，通过构建可微的混合动机博弈DMG，并提出AgA算法，实现从梯度角度对齐个体和集体目标。该方法在公共利益等混合博弈问题中有出色的表现。

　　针对团队博弈的合作相关均衡与求解，温颖将传统1对1的纯竞争博弈扩展为n对m的合作竞争混合型博弈问题，在该问题中可以把所有智能体考虑成一个大智能体进行求解。然而寻找不可利用的CTME均衡具有很高的计算复杂性，一旦有智能体背叛团队，就无法收敛到CTME均衡。于是温颖提出团队博弈中合作受限下的不可利用的rCTME均衡，在仅有部分智能体进行合作的情况下，利用团队合作因子衡量团队合作的强度，从而在个体纳什均衡与CTME均衡之间进行权衡。

　　3. 环境变化下的在线自适应

　　温颖提出关节动力自适应模型ADAPT，利用知识蒸馏的架构，实现机器人自动适应不同程度的关节执行器失能的情况，增强复杂环境中四足机器人对自身执行器状态的鲁棒性；对于即时合作或零样本协作问题，充分利用离线数据训练即时协作智能体，直接学习任意对手的最佳应对，并在线不断修正。基于零样本强化学习的思路，将不同的对手视为不同的状态-奖励分布，从而得到不同的奖励函数编码。在训练阶段，从离线数据中挑选分布不同的若干组轨迹作为奖励函数先验，训练编解码器和强化学习策略。在在线部署时，仅需进行零样本或少样本的交互即可在测试中取得优秀的效果。

　　温颖指出，多模态预训练大模型为智能体交互决策提供了泛化的可能性与基础。AIGA的关键在于A（Action），可以降本增效并广泛应用在复杂的现实生产活动中，为更广泛、更动态和更复杂的任务给出最优策略。决策智能在多智能体游戏AI、生产调度和机器人任务中的都有无限潜力。以ChatGPT为代表的产品将成为人类大脑的延伸，提供更智能、高效、自然的与人交互的方式，同时还能通过工具的使用帮助人类更好地与世界互动。

　　#报告4

　　开放环境智能博弈：大规模智能体策略的鲁棒性和泛化性学习

　　报告人：彭佩玺

　　北京大学助理教授

　　报告要点：

　　✦ 报告分析了大规模智能体策略学习的面临的鲁棒性和泛化性两个难点。

　　✦ 针对鲁棒性难题，报告分享了基于中心化优化的分布式策略学习框架，通过逐步优化，可以实现策略的稳步提升，学习性能达到了SOTA的中心化学习方法的水平，并远超其他分布式学习方法。

　　✦ 针对泛化性难题，报告分享了智能体学习中的潜在变量推理假设，并通过实践验证了其在跨场景迁移方面的优势。

　　彭佩玺助理教授首先提出了大规模智能体策略学习的两个难点：一是鲁棒性。对于每一个智能体而言，其状态转移和奖励函数与其他智能体相关，在同样观测下做出同样的动作可能会收到不同的奖励和状态转移。对于神经网络来说，相当于一个样本有不同甚至完全相反的标签，这会让学习变得非常不稳定。二是泛化性。大规模智能体策略训练代价极大，不仅消耗算力，还会对实际社会产生很大风险，因此需要训练好的策略模型能在未训练环境下具有一定的泛化性。

　　为解决大规模智能体策略的鲁棒性学习问题，彭佩玺提出了基于中心化优化的分布式策略学习框架。该框架通过中心化优化的方式来求解策略，并借鉴反事实推理建模每个智能体的分布式策略。中心化优化使得策略更加鲁棒，而分布式策略使得神经网络能够更容易地学习。基于这一思想，通过仿真或者价值网络进行中心化的态势价值估计，再使用中心化优化算法，求解中心化策略。中心化的策略作为一个标签反馈给分布式的策略网络，策略网络再在仿真环境进行自博弈，产生新的博弈价值。

　　根据博弈类型的不同，彭佩玺分别为混合策略博弈和纯策略博弈提出了不同的优化算法。对于混合策略博弈，提出多智能体动态不后悔策略，希望策略在评估的过程中后悔值趋近0。由于无法在多项式复杂度的时间内求解该问题，于是对多智能体的不后悔策略进行近似求解。在每次更新时固定其他智能体策略，利用单智能体不后悔策略求解算法更新当前智能体的不后悔策略，进行迭代式逼近。对于纯策略博弈问题，由于中心化优化算法无法在多项式内时间内进行求解，彭佩玺提出从全局最优求解退化为纳什均衡求解。使用最优反应算法，在每次迭代中固定其他智能体动作，求解当前智能体的最优动作。在理想情况下，基于策略网络自博弈的状态价值大于或等于基于专家知识的状态价值，实现策略的稳步提升。

　　虽然基于中心化优化的分布式策略学习取得了成功，但在智能体数目增加时，中心化优化算法却显示出了极大弊端。为此，彭佩玺进一步分享了仅靠分布式学习的基于动态信念学习的分布式智能体学习机制。受人类决策时的信念通路与决策通路启发，彭佩玺团队尝试让智能体去预测其他智能体的行为，将预测当做贝叶斯先验以指导学习。再进一步借鉴Transformer的Q-K-V过程挖掘出适合训练动态信念的样本用于辅助训练。该方法的学习性能达到了SOTA的中心化学习方法的水平，并远超其分他布式学习方法。

　　为进一步提高大规模智能体策略学习的泛化性，基于上述信念学习的模型，彭佩玺团队尝试把小规模的训练场景迁移到大规模的场景。

　　在大规模智能体学习中，每个智能体有单独的状态转移、奖励和策略函数，构成了策略泛化的难点之一。为了提升泛化性，彭佩玺团队提出智能体学习中的潜在变量推理。假设存在一潜在变量代表智能体特性，在推理过程中，利用智能体的轨迹对智能体的特性进行推理。由于传统策略函数只利用当前观测作为输入，无法建模智能体本身的特性，因此会造成策略模型难以泛化，而把每个智能体的特性用潜在变量表示，从而把共性的部分用函数来建模，就能提升策略模型的泛化性。此外，潜在变量不但可以提升模型的泛化性，还可以平衡开发与探索，与内在奖励相结合提升模型的鲁棒性。该方法在济南、杭州、深圳和纽约等城市的交通灯控制任务上远超传统优化类方法和强化学习方法，同时在杭州训练的模型可以直接迁移到其他城市，做到跨场景迁移性能下降最小。

　　最后，彭佩玺分享了以神经网络群体进化算法为基础的混合博弈联盟训练的实际应用，并对多模态强化学习以及类脑博弈与脉冲强化等方向成果进行了概述，畅想大规模智能体策略鲁棒性学习和泛化性学习的无限未来。

第三届智能决策论坛回顾 | 多智能体强化学习分论坛

栏目推荐

信息排行更多

热点话题更多

全国政协主席会议成员到中国科学院自动化研究所学习调研王沪宁出席

中国科学院自动化研究所诚邀您依托申报

第五届中国预测控制与智能决策大会会议征文通知

首自信公司亮相2024全国数据治理年会暨博览会，并成功入选数据管理优秀案例

2025中关村论坛丨亮道携激光雷达亮相世界领先科技成就展

“智行数海”上海高级别自动驾驶数据共享应用工作推进会成功召开

圣方医药研发正式更名为"太美智研医药" 以AI赋能临床研究全链条

百图生科与中国农业科学院生物技术研究所达成战略合作，共推“AI+农业”创新发展

话题推荐更多

栏目最新更多

第三届智能决策论坛回顾 | 多智能体强化学习分论坛

评论排行

相关文章

栏目推荐

信息排行更多

热点话题更多

全国政协主席会议成员到中国科学院自动化研究所学习调研 王沪宁出席

中国科学院自动化研究所诚邀您依托申报

第五届中国预测控制与智能决策大会会议征文通知

首自信公司亮相2024全国数据治理年会暨博览会，并成功入选数据管理优秀案例

2025中关村论坛丨亮道携激光雷达亮相世界领先科技成就展

“智行数海”上海高级别自动驾驶数据共享应用工作推进会成功召开

圣方医药研发正式更名为"太美智研医药" 以AI赋能临床研究全链条

百图生科与中国农业科学院生物技术研究所达成战略合作，共推“AI+农业”创新发展

话题推荐更多

栏目最新更多

全国政协主席会议成员到中国科学院自动化研究所学习调研王沪宁出席