会展赛培坛

推好自动化科技观察：第二届智能决策论坛 | 报告回顾（上）：业内专家分享决策智能研究最新进展！

时间：2022-07-06 08:31:25 发布：自动化网来源：中国科学院自动化研究所搜狐网第一对焦：智能决策

【推好自动化科技观察】：聚焦决策智能研究最新进展，促进前沿技术的应用落地。6月18日，第二届智能决策论坛正式召开，吸引超十万人次线上实时观看互动！论坛邀请了七位领域知名学者做学术报告，分享决策智能领域研究的前沿成果。本系列文章将对嘉宾带来的精彩报告进行回顾梳理，欢迎各位读者一同讨论交流！
决策智能是新一代人工智能的重要发展方向之一，具有广阔的研究和应用前景。为聚焦决策智能研究最新进展，促进前沿技术的应用落地，第二届智能决策论坛于6月18日正式召开，吸引超10万人线上参与。本次论坛由中国科学院自动化研究所主办，中科南京人工智能创新研究院承办。

第二届智能决策论坛 | 报告回顾（上）：业内专家分享决策智能研究最新进展！

决策智能是新一代人工智能的重要发展方向之一，具有广阔的研究和应用前景。为聚焦决策智能研究最新进展，促进前沿技术的应用落地，第二届智能决策论坛于6月18日正式召开，吸引超10万人线上参与。本次论坛由中国科学院自动化研究所主办，中科南京人工智能创新研究院承办。

01

智能决策和学习中的挑战

洪奕光

同济大学教授

来自同济大学上海自主智能无人系统科学中心的洪奕光教授带来了《智能决策和学习中的挑战》主题报告。洪奕光教授首先从群体智能决策的背景和现状出发，提出了目前智能决策发展的三个方向：“高”，即将不同层次的决策和控制融合在一起；“宽”，即扩大问题规模、将问题网络化；“深”，即针对特定问题的研究不断深入。

从当前智能决策的相关发展，可以看出“智能”既给我们带来了强有力的工具，也带来了新的挑战。洪奕光教授分别从分布式决策、层次化集成设计和决策学习中的非线性这三个方面介绍了当前智能决策和学习中所面临的挑战。

● 分布式决策

洪奕光教授认为，分布式决策可以表示为：“分布式决策 = 决策(优化/博弈) + 多智能体系统”。相比于集中式决策，分布式决策则是将优化目标函数分为多个，交由多个智能体进行优化，并且这些智能体在优化过程中通过交互中间变量，从而实现整体最优。同时，针对决策中优化和博弈间的关系，洪奕光教授认为优化可以是博弈的特例，而博弈也可以说是优化的推广，这在一定程度上统一了两者的研究。

接着，报告以实际问题为例，介绍了当前分布式决策中可能遇到的挑战。如在“分布式资源分配”中，目标函数是非光滑函数、资源分配的不等式约束、含不确定性的多种约束等都是这类问题中常见的难点。洪奕光教授在研究分布式的在线优化学习时，提出了基于“全信息反馈”和“Bandit反馈”两种方式的算法，并取得了与现有结果同等量级时间复杂度的效果。而从分布式凸优化出发，实际上其许多推广问题，如非凸优化、在线或鲁棒优化、矩阵优化、动态优化等，均有待进一步研究。对于分布式对抗博弈的研究，其挑战性则主要体现在博弈种类多、不完全信息等方面。

● 层次化集成设计

在层次化集成设计方面所遇到的挑战，报告则主要从信息层和物理层两个角度进行介绍。其中，信息层主要负责决策，而物理层则主要负责控制。洪奕光教授提到，决策与控制实际上在一开始就关系密切，随着过去几十年决策与控制的研究独立发展并趋于成熟，当今高科技给出了新机遇——控制和决策的综合成了必然。

然而，决策优化通常都是离散的，而真实的物理控制则是连续的，因此当进行上下层一体化设计时，整个问题变成了一个混杂系统的优化，相比之下变得更加复杂。报告从无人机的协同和Euler-Lagrange系统的优化这两个例子出发，简单展示了数学理论是如何将决策与控制结合在一起的，并给出了一般系统的设计框架：先做预处理、再做优化设计、最后跟踪控制。根据代价函数是否显示表达，决策与控制的结合可以分为两种情况：离线和在线。其中离线情况下，先将决策“离线”分布式得到，随后设计集中式的跟踪控制；而在线情况下，先将决策和跟踪控制器分别设计，再进行“在线”一体化耦合。目前洪奕光教授采用闭环集成的方式实现优化决策和物理系统的结合，但仍有更多更复杂的挑战。同时，洪奕光教授还给出了与决策和控制集成相关的一些研究架构，如图1所示。

图1 决策和控制集成相关研究架构

● 决策学习中的非线性

最后，洪奕光教授讨论了决策学习中的非线性。虽然非线性会给问题带来很多复杂的现象，但是如果能利用好它，那么也可以带来好处、提高效率。决策设计中非线性出现的场合非常多，如：指标函数、约束条件、算法设计的辅助项、切换拓扑等。在本次讨论中，洪奕光教授以非光滑映射、低维的流形两个典型例子为例，介绍了他在智能决策中的相关工作。

在一个非光滑问题中，其难点主要为：一般凸（解不唯一）、具有非光滑的代价函数和非光滑的集合约束，这使得算法设计中解的存在性和算法的收敛性证明比较困难。但是在聚合博弈中，洪奕光教授通过引入非光滑，使该问题的方程少一阶，从而减少问题的不确定性并保证了算法的收敛性，这在一定程度上体现了非光滑映射的好处。

而在低维流形方面的相关研究中，洪奕光教授通过研究并利用流形中的结构（尤其是负曲率），对在线梯度下降算法进行改进，并与当前欧氏空间中最好的结果相比取得了更好的结果。另外，在基于流形匹配多模态数据整合的研究中，洪奕光教授根据集合拓扑结构给出优化指标，提出了单细胞多模态全局流形整合的方法；而在处理模态数据集间只有一部分细胞类型的情况下，洪奕光教授基于局部Gromv-Wasserstein的最优传输框架，提出了单细胞多模态局部流形整合的方法。

在结尾部分，报告总结了智能系统的广泛应用，认为它现在虽然可以解决很多复杂问题，但仍有很大的研究探索空间。同时，随着研究的不断进展，跨学科、跨领域的知识融合，对于智能决策的相关研究也有非常大的推动作用。

02

合作型多智能体强化学习的应用探索

李厚强

中国科学技术大学教授

来自中国科学技术大学的李厚强教授从多智能体强化学习角度展开，首先向我们介绍了多智能体强化学习的背景知识。智能体通过传感器感知环境，然后通过执行器作用于环境，而多智能体系统是一个在环境中交互的多个智能体组成的系统。多智能体强化学习实际上是一个序贯决策问题（当前的动作不仅影响即时收益，还会影响后续环境状态和未来收益）。根据智能体之间的利益关系，多智能体系统还可以分为合作型多智能体系统、竞争性多智能体系统和混合型多智能体系统。

而根据训练范式的不同，又可以分为中心化训练中心化执行、分布式训练去中心化式执行和中心化训练去中心化执行。

接着，李厚强教授从状态表征、信用分配、任务分工、异常处理等多个角度出发，向我们分享了合作型多智能体强化学习的研究热点。

● 状态表征

由于实际的原始问题输入的状态规模爆炸，导致强化学习性能提升慢、训练开销大，如何从高维输入状态中抽取出任务有关信息的隐状态是实现高效强化学习的关键。李厚强教授提出了一种随机遮挡顺序输入表征学习的训练范式，通过恢复遮挡输入的隐状态和对比损失函数优化网络实现高效地学习。

● 信用分配

多智能体问题中环境往往只给出了整体性团队回报，但是仅有团队奖励作为评价标准可能会引起Lazy Agent问题，使有些智能体在训练时不处理，表现消极，仅由部分智能体发挥作用。李厚强教授提出，利用信用分配，从团队奖励中分解出每个智能体的贡献，引导其形成积极的。有利于团队的策略。目前的主流信用分配方法有使用聚合Individual Q函数的方式实现隐式信用分配，但分配机制仍是黑盒，作用机制仍不明确。李厚强教授提出，对QMIX的聚合方式进一步简化，并在原有损失函数上加入熵正则项有利于提高QMIX的胜率。

● 任务分工

一个复杂的协作多智能体问题往往可以分解成多个子任务，不同子任务对应不同的工作职责，如在足球比赛中，有担任前锋、中锋、后卫和门将这些不同的职位。像中心化训练去中心化执行这种共享网络参数的训练方式确实有利于降低训练复杂度，但是不利于智能体行为多样性。一种折中的方法是将系统问题分为多个不同的子任务，不同的子任务之间可以共享网络参数。

用这种思想在SMAC等多个场景中测试，胜率和训练速度方面都要优于baseline。

● 异常处理

经典的多智能体强化学习默认智能体可以一直正常运行，但是实际上，在训练过程中有些智能体会出现崩溃，导致训练所得策略无法适配。针对这种情况，李厚强教授提出可以通过调整出错率进行随机采样来决定智能体是否崩溃，然后针对不同的出错率采用不同的策略进行调整。

最后，李厚强教授分享了实验室正在开展包括配电网电力调度、智能交通灯控制、游戏AI和主动视觉目标跟踪等领域的研究，并指出强化结合博弈、超大规模扩展、模型可解释性、专家知识引导等均是多智能体强化学习问题研究中极具前景的方向。

向公众号后台发送“01 ” 即可获取PPT

03

多智能体系统中的稀疏交互

高阳

南京大学教授

来自南京大学计算机软件新技术国家重点实验室的高阳教授带来了《多智能体系统中的稀疏交互》主题报告。

● 智能决策与多智能体系统

高阳教授首先对智能决策和多智能体系统做了比较全面的介绍，智能决策技术从最初的基于规则一步步发展到现在基于博弈，总体来看是从定性到定量，从单体到协同的过程。以混合型多智能体系统中的布雷斯悖论为例，高阳老师强调了随着多智能体系统中的Agent数目增多，在Agent之间存在相互影响的情况下，决策从单体转向群体时会产生一种相变。这种相变产生的原因、机理以及解决方法就是多智能体系统研究中的一个核心问题。

● 多智能体系统交互的稀疏性

高阳教授认为，以游戏为研究对象的多智能体系统均属于紧交互系统；而在实际情况中，随着智能体数目的增多，紧交互的现象并不是处处存在的，于是把这种全局随机但是局部聚集的系统认为是稀疏交互系统，比如高速公路上的车辆。进一步地，可以将稀疏交互分为时间上的交互稀疏性（比如机器人控制、足球、篮球等场景）以及空间上的交互稀疏性（只有少数智能体在局部时空上紧交互，而在全局上呈现稀疏交互特性，比如电力网络、交通网络等场景）。

多智能体系统的建模采用马尔科夫博弈(MarkovGame），对这个问题求解的学习方法和思路（学习范式）有四种：单智能体学习、多智能体联合学习（集中式思想）、对手建模和最佳反应学习以及基于博弈均衡的学习。高阳老师主要讨论了这四种范式之间能否建立联系的问题。在基于博弈均衡的多智能体强化学习中，算法构造思路是：首先综合每个Agent的初始认知（值函数），在每个状态构成n维的博弈矩阵，然后根据某种博弈选择均衡动作（伴随一定的随机性），获得经验和反馈，修改认知，最后根据延迟的反馈，回退修改历史认知。当情况扩展到大规模群体博弈决策时，目前仍然面临着两大挑战：大规模博弈结构的归纳推理以及均衡计算。

● 利用交互稀疏性的博弈约简

考虑到多智能体系统中不仅存在紧交互，还存在稀疏交互，因此想到来利用这种特性对大规模博弈中面临的挑战进行一些简化。

在这一部分，首先需要关注的问题是如何知道在一个多智能体系统中出现了交互，即交互检测问题。环境动态性的测量方法包括基于先验的协同图构造、基于统计的因动态性增大导致的状态访问频率增加、基于学习的测量奖赏值或值函数（N步回报奖赏，NSR）。高阳教授团队构造了一个NSR模型来实现博弈约简和学习，首先在NSR模型中判断是否存在交互，如果不存在交互则采用分布式独立学习，如果存在交互则采用联合学习，在得到联合动作后和环境进行交互。

第二个问题是如何学习智能体之间的交互关系。可以采用图神经网络（用边和权重反映智能体之间的交互关系），通过注意力机制方法进行学习。高阳教授团队采用两阶段注意力机制：在硬注意力机制中确定是否存在交互关系。采用双向LSTM得到孤立子图，使用Gumbel-Softmax函数进行梯度反向传播；在软注意力机制中来计算子图中边的权重。

在报告最后高阳教授总结道，稀疏交互是多智能体系统的本质，这种稀疏交互包括时间和空间上的，可以通过一些显式的方法对这种交互进行检测，或者来学习这种交互关系，也可以去度量其中的相似性。有了相似性之后就可以实现单智能体向多智能体，或者多智能体向多智能体之间的策略迁移。

04

个体决策中心理与行为要素的建模与求参

赵琳

西南财经大学教授

西南财经大学赵琳教授带来了题为《个体决策中心理与行为要素的建模与求参》的报告。

● 可归因结构化建模

赵琳教授首先从经济学与管理学角度介绍了经济管理研究决策的一般方法——可归因结构化建模。该方法首先在行为方面做出少量且清晰的初始假设。该假设需要能够清晰地体现行为特点，并且具有可解释性，之后使用逻辑链推导出该假设的行为表现。其中可归因体现在后面的行为表现一定是由该假设导致的，结构化体现在非线性的结果是由逻辑推理与优化理论导出，具有可解释性。

过去的研究假设研究对象是完全理性的，但实际中研究对象的决策往往会受到智力限制、计算力等的限制，进而不满足完全理性假设，而这又进一步导致了模型与实际决策的不符。而这些非理性假设往往难以使用数学工具进行建模。

针对该问题赵琳教授介绍了数学建模非理性因素的方法，该方法使得决策过程能够符号化地表达出来，方便之后使用程序化的方法进行自动化求解。方法首先从决策过程的生理学、心理学以及脑科学机制出发，抽象出行为规律的符号化数学模型。之后针对模型中未知的参数，使用行为运筹与参数估计的方法利用真实数据进行估计，在得出准确参数之后利用该已知的参数模型对实际决策过程进行描述，实现自动决策。

● 建模示例

报告采用来自娱乐消费、体育赛事和零售运营领域的三个示例展示了对心理与行为要素的建模与求参过程。

第一个案例是以消费为背景，研究音乐消费中的饱和效应。音乐消费是一种精神消费，因此需要考虑精神活动本身的生理学机制。其中饱和效应是消费中一种非常重要的现象。该现象是两重边际效应递减，第一重边际效应递减是敏感性随着数量的增加而不断降低，第二重边际效应递减是随着时间的推移，敏感性会逐渐增加。为了对饱和效应进行建模，报告首先从饱和效应的生理学机制出发，建立饱和效应的数学模型。音乐产生的刺激可以被视为一种小球。而大脑处理音乐刺激的感受器可以被视为一种容纳小球的信道。接受音乐信号的刺激可以类比为将小球打入到信道中。而处理神经信号的速率是一定的，即信道排出小球的速率有限的，因此如果频繁的接受音乐信号的刺激会使得信道内的小球堆积起来。如果原有的刺激没有完全地处理掉，那么就无法处理新的刺激。基于以上分析，赵琳教授建立了饱和效应的数学模型。并以利用实际数据求出该模型中的位置参数。之后利用混合整数非线性规划进行对音乐进行选择、排序和时间调节，以避免饱和效应的负面影响，制定出合适的歌单。

在第二个案例中，报告介绍了心理与行为要素的建模在体育竞赛中的应用。通过对运动员疲劳现象的建模合理规划训练与比赛时间。该案例同样从疲劳的生理机制出发构建数学模型。当运动时肌肉会消耗大量的葡萄糖分子，但消耗葡萄糖的有氧通道是有限的，因此无法通过有氧通道消耗的葡萄糖会通过无氧呼吸产生乳酸，进而导致疲劳感的产生。因此可以将该问题建模为一个限流排队问题。该模型中包含五个参数，分别是疲劳恢复速度、效率消减速度、肌肉最大力量、初始能量，能量再生速率。根据实际数据可以拟合出这五个参数估计值从而指导运动实践。基于该模型可以进行对体育竞赛的优化，在最短的时间内克服疲劳阻力获得最好的竞赛效果。由于建模的准确性，该方法对数据量的要求并不高。

在第三个案例中，报告以零售运营中的后悔现象为例介绍了一种不同的心理与行为要素建模方式。零售业运营者往往会在订货时受到后悔情绪的影响而使得自己的决策偏离最优决策。而这可以通过实际脑电波数据来对描述情绪的模型进行参数估计，进而利用该模型实现自动决策。

赵琳教授总结，随着认知科学的发展，我们可以从心理学、生理学和脑科学中找到微观行为机制，通过这些微观行为机制我们可以对行为因素进行精确地数学建模，同时明确收集数据的方向，避免了对大数据与大算力的要求，并提高了模型的可解释性。