第三届智能决策论坛回顾 | 主旨报告:大模型、群体智能与强化学习最新进展
人工智能作为当前最具革命性的技术之一,正在从感知向认知、决策的纵深方向发展。中国科学院自动化研究所长期坚持“智能科学与技术”研究,确立了“自主进化智能”的核心发展目标,将“博弈决策智能系统”作为主攻方向之一。2024年4月13至14日,自动化所举办“第三届智能决策论坛”,聚焦大模型、群体智能、强化学习等前沿学术领域,探讨决策智能的未来发展之路。本系列文章将分专题对论坛报告进行梳理。今天,我们会详细回顾论坛三大主旨报告,欢迎学界、业界同仁及人工智能爱好者共同交流探讨。
#报告1
大模型与具身智能
报告人:张民
哈尔滨工业大学(深圳)教授
报告要点:
✦ 大模型和具身智能技术若能实现突破,有望全面提升机器人和人工智能系统的感知、认知、决策和行动能力,为智能经济和智慧社会的建设提供有力支撑。
✦ 张民教授团队在文本大模型、多模态大模型以及大模型赋能具身智能等方面都取得了重要突破,有望孕育重大应用。
张民教授首先回顾了人工智能发展的三大流派:符号主义、连接主义和行为主义,它们分别从知识表示、神经网络和感知-动作的角度对智能进行了探索。在定义大模型时,张教授强调了其规模性、涌现性和通用性的特点,并介绍了从单一文本模态到多模态大模型的发展过程。将大模型与人形机器人结合,发展具身人工智能,是一个前沿方向。这需要在代码策略、端到端训练、语言模型规划等方面取得进一步突破。大模型和具身智能技术若能实现突破,有望全面提升机器人和人工智能系统的感知、认知、决策和行动能力,为智能经济和智慧社会的建设提供有力支撑。
张民教授重点介绍了其团队在文本大模型、多模态大模型及赋能具身智能方面取得的进展。
在文本大模型研究中,团队采用了预训练、监督学习、指令微调和人类反馈强化学习(RLHF)等技术,极大地提升了模型的语言理解和生成能力。预训练阶段利用海量无标注数据,让模型学习语言的基本规律和常识性知识;再用标注数据进行监督学习,使模型掌握具体任务的完成方法;指令微调让模型进一步适应指令形式的输入,增强其对任务意图的理解;RLHF技术则让模型可以根据反馈不断优化其输出,以更好地满足需求。上述工作使文本大模型在问答、对话、写作等方面展现出接近甚至超越人类的水平,并在教育、金融、医疗等领域得到应用。
在多模态大模型研究中,团队已初步完成了一个融合文本、图像、视频、语音等多种模态信息的大模型,能够在视觉问答、视频描述、语音识别等跨模态任务上取得优异表现。多模态大模型让机器能像人一样理解和交互复杂的现实世界信息,将进一步拓展人工智能的应用边界。
在大模型赋能具身智能方面,张民教授强调,大模型和具身智能技术可以广泛应用于工业制造、服务业等领域。他以团队研发的智能机器人自主制作餐食为例,展示了大模型赋能下机器人的灵活性和多功能性。得益于多模态大模型的融合学习,机器人能够处理多样化的输入(来料),执行多样化的原子操作,生产出多样化的输出(成品)。未来具身机器人有望在更广阔的应用场景中大显身手,极大提升生产和服务效率。
人工智能的发展不仅需要智能还需要智慧。面对新一轮科技革命和产业变革,高校要勇于探索、敢于创新,在基础理论、关键技术和应用示范等方面取得新的突破。
#报告2
面向复杂系统的自适应通用群体智能
报告人:吴文峻
北京航空航天大学教授
报告要点:
✦ 报告重点介绍了群体智能技术的发展历程、大模型技术赋能群体智能的基本思路和关键技术。
✦ 以面向复杂软件系统的微服务群体智能和面向复杂物理环境的群体化具身智能为代表的自适应通用群体智能系统已成为研究热点。
吴文峻教授首先回顾了群体智能发展的三个阶段:群体智能1.0(2016年之前)主要采用多智能体系统、群智众包/开源等技术,系统形态以相对简单的AI Agent群体为主;群体智能2.0(2016年至2022年)引入了深度强化学习、联邦学习等技术,形成了具有一定适应能力的专用Agent群体;群体智能3.0(2023年至今)基于生成式AI,利用大模型赋能通用Agent,并融合认知协作、社会群体智能等方法,形成具有自适应性的通用化Agent群体。
接下来,吴文峻教授分析了大模型(如大语言模型LLM、多模态大模型VLM等)为群体智能带来的机遇,可以显著提升智能体(Agent)的感知、认知、决策等能力,使其具备跨领域的通用智能。基于大模型的Agent可以分为软件智能体和具身智能体两类。软件智能体通过LLM与信息系统交互,如微服务系统中的服务发现Agent、服务规划Agent等。具身智能体通过LLM与物理环境交互,如无人机集群、机器人团队等。吴文峻教授指出,要构建真正的群体智能系统,智能体必须能够与环境进行实时交互,根据反馈不断优化和适应。
为构建自适应通用群智系统,吴文峻教授攻关了系列关键技术:一是基于检索增强的多模态预训练模型,引入外部知识检索机制,提升模型在多模态问答等任务上的性能;二是多模型协作框架,通过认知模块、交互模块的协同,赋能具身智能体灵活应对复杂环境;三是内嵌数理的群智学习方法,将环境数学模型嵌入强化学习过程,引导智能体学习高效安全的群体策略;四是群体化具身智能框架,以VLM实现环境感知,以LLM实现任务规划,提升无人集群的协同作业能力。
为了展示上述技术的实际效果,报告列举了两个群智系统应用案例:一是基于多智能体的服务软件系统,通过引入服务发现、规划、调用等多个LLM Agent,实现高度智能化的服务组合和运维管理;二是污染源监测搜索,利用内嵌物理知识的强化学习算法,指导无人机集群高效搜索污染源,并能根据在线反馈实时优化策略。
随着大模型等技术的发展,群体智能已进入全新阶段,从领域专用逐渐走向通用化。自适应的通用群智系统成为研究热点,代表性的有面向复杂软件系统的微服务群智和面向复杂物理环境的群体化具身智能。未来,构建面向复杂场景的科学群智系统,需要综合考虑以上两类系统的关键要素。
#报告3
强化学习及其在无人系统中的应用
报告人:孙健
北京理工大学教授
报告要点:
✦ 强化学习为无人系统在复杂动态环境下的自适应决策控制提供了有效手段。
✦ 面向实际应用中样本效率低、策略不稳定、安全性难保证等挑战,孙健教授团队开展了系统性研究并实现技术突破。
✦ 未来强化学习要进一步向高效、鲁棒、安全、可解释的方向发展,并加速从实验室走向工程应用的步伐。
孙健教授首先介绍了强化学习的基本概念和发展历程。强化学习是一种重要的机器学习范式,旨在使智能体通过与环境的持续交互,根据即时奖励和长期累积回报不断优化决策策略,从而实现特定目标。从上世纪50年代图灵提出机器学习思想,到2016年谷歌DeepMind的AlphaGo击败围棋世界冠军,强化学习经历了从启发式探索到深度强化学习的重要发展阶段,并呈现出从虚拟环境走向现实应用的趋势。
强化学习为无人系统在复杂动态环境下的自适应决策控制提供了有效手段,但在实际应用中仍面临样本效率低、策略不稳定、安全性难保证等挑战。针对以上问题,孙健教授团队开展了系统性研究,取得了一系列原创性成果。
一是提出了基于Transformer的世界模型强化学习方法。借鉴Transformer在复杂序列建模中的优势,通过构建高维环境动力学模型和奖励函数模型,指导智能体高效探索未知环境,显著提升了样本利用效率和策略学习速度。
二是发展了基于极大值原理的强化学习轨迹规划算法。该算法以cumulative information collection为约束,将无人系统的轨迹优化问题重塑为马尔可夫决策过程,在保证信息收集的同时最小化任务完成时间。
三是针对无人系统连续控制输入的特点,提出了分解离散策略-连续评价的强化学习控制算法。通过将连续动作空间映射为低维离散子空间,有效规避了动作维度灾难,实现了高效稳定的多维控制。
四是发展了基于A搜索的无人机分段B样条路径规划方法。该方法首先利用A*算法规划安全飞行走廊,再基于强化学习生成局部B样条曲线,实现了对飞行轨迹的整体约束,大幅提升了强化学习策略的安全性和鲁棒性。
五是提出了面向无人机激进飞行的深度强化学习方法。通过对环境特征的端到端学习以及奖励函数的精细化设计,该方法实现了无人机在障碍环境下的高速穿越和紧急规避,充分发挥了无人平台的飞行性能。
未来,强化学习要进一步向高效、鲁棒、安全、可解释的方向发展,并加速从实验室走向工程应用的步伐。这不仅需要从环境建模、策略优化、知识融合等方面突破算法瓶颈,更需要面向任务需求开展系统集成设计。
评论排行