【ZiDongHua之会展赛培坛收录关键词:中科院自动化所 深度学习 人工智能  】
 
 
  中科院自动化所多模态人工智能系统全国重点实验室将主办第九届深度强化学习理论与应用研讨会  
 
 
  【第九届深度强化学习理论与应用研讨会】
 
  "从具身到后训练,强化学习在线"
 
  主办单位
 
  中国科学院自动化研究所多模态人工智能系统全国重点实验室
 
  中国自动化学会
 
  承办单位
 
  中国科学院自动化研究所深度强化学习团队
 
  中国自动化学会数据驱动控制、学习与优化专委会
 
  时间地点
 
  2025年1月17日-18日,中国北京
 
  ▶序言◀
 
  2024年,具身智能可能是人工智能领域最火的一个词。与离身智能的大模型相比,其考虑物理世界的三维空间、以及实体约束,将大模型拓展到了更广泛的应用。对于大模型研究,也从大语言模型、发展到视觉语言模型,再到视觉语言动作模型和世界模型,以支撑具身决策。下半年,主流声音逐渐认为预训练的规模定律所带来的模型性能提升已到了瓶颈,以后训练推理为代表的OpenAI的o1成为提升大模型性能的新范式,强化学习方法是主要支撑技术。国内外对o1的各种复现层出不穷,逐渐演变为百o大战。不到半年时间,从o1发展到o3,数学、代码竞赛和科学分析等方面的能力实现大跃迁,令人惊叹!
 
  国内研究学者在上述提到的具身智能、世界模型、后训练推理、大规模群体博弈等人工智能领域的最新热点方向提出了创新的思路,并进行了机器人、自动驾驶、无人机群等领域的应用验证。今年召开的“第九届深度强化学习理论与应用研讨会”特邀多位深度强化学习及相关领域的知名学者分享最新研究进展,共同探讨新的机遇和挑战。
 
  本次活动由中国科学院自动化研究所多模态人工智能系统全国重点实验室和中国自动化学会主办,中国科学院自动化研究所深度强化学习团队、中国自动化学会数据驱动控制、学习与优化专业委员会承办,于2025年1月17日-18日在中国科学院自动化研究所线下举行,欢迎关注和宝贵意见。
 
  --赵冬斌研究员
 
  ▶研讨会嘉宾◀
 
 
  ▶日程安排◀
 
 
  ▶报告简介◀
 
  9:10-9:50:具身协同交互与学习
 
  报告人:刘华平,清华大学长聘教授,国家杰青
 
  主持人:赵冬斌研究员
 
  摘要:当前,复杂高动态环境对机器人的感知与学习提出了更加迫切的需求。集群系统为多机器人协同应用带来了效能倍增与应用突破,同时也对群体智能的感知、学习的理论研究与工程应用带来了巨大的挑战。本报告面向态势理解在适应异构机器人平台感知、动作的能力差异,以及适应广域动态场景高效、鲁棒的感知这两大类多机器人协同任务需求,针对如何利用异构多机器人的感知与学习能力实现集群增效与行为涌现,介绍相关的研究进展。重点介绍具身学习的相关进展。
 
  简历:刘华平,清华大学计算机科学与技术系教授,中国人工智能学会理事,国家杰出青年科学基金获得者。担任Robotics Sciences and Systems(RSS)的领域主席,International Journal of Robotics Research的Senior Editor。主要研究方向为智能机器人的多模态感知、学习与控制技术。
 
  9:50-10:30:视觉感知与自动驾驶
 
  报告人:鲁继文,清华大学长聘教授,国家杰青
 
  主持人:李浩然副研究员
 
  摘要:自动驾驶是人工智能与机器人领域的研究热点,在工业、农业、服务业等有着重要的应用前景。报告将回顾自动驾驶视觉感知近年来的研究进展,主要包括面向三维点云数据、图像视频数据、多视角环视数据等方法与技术,以及在场景生成与理解、占据分割与预测、端到端自动驾驶等任务中的应用,最后对未来发展趋势进行展望。
 
  简历:鲁继文,清华大学长聘教授,博士生导师,自动化系副主任,国家杰出青年科学基金获得者,IEEE/IAPR Fellow,全国重点实验室副主任,国际期刊Pattern Recognition Letters主编,中国仿真学会理事、视觉计算与仿真专业委员会主任,中国自动化学会专家咨询工作委员会副主任。主要研究计算机视觉、模式识别、具身智能、人工智能安全,发表IEEE T-PAMI论文40余篇,获授权国家发明专利60余项,主持国家重点研发计划项目1项,国家自然科学基金重点项目3项,北京市重点项目2项,担任国际期刊IEEE T-IP/T-MM/T-CSVT/T-BIOM编委,国际会议ICME2022大会主席和ACCV2026、FG2023、VCIP2022程序主席,获公安部科学技术奖一等奖1项,中国电子学会自然科学奖一等奖2项,培养7名博士生获北京市、中国人工智能学会、中国图象图形学学会优秀博士学位论文。
 
  10:40-11:20:基于大模型的慢思考技术探索
 
  报告人:赵鑫,中国人民大学高瓴人工智能学院教授,国家优青
 
  主持人:张启超副研究员
 
  摘要:最近以o1为代表的大模型慢思考技术收到了较大关注,慢思考模型通过生成长程的思考过程来解决更具挑战性的问题,在多个应用科学问答场景都取得了较大突破。然而工业界对于慢思考技术的封锁比较严重,大部分技术目前仍然处于黑箱状态,亟需学术界进行“破解”。本次报告将聚焦大模型慢思考的基础技术与实现方法,对于其中可能涉及到的技术路径进行探索,主要围绕讲者团队对于o1复现的两篇论文《Enhancing LLM Reasoning with Reward-guided Tree Search》和《Imitate,Explore,and Self-Improve:A Reproduction Report on Slow-thinking Reasoning Systems》进行介绍,希望能够唤起更多人一起加入“解密”慢思考模型的队伍。
 
  简历:赵鑫,中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文200余篇,谷歌学术引用2.6万余次,曾主导研发了玉兰大语言模型,组织编写了大语言模型综述论文《A Survey of Large Language Models》(预印版文章)以及《大语言模型》中文书。曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖,CCF-IEEE CS青年科学家奖。
 
  11:20-12:00:基于模因演化的大规模多智能体强化学习研究
 
  报告人:候亚庆,大连理工大学副教授
 
  主持人:朱圆恒副研究员
 
  摘要:“群体智能”、“自主无人系统”等人工智能基础理论概念和关键共性技术是未来驱动我国经济、社会和国防事业发展的关键要素。面向未来大规模多智能体系统在自主智能、群体智能、对抗智能等方面紧迫的技术需求,本报告围绕大规模多智能体协同决策方法设计以及应用验证相关研究开展一系列探索,通过引入社会学与生物学中模因计算的相关理论,分析模因在文化演化以及社会性群体智能中的本质特性,研究多智能体模因知识的通用表达以及基本演化模型,建立和推导多智能体之间非线性、非欧式距离的高阶动态拓扑关联关系,提出多智能体信息交互与群组对抗策略,完成复杂多智能体协作与博弈对抗在仿真(经典视频游戏)以及半物理实体仿真场景(无人机群组协同)的验证。相关研究为多智能体强化学习解决大规模多智能体协同决策问题提供新的理论突破方向,可以促进多智能体协同决策方法在自主智能无人系统中的应用。
 
  简历:候亚庆,大连理工大学计算机科学与技术学院副教授、博士生导师,入选第八届中国科协“青年人才托举”工程、辽宁省兴辽英才计划青年拔尖人才等计划,长期从事复杂系统、群体智能、智能优化及其在工业生产、军事国防等领域实际工程应用方面的研究,取得了一系列创新性成果,创造了显著的经济和社会效益。近五年,在IEEE TEVC、IEEE CIM、CVPR、ACM MM等国际著名期刊或会议发表/录用论文多篇;出版Springer英文专著1部。曾主持JKW智能科技重大专项、国家自然科学基金面上/青年项目、装备预研重点实验室基金、教育部中国高校产学研创新基金、大连市创新基金、大连市留学回国人员创新创业计划等国家、省市级纵向项目,以及解放军某试验基地、解放军某研究院、航空601所、航天二院206所等国防重点单位委托项目10余项。目前担任IEEE CIS Task Force on“Memetic Computing”主席,IEEE TETCI副主编、IEEE TCDS副主编、Memetic Computing Journal编委、图学学报编委等。