AAAI 2025 | 自动化所新作速览(二)
引导多智能体强化学习的策略与人类常识对齐是一个具有挑战性的问题,这主要源于将常识建模为奖励的复杂性,特别是在复杂的长时序任务中。最近的研究表明,通过奖励塑造(如基于势函数的奖励)可以有效提升策略的对齐效果。然而,现有方法主要依赖专家设计基于规则的奖励,这通常需要大量人力,并且缺乏对常识的高层语义理解。为了解决这一问题,我们提出了一种基于层次化视觉奖励塑造的方法,充分结合了视觉语言模型(VLM)的轻量化优势和视觉大语言模型(vLLM)的推理能力。在底层,一个VLM作为通用势函数,利用其内在的语义理解能力,引导策略与人类常识对齐。在顶层,我们设计了一个基于vLLM的自适应技能选择模块,用以帮助策略适应长时任务中的不确定性和变化。该模块通过指令、视频回放和训练记录,动态选择预设池中的适用势函数。此外,我们的方法可从理论上证明不改变最优策略。我们在 Google Research Football 环境中进行的大量实验表明,该方法不仅实现了更高的胜率,还能够有效地将策略与人类常识对齐。
近期基于大规模语言模型的研究在数学推理能力上取得了显著提升,尤其是在基础难度的数学问题上。但是面对高中及大学以上水平的复杂问题时,现阶段模型的表现仍然有很大提升空间。本文通过对人类解决数学问题的过程进行分析,将解决数学问题的思维过程分解为选择合适的数学定理知识和做出分步解答两个阶段。在此基础上,对思维链方法进行扩展,提出了在思维链的前置引入思考特定数学定理的过程,这一过程对解答的质量及缓解幻觉有着重要的约束作用,但是在以往语言模型数学推理的研究中被忽略。因此,本文提出学习定理原理的概念,并创建了一个包含(问题,定理,解)三元组的数学推理数据集,用于将针对具体问题选择特定定理的方法传递给特定模型。在此基础上,本文模仿人类教学方法,提出一种面向定理的多层次指令进化策略,以缓解定理匹配数据标注困难的问题,并从各个角度促进对定理应用方法的理解。在多个公开数学推理数据集上的评估结果显示了本文所提出方法的有效性,尤其是在域外场景和涉及大学及以上的高水平数学问题上。
在多智能体博弈的模仿学习离线数据集中,通常包含展现多样化策略的玩家轨迹,因此需要采取措施防止学习算法获取不良行为。对这些轨迹进行表示学习是一种有效的方法,每条轨迹的策略表示可以刻画每个演示者所采用的策略。然而,现有的学习策略往往需要玩家身份信息或依赖于较强的假设,这些假设在一般的多智能体博弈数据集中未必适用。本文提出了策略表示增强模仿学习(Strategy Representation for Imitation Learning,STRIL)框架,该框架包含三大部分:(1) 在多智能体博弈中有效地学习轨迹对应策略表示;(2) 基于这些策略表示估计提出的指标;(3) 利用指标筛去次优数据。STRIL是一种插入式方法,可以集成到现有的模仿学习算法中。我们在多个竞争性多智能体场景中验证了STRIL的有效性,包括双人Pong、有限注德州扑克和四子棋。我们的方法成功获取了策略表示和对应指标,从而识别出主导轨迹,并显著提升了这些环境中现有模仿学习算法的性能。
点云补全旨在从不完整的点云中重建完整的三维形状,这对于三维物体检测、分割和重建等任务至关重要。尽管点云分析技术不断进步,但特征提取方法仍然面临明显的局限性。在大多数方法中用作输入的点云的稀疏采样通常会导致一定的全局结构信息丢失。同时,传统的局部特征提取方法通常难以捕捉复杂的几何细节。为了克服这些缺点,我们引入了 PointCFormer,这是一个针对点云补全中的稳健全局保留和精确局部细节捕捉进行了优化的Transformer框架。这个框架有几个关键优势。
首先,我们提出了一种基于关系的局部特征提取方法来感知局部精细的几何特征。该方法在目标点与其k个最近邻点之间建立了细粒度的关系度量,量化了每个相邻点对目标点局部特征的贡献。其次,我们引入了一个渐进式特征提取器,将我们的局部特征感知方法与自注意力相结合。它从更密集的点采样作为输入开始,迭代查询长距离全局依赖关系和局部邻域关系。此提取器保持了增强的全局结构和精细的局部细节,而不会产生大量的计算开销。此外,我们在隐空间中生成点代理后设计了一个校正模块,以重新引入来自输入点的更密集信息,从而增强点代理的表示能力。PointCFormer 在几个广泛使用的基准上展示了最先进的性能。
音频驱动的数字人生成需要在处理多样化输入肖像及复杂的音频与面部动作相关性时,实现音视频数据的无缝融合。针对这一挑战,我们提出了一个名为 GoHD的鲁棒框架,用于从包含任意动作与身份信息的参考人脸图像生成高度逼真、生动且可控的说话视频。GoHD 包含三个关键创新模块:首先,采用隐空间向量分解技术实现人脸驱动模块,提升了对任意风格输入人脸图像的泛化能力。该模块实现了动作与身份信息的高度解耦,并通过引入眼神方向的控制纠正了之前方法易忽视的不自然眼部运动。其次,设计了基于conformer结构的条件扩散模型,以确保生成的头部姿态能够感知语音韵律。最后,为了在有限的训练数据下估计出与音频同步的逼真表情,提出了两阶段训练策略,分别对频繁且帧相关的唇部动作进行蒸馏,并与生成其他时间依赖性但与音频相关性较低的动作(如眨眼和皱眉)进行解耦。大量实验验证了 GoHD 卓越的泛化能力,展示了其在任意输入上的逼真说话人生成效果。
本文提出了RECAD,包含一个新的栅格化草图+拉伸的建模表示以及基于这种表示的CAD模型生成框架。与传统方法使用离散的参数化线段序列表示草图不同,RECAD采用栅格图像来表示草图,这种方法具有多个优势:1)打破了线段/曲线类型和数量的限制,提供了更强的几何表达能力;2)能够在连续的潜在空间中进行插值;3)允许用户更直观地控制输出结果。在技术实现上,RECAD使用了两个扩散网络:第一个网络基于拉伸数量和类型生成拉伸框,第二个网络基于这些拉伸框生成草图图像。通过结合这两个网络,RECAD能够有效地生成基于草图和拉伸的CAD模型。实验结果表明,RECAD在无条件生成方面取得了良好的性能,同时在条件生成和输出编辑方面也展现出良好的效果。
近年来,扩散模型在视觉生成领域取得了显著突破。然而,生成真实的人体图像,尤其是手部和面部等复杂结构部位,仍然面临重大挑战。这些问题主要源于人体结构的复杂性及在生成过程中的信息丢失。针对这一问题,我们提出了一种名为 RealisHuman 的新型后处理框架。该方法分为两个阶段:第一阶段通过“部位细节编码器”(Part Detail Encoder)结合畸形部位的参考信息与 3D 姿态估计结果,生成真实的人体局部图像,确保生成部分的细节一致性和高质量;第二阶段将生成的局部图像无缝地嵌入原始图像,通过局部区域的重绘技术,实现自然过渡,避免“剪贴”痕迹。实验结果表明,RealisHuman 显著提高了生成图像的真实感和一致性,并在不同风格的图像生成任务中表现出较强的泛化能力。此外,相较于现有的手部修复方法 HandRefiner,RealisHuman 在保留手部细节、修复小型手部区域以及保持整体图像一致性方面表现更优。
在雷达-相机3D物体检测中,雷达点云稀疏且噪声较大,这使得相机和雷达模态的融合变得困难。为了解决这个问题,我们提出了一种新的基于Query的检测方法,称为RCTrans。具体而言,我们首先设计了一个雷达稠密化编码器,用以丰富稀疏的有效雷达Token,然后将其与图像Token拼接。由此,我们可以充分探索每个兴趣区域的3D信息,并减少在融合阶段无效Token的干扰。接着,我们设计了一个可剪枝的序列解码器,根据所获得的Token和随机初始化的Query来预测3D框。为了缓解雷达点云中的高度模糊性,我们通过序列融合结构逐渐定位物体的位置。这有助于在Token和Query之间获得更精确和灵活的对应关系。我们在解码器中采用了剪枝策略,这可以在推理过程中节省大量时间,并防止Query失去其独特性。我们在大规模nuScenes数据集上进行了广泛的实验,证明了该方法的优越性。
工具学习使大语言模型能够通过调用工具与外部环境互动,丰富了大语言模型的准确性和能力范围。然而,以往的研究主要集中在提高模型的工具使用准确性和对新工具的泛化能力上,过度强迫大语言模型学习特定的工具调用模式,而没有考虑到对模型通用性能的损害。这偏离了实际应用和整合工具以增强模型的初衷。为了解决这个问题,我们通过检查模型组件的隐藏表示变化和使用基于梯度的重要性分数来剖析这种能力冲突现象。基于分析结果,我们提出了一种基于组件重要性的工具使用能力注入方法(CITI)。根据组件的梯度重要性评分,它通过对不同组件应用不同的训练策略来缓解微调过程中引起的能力冲突。对重要组件,CITI应用混合LoRA专家结构(MOLoRA)来学习工具调用的知识;对于不重要的组件,它微调大语言模型的主干网络中的参数,同时保持其他参数不变。CITI能够有效增强模型的工具使用能力,而不会过度牺牲其一般性能。实验结果表明,我们的方法在一系列评估指标上取得了出色的表现。
知识编辑旨在更新大语言模型中过时或错误的知识。然而,目前的知识编辑方法在终身编辑方面的可扩展性有限。本研究探讨了知识编辑在终身编辑中失败的根本原因。我们从线性关联记忆推导的闭式解出发,该解是当前最先进知识编辑方法的理论基础。我们将这一解从单次编辑扩展到终身编辑,并通过严格的数学推导,在最终解中发现了一个干扰项,这表明编辑知识可能会影响无关知识。对干扰项的进一步分析揭示了其与知识表示之间叠加现象的密切关系。也就是说,当语言模型中不存在知识叠加时,干扰项消失,从而实现无损的知识编辑。通过对众多语言模型的实验,我们发现知识叠加具有普遍性,其表现为高峭度、零均值和重尾分布,并遵循清晰的扩展定律。最终,通过结合理论和实验,我们证明了知识叠加是终身编辑失败的根本原因。此外,本研究首次从叠加的视角探讨了知识编辑,并广泛观察到众多真实语言模型中的知识叠加现象。
近年来,大型语言模型(LLMs,如GPT-4、LLaMA3-70B)在复杂推理任务中表现出色,但其庞大的参数规模和高计算成本限制了在资源受限环境中的应用。小型语言模型(SLMs,参数量小于7B)虽然计算效率高效,但在处理需要结合通用认知能力和领域专业知识的复杂推理任务时表现较差。针对这一挑战,本文提出神经-符号协作蒸馏(NesyCD)。该方法将复杂任务所需的能力划分为两大类:一类是普遍适用的通用能力,这类能力适合通过神经网络模型进行建模与处理;另一类则是特定应用场景下的专用能力和专业知识,这类能力更适合利用符号系统进行精确表达与记录。具体而言,NesyCD通过传统的神经蒸馏方法,将LLMs中的通用认知能力迁移到SLMs中;而对于复杂推理任务中所需的领域专业知识,则采用符号知识蒸馏方法,将LLMs中的专业知识提取并存储到符号知识库中。实验结果表明,NesyCD显著提升了SLMs在复杂推理任务中的表现。例如,经过NesyCD训练的LLaMA3-8B和Qwen2-7B在多个任务上的性能超越了GPT-3.5-turbo,并接近LLaMA3-70B。该方法为资源受限环境下的高效推理提供了新思路。
大语言模型(LLM)的海量预训练数据中,可能包含版权、隐私、或者不良信息,使得LLM容易生成未授权、私人、或者冒犯性内容。为了消除此类语料对模型带来的不利影响,知识遗忘作为一种有前景的解决方案应运而生(图1a展示了使模型遗忘与著名作家J.K.罗琳相关知识的一个实例)。然而,现有的知识遗忘手段得到的模型较为脆弱,容易受到手动设计的对抗性用户输入的干扰。因此,我们首先提出一种动态的、自动的攻击框架,用来定量评估模型遗忘特定知识后的稳定性。如图1b所示,我们通过优化一个通用的攻击性后缀,以最大化遗忘后模型生成相关知识的概率。实验结果表明,即便在未直接暴露遗忘后模型的情况下,在54%的测试问题中,原本应被遗忘的知识仍可被成功恢复。为了修复遗忘过程的脆弱性,我们提出了基于隐式对抗攻击的模型知识遗忘提升方法。具体而言,该方法分为两个优化阶段(如图1c所示)。第一阶段为攻击过程,通过优化模型隐空间中的噪声向量,以引导模型生成特定知识;第二阶段则为防御过程,固定噪声向量,转而优化模型参数,以抑制特定知识的生成。实验结果表明,我们提出的方法在多个公开的遗忘数据集上取得了显著效果。在提升模型遗忘有效性53.4%的同时,仅导致11.3%的邻接知识损失,并且几乎不对模型的通用能力产生任何负面影响。
评论排行