PhysMoDPO：基于偏好优化的物理合理人形运动生成

论文信息

标题: PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

作者: Yangsong Zhang, Anujith Muraleedharan, Rikhat Akizhanov, et al.

发布日期: 2026-03-13

PDF链接: 下载PDF

从文本到物理世界：PhysMoDPO如何革新类人机器人运动生成

近年来，人工智能在文本到人体运动生成领域取得了显著进展，其中基于扩散模型的生成方法尤为突出。这些模型能够根据“挥手打招呼”或“向前行走”等自然语言指令，生成逼真、多样的人体动作序列。然而，一个巨大的鸿沟横亘在这些虚拟动作与物理世界之间：如何让这些动作在真实的机器人身上稳定、安全地执行？PhysMoDPO 这篇论文正是为了解决这一核心挑战而生。它提出了一种创新的偏好优化框架，旨在生成不仅符合文本指令，而且物理上可行的类人机器人运动，为虚拟动作到真实机器人的“最后一公里”部署铺平了道路。

研究背景与核心挑战：虚拟与现实的鸿沟

文本到运动生成的研究最初聚焦于创建视觉上可信的3D人体动画，广泛应用于影视、游戏和虚拟现实。扩散模型因其强大的生成能力和对复杂分布的拟合特性，成为该领域的主流。然而，将这些在“无重力、无摩擦”的数字环境中生成的运动直接应用于物理实体（如类人机器人），会立刻暴露出严重问题。

一个常见的解决方案是引入全身控制器。WBC是一种中层控制器，它接收高层运动规划（如关节角度轨迹），并考虑机器人的动力学特性（质量、惯性）、物理约束（关节力矩限制、地面接触力）以及平衡稳定性（如零力矩点准则），实时计算出可行的电机扭矩指令。可以将其理解为一位“物理翻译官”，试图将理想化的舞蹈动作“翻译”成在真实物理舞台上能站稳、不摔倒的版本。

但问题在于，这种“翻译”往往是生硬且失真的。原始的扩散模型生成的动作可能包含物理上不可能实现的瞬间（如脚在地面滑动却不施加力），WBC为了满足物理定律，不得不对原始轨迹进行大幅修改。这导致最终机器人执行的动作与文本指令的意图相去甚远，例如，一个“优雅的滑步”可能被WBC改造成“笨拙的踏步”。以往的研究试图通过添加手工设计的惩罚项（如脚滑惩罚）来引导模型生成更物理友好的动作，但这些启发式规则难以覆盖复杂、多样的物理交互，且调优困难。

因此，核心挑战在于：如何端到端地训练一个运动生成模型，使其输出的动作在经过WBC的物理“过滤”后，既能最大限度地忠实于文本指令，又能完美满足物理可行性？PhysMoDPO的答案是将WBC直接整合进训练循环，并利用基于物理的奖励信号，通过直接偏好优化来重塑模型的生成行为。

核心方法：PhysMoDPO框架详解

PhysMoDPO的框架设计精巧，其核心思想是以终为始，即直接对WBC执行后的最终机器人运动轨迹进行优化。整个流程可以分解为以下几个关键步骤：

1. 训练流程整合WBC 这是该方法区别于前人的根本。在训练阶段，模型不再仅仅生成关节角度轨迹。相反，对于每一个文本指令 $c$ ：

基础扩散模型（作为策略 $\pi$ ）生成一个初始动作序列（状态轨迹）。
该序列立即被馈送到一个可微分的WBC模拟器中。这个模拟器会根据机器人动力学模型，计算出执行该动作所需的扭矩，并模拟出机器人的实际物理状态轨迹。
最终被评估和优化的对象，正是这个由WBC处理后的、在物理模拟器中运行的实际轨迹。

这就迫使扩散模型在生成时，必须“预见”其输出被WBC翻译并置于物理世界后的结果，从而学习生成那些易于被WBC成功执行且偏差小的动作。

2. 基于物理与任务的奖励设计 为了评判一条轨迹的优劣，论文设计了多维度奖励函数 $R$ ，用于产生偏好标签。这些奖励是DPO训练的信号来源，主要包括：

物理真实性奖励：例如，评估机器人是否保持平衡（通过计算质心投影与支撑多边形的距离）、脚与地面接触是否自然（脚在触地时速度应为零）、能量消耗是否高效、关节角度和速度是否在极限范围内等。
任务相关性奖励：确保动作符合文本指令。例如，对于“向前走”的指令，奖励机器人前进的距离；对于“挥手”的指令，奖励手部末端执行器达到特定位置。
轨迹偏差奖励（可选）：鼓励WBC处理后的轨迹与扩散模型原始输出的轨迹尽可能接近，以减少“翻译失真”。

这些奖励函数为每条生成的轨迹计算出一个综合得分。

3. 直接偏好优化 DPO是一种高效的对齐语言模型与人类偏好的技术，它避免了复杂的强化学习策略训练。PhysMoDPO创造性地将其应用于运动生成领域。其过程如下：

对于同一个文本指令 $c$ ，使用当前的策略模型 $\pi_{\theta}$ 生成两条不同的运动轨迹 $\sigma^1, \sigma^2$ 。
将两条轨迹分别通过WBC模拟，并计算各自的奖励得分 $R(\sigma^1), R(\sigma^2)$ 。
根据奖励高低，确定偏好对：奖励高的轨迹记为“优胜” $\sigma_w$ ，奖励低的记为“劣汰” $\sigma_l$ 。
DPO的损失函数旨在最大化模型生成“优胜”轨迹而非“劣汰”轨迹的对数似然概率差。损失函数如下：
$\mathcal{L}_{\text{DPO}}(\pi_{\theta}; \pi_{\text{ref}}) = -\mathbb{E}_{(c, \sigma_w, \sigma_l)} \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(\sigma_w|c)}{\pi_{\text{ref}}(\sigma_w|c)} - \beta \log \frac{\pi_{\theta}(\sigma_l|c)}{\pi_{\text{ref}}(\sigma_l|c)} \right) \right]$
其中， $\pi_{\text{ref}}$ 是参考模型（通常为初始预训练的扩散模型）， $\beta$ 是控制偏离参考模型程度的超参数， $\sigma$ 是sigmoid函数。这个损失函数会驱动模型参数 $\theta$ 更新，使其更倾向于生成高奖励的物理合理轨迹，同时通过参考模型来防止过度偏离已学到的丰富运动先验。

创新点与核心贡献

PhysMoDPO的贡献是多方面的，它系统性地推进了从文本到可执行机器人运动的研究：

1. 范式创新：端到端的物理感知运动生成 首次将可微分的物理仿真与WBC控制器无缝集成到扩散模型的训练管道中，实现了从文本指令到物理可行轨迹的端到端优化。这改变了以往“先生成，后修正”的两阶段范式，使模型具备了内在的物理常识。

2. 方法创新：基于奖励的DPO在运动生成中的应用 将主要用于语言模型对齐的DPO技术，成功迁移到连续空间、时序结构的运动生成任务中。利用可自动计算的物理/任务奖励替代难以获取的人类偏好标签，为复杂物理系统的策略优化提供了一种高效、稳定的新思路。

3. 效果卓越：在仿真与现实中实现零样本迁移 论文通过大量实验证明，PhysMoDPO生成的运动在物理模拟器中，在平衡性、指令跟随精度、能量效率等多个指标上均显著优于基线方法（如仅使用脚滑惩罚的模型）。更重要的是，经过PhysMoDPO优化的策略，能够以零样本的方式，直接迁移到真实的G1类人机器人上运行，并表现出更高的稳定性和任务完成度。这证明了其学到的“物理常识”具有强大的泛化能力。

实验结果分析

论文在文本到运动和空间控制（如“走到某位置”）两大类任务上进行了全面评估。

在文本到运动任务中，PhysMoDPO生成的动画在物理指标上（如脚滑量、平衡保持时间）大幅提升。同时，通过视觉图灵测试和任务成功率评估，其生成动作的自然度和指令符合度并未因物理约束而下降，反而因为动作更合理而有所提升。这打破了“物理可行性”与“动作表现力”之间此消彼长的传统认知。

在空间控制任务中，机器人需要完成走到指定坐标、转向特定角度等目标。PhysMoDPO控制的机器人表现出更精确的路径跟踪能力和更少的抖动，任务成功率和效率远高于基线方法。

最令人印象深刻的莫过于真实机器人实验。在G1机器人上，未经任何额外调优，PhysMoDPO策略生成的“行走”、“挥手”、“转身”等动作均能稳定执行。而基线方法生成的动作则经常导致机器人摇晃、步态不稳甚至摔倒。这强有力地验证了仿真中学习的物理有效性可以直接转移到现实世界。

实践应用建议与未来方向

对机器人学与AI研究者的实践建议：

构建可微分仿真环境：这是实现PhysMoDPO类方法的前提。研究者需要搭建一个能与深度学习框架（如PyTorch、JAX）无缝对接、支持自动求导的物理仿真器。
奖励函数工程：奖励函数是指引模型学习的“指挥棒”。需要精心设计多目标、均衡的奖励组合。除了论文中提到的平衡、接触奖励，还可以考虑加入动作风格奖励、安全性奖励（如避免自碰撞）等。
从模仿学习开始：可以先在大规模人体运动数据上预训练一个扩散模型作为 $\pi_{\text{ref}}$ ，这为模型提供了丰富的运动先验，然后通过PhysMoDPO对其进行“物理化微调”，这比从零开始训练更高效。
安全第一：在向真实机器人部署前，必须在高保真仿真中进行充分的安全测试，包括压力测试和异常情况处理。

未来发展方向：

更复杂的技能与交互：当前工作集中于基础 locomotion 和简单上肢动作。未来可以扩展到更复杂的全身协调技能（如跑步、跳跃、翻滚）以及与环境物体交互的任务（如推门、搬运）。
多模态指令输入：结合视觉、语音等多模态指令，实现“走到那个红色椅子旁边”这类更直观的交互。
在线适应与终身学习：让机器人在执行过程中能根据自身状态磨损、地面材质变化等实时调整策略，实现在线适应。
从物理到“常识”：将物理约束与更高层次的语义常识结合，例如生成“小心翼翼地在冰面上行走”或“疲惫地坐下”这类融合物理状态与情感语义的动作。

总结与展望

PhysMoDPO是一项里程碑式的工作，它成功地弥合了文本驱动运动生成与物理可实现性之间的关键鸿沟。通过将可微分物理仿真和全身控制器融入训练循环，并利用基于奖励的直接偏好优化技术，它教会了扩散模型“脚踏实地”地思考。

这项研究的意义远不止于让机器人更流畅地走路。它代表了一种新的范式：将物理定律作为AI模型训练的核心约束与指导信号。这为开发能在复杂、动态的真实世界中可靠工作的通用机器人智能体指明了方向。随着仿真技术、优化算法和模型架构的不断进步，我们可以期待一个未来：只需用自然语言描述，机器人就能自主、安全、灵巧地完成各种物理任务，真正成为人类工作与生活中的得力伙伴。PhysMoDPO正是通向这个未来坚实的一步。