Diffusion Policy—基于扩散模型的机器人动作生成策略 - 知乎
建议看看,感觉普通实验室复现不了这种工作。复现了也没有太大扩展的意义。
Diffusion Policy 是监督学习吗
Diffusion Policy 通常被视为一种基于监督学习的方法,但它的实际训练过程可能结合一些生成式模型的特点,因此更准确的说法是,它是一种 基于生成式建模的监督学习方法。以下是对其性质的分析:
1. 监督学习的特点
- 需要标注数据: Diffusion Policy 的训练通常依赖于专家演示的数据(Expert Demonstrations),这些数据包含环境状态(State)和对应的专家动作(Action)。模型学习状态到动作的映射。
- 目标函数: 通过最小化生成的动作分布与专家动作分布之间的差异,Diffusion Policy 实现了动作生成策略的学习。这类似于监督学习中的回归任务。
2. 与生成模型的结合
Diffusion Policy 的核心是基于 扩散模型(Diffusion Model),其本质是通过逐步添加噪声并反向生成干净数据的方式建模复杂的分布。
具体体现:
- 建模动作分布: Diffusion Policy 不仅学习单一的动作映射,还通过扩散过程建模高维复杂动作分布,从而能够生成多样性和鲁棒性更强的策略。
- 从噪声到动作生成: 在推理阶段,Diffusion Policy 从噪声开始逐步采样,最终生成动作。这样的过程在传统监督学习中并不常见,但在生成模型中很常见。
3. 对比强化学习
- 不是强化学习: Diffusion Policy 并不直接依赖奖励信号(Reward)进行优化,而是依赖于专家示范数据的监督,因此它与强化学习(特别是无模型强化学习)的方法不同。
- 没有环境交互: 传统的强化学习需要通过与环境交互进行策略优化,而 Diffusion Policy 的训练过程主要是离线的,依赖于现有的专家数据。
4. 是否完全是监督学习
尽管它借用了监督学习的框架,但由于采用了扩散模型进行复杂分布的生成,Diffusion Policy 不完全符合传统监督学习的定义。这种方法更接近以下几类方法的交集:
- 行为克隆 (Behavior Cloning): 使用监督学习直接模仿专家行为。
- 生成式建模 (Generative Modeling): 使用扩散模型生成动作分布。
- 离线强化学习 (Offline Reinforcement Learning): 在某些变体中,可能加入类似离线RL的思想,利用环境数据进一步优化策略。
总结
Diffusion Policy 可以被视为一种以监督学习为基础的方法,但它结合了生成式模型的特点。严格来说,它是 基于生成建模的监督学习方法,通常用于行为克隆或策略生成任务。它不依赖强化学习的奖励信号,而是通过学习专家数据分布生成动作策略。
输出的东西 格式一般是啥样的请具象化
总结
Diffusion Policy 的输出格式可以是 单步动作、动作序列、概率分布,或根据任务需求设计的多模态和复合输出。它的输出灵活多样,能适配从低层次控制到高层次规划的不同任务。