- 论文链接:Training Diffusion Models with Reinforcement Learning
- 项目地址:Training Diffusion Models with Reinforcement Learning
- 官方代码:https://github.com/kvablack/ddpo-pytorch/tree/main
- trl实现:https://huggingface.co/docs/trl/ddpo_trainer
- 🤗关注公众号 funNLPer 分享有用的算法知识🤗
文章目录
- 1. 概述
- 2. 预备知识
-
- 2.1 扩散模型简介
- 2.2 马尔可夫决策过程和强化学习
- 3.强化学习训练扩散模型
-
- 3.1 问题定义
- 3.2 REWARD-WEIGHTED REGRESSION(RWR)