URL
https://arxiv.org/pdf/2005.00340
TD;DR
20 年 5 月来自高校的一篇论文,任务是用 GAN 生成 pose,目前 7 引用。
Model & Method
输入的是描述动作的 text,通过 text encoder(本文用的是叫做 fastText 的方法),把输入的自然语言转化成固定长度为 300 的 vector。模型输出的 pose 是以 heatmap 形式给出,然后经过后处理得到 joints 图片(与传统的 pose 检测方法输出形式是对齐的)
模型使用多个是 WGAN,各个组件和输入都比较常规,输入文本和 noise 会 concat 到一起。这里的细节就暂时不看了,感觉完全可以用 SD 来代替。
Dataset & Results
数据集用的是 COCO,天然包含 17 个点的 skeleton 标注,和自然语言描述的 caotion(可以拿来直接训练一波试试)
生成的结果如下,第一行是 gt,下面三行是不同的 noise 生成的。可以看到一些非常复杂的动作比如第五列忙碌的在电脑前工作
,三个准确度不是特别高。值得复现一波。
Thought
- Heatmap 和直接遇到关键点位置、输出 pose map 集中方式需要对比一下。Heatmap 也许确实是更有优势,因为可以直接表达遮挡、截断、不在图片里的情况,但是也更重。对应到生产可以强制要求必须出现,就可以解决