1.sd_eval
stable diffusion模型评价框架_Kun Li的博客-CSDN博客文章浏览阅读418次。作者的思路我认为也是没问题,和我看法基本一致,生成式的sd不需要那么多定向的模型,提供强泛化能力的基础模型只需要几个就可以,而外挂的能力多可以通过lora、controlnet这样的工具去完成,因此评估主sd模型确实需要有一套体系,常规的一些指标确实很难衡量模型的生成能力,目前最主要的图像生成的指标还是FID/IS/Clip score,但是这些评价指标很多时候也无法充分反应图像的生成质量。1.模型的兼容性(画风,Lora,prompts等),2.生成图片的画面质量,3.模型的良图率。https://blog.csdn.net/u012193416/article/details/133243419?spm=1001.2014.3001.55012.hps
Human preference score:better aligning text-to-image models with human preference_Kun Li的博客-CSDN博客文章浏览阅读72次。提出了通过明确区分首选和非首选图像来适应生成模型,构建了另一个数据集,其中包括提示及其新生成的图像,并根据之前训练的人类偏好分类器将其分类为首选或非首选,对于非首选图像,我们通过在相应的提示前添加特殊前缀来修改它,通过lora来训练,增加了模型学习非首选图像概念的能力,其实就是dreambooth的做法,只不过这里多给了模型一个首选和非首选的图像概念,而数据集可以通过hps分类器构造。在sd的discord收集了一个关于生成图像的人类偏好数据集,用此数据集训练了一个人类偏好的评分,hps。https://blog.csdn.net/u012193416/article/details/133636351?spm=1001.2014.3001.5501Human preference score v2: a solid benchmark for evaluating human preferences of text-to-image synth-CSDN博客文章浏览阅读51次。包括了79.8w个图像对的人工比较注释,在数据集收集过程中,关注潜在的偏差问题,1.偏差来源于图像源,hpdv2包含了9个最新的文本到图像生成模型生成的图像,以及coco captions数据中的真实图像,2.文本提示偏差,用户编写的提示,例如diffusiondb中的提示,通常遵循描述加上几个样式词的组织方式,其中样式词经常包含矛盾之处,让标注着难以理解,使用chatgpt去除样式词并将提示组织成一个明确的句子。我们雇佣了57个人来标注数据,其中50人负责图像排序,7负责质量控制。hpsv2指标更高。https://blog.csdn.net/u012193416/article/details/133696308?spm=1001.2014.3001.55013.ImageReward
https://github.com/THUDM/ImageRewardhttps://github.com/THUDM/ImageReward4.PickScore
https://github.com/yuvalkirstain/pickscorehttps://github.com/yuvalkirstain/pickscore6.dalle3的测评
1.CLIP score,测评数据集是从COCO2014中选出的4096个captions,2.采用GPT4V,测评数据集是imagen中所提出的DrawBench,共包括200个不同类型的prompt,将生成的图像和对应的text送入GPT4V,让模型判定图像和text是否一致,一致就正确。3.采用T2I-CompBench,包括6000个组合类型的text prompt,选择了color binding/shape binding/texture binding测评,通过BLIP-VQA model评分。
7.beautifulprompt测评