AI生图美学在淘宝的实践应用

36cccf4fe4ae88f966ea10537eb32a0c.gif

本文介绍了如何制定和应用美学标准来评估和改善人工智能生成的图像质量,特别是在电商领域的应用,主要分为制定美学标准、训练美学模型、应用美学模型、升级淘宝风格模型四个步骤。

58297cef8f97218c9d728d472d2d6508.png

美学的定义与分析

  1. 图像质量标准:现代设计框架下,定义的图像质量标准基本是统一的。侧重技能和技法的定义,也由此延伸出对图、画、照片、影像的质量评判,再此基础上对成图手段的特性会有所要求和侧重。

  2. 图像内容标准:意识形态下的表达好坏要求是广泛的,图像质量的标准会被打破,服务于内容表达的需要。业内通常由评论家或评委等权威人士进行定义和解读。

    8ee367fe7e4e032f9c909bf0b86b99bc.png

9f54a5f8456976359bbf0f61f1b37d16.png

美学项目的目标

  1. 第一步-制定美学标准:制定AI生图标准与AI风格标准,联合中国美院与教授一起共研。突出专业性、针对性、客观性、权威性。

  2. 第二步-训练美学模型:基于AI美学标准培育美学判定模型,使机器能自动判定打分。

  3. 第三步-应用美学模型:基于美学模型能力指导淘宝AI生图模型调优升级。

  4. 第四步-升级淘宝风格模型:基于风格标准建立淘宝风格模型库,使商家具备丰富多样的风格模型可供选择。打造淘宝特色风格模型。

    4501ad3ffdacf414e2ee1e09360f0fcd.png

aea38def737f436dcaa8ecdc1544f16f.png

第一步:制定美学标准

基于「图像」的构成要素进行准则框架的定义,同时侧重「AI生成的特性」构建美学的标准:

图像构成:物形/环境/构图/光影/质感

AI生成特性:元素真实性&场景合理性

AI美学标准:5项准则,19项标准

619bde6d881bd70fc5bd9ae3142fe296.png

b70162ba0d21711bd5c2c6336ed263cb.png

051f98cde22a25bbbc6df0bb8a9fa513.jpeg

第二步:训练美学模型

  1. 美学模型目标:机器对图片自动打分判定的准确率提升。

  2. 准确率:相同图片进行美学AI打分与人工打分,取人与机器分数的重叠率。

  沉浸式体验

a24874a0c7f9862b78b253f971580424.png

我们的AI美学评价模型采用多模态美学预训练与多任务微调学习方式。这样做的优点如下:

  1. 我们的模型参数较少,可快速训练迭代,推理速度快,可快速筛选高美学图像,也可测评不同生成模型的生成效果,减少人工标注与审核成本;

  2. 相比于只输出美学分的模型,我们模型可以输出生成图像异常属性,可解释性较高;

  3. 我们的模型输出的异常属性既可以作为生图修复的前置判别器,也可以为异常生成图像打标优化生成模型;

  训练过程

基于美学标准制定评分规范,建立5分制的评分规则,由设计师进行打标沉淀优质AI训练数据:

  1. 制定评分规则:用于AI生图的评分规范(5档),以及用于原图筛选的评分规则(3档)。

    42f7b6b8fe13e8ab283d991be62fbd20.jpeg

  2. 人模图原图美学评价能力:根据对人模、环境、构图、光影、质感等图像品质的偏好,训练专门的人模图原图美学模型,用于美学分层。可过滤的低美学类型包括图像模糊、白边图或贴图,人面部不完整或裁切,人体被遮挡多,背景差或者整体美感差等。

  3. AIGC生图美学评价能力:我们的AIGC生图美学评价主要针对于含有人物的生图,从关注画面合理性与关注画面融合度两大方面出发,基于5大准则、19项标准要求,制定评分规则,同时针对生图异常属性进行标注。目前我们的模型已支持的异常属性包括人与背景融合度异常(人物悬空、背景质感差等)、手部异常、面部异常、肢体异常、其他异常等,输出的美学分范围1到5分。

    6e2e0771d1b6060933a22728c73ba3f1.png

图:AIGC生图美学评价预测的不同美学分数的图片

合理训练:人与机器多轮匹配校验,保证数据优质。

  1. 1轮打分校验: 取3人平均分来累积数据,保障打分客观。有分差部分重新解读差异具体呈现的问题点。再进行校验重打。确保不同人对准则的解读能保持理解一致和稳定(5分制度)。

  2. 2轮AI打分校验:取3人平均分与机器进行校对,有分差部分重新解读差异具体呈现的问题点,明确是人的问题还是机器的问题,确保两者能逐步一致,保障机器理解的准确性。(有初版AI判定模型后开始进行)。

    bbea6a6165d476e1dc8130df61339dcc.png

技术框架

  1. AIGC生图美学评价:根据设计师定义的5分美学准则,映射到五大质量等级。同时,我们对生成数据进行归纳分析,总结出五大属性,正常、人与背景融合度异常、手部异常、面部崩坏、躯体异常、其他异常。质量等级与属性原因组合形成美学评价提示词,作为多模态预训练模型的输入,损失函数采用美学分回归损失与属性原因多标签分类损失。

  2. 人模图原图美学评价:CLIP在美学评价上对图像质量、色彩、光照、构图、抽象概念等都具有很好的good/bad分类的zero-shot能力。因此,在预训练阶段,我们通过蒸馏CLIP的image encoder,提升backbone的美学表征能力。微调阶段使用提升后的backbone预测归一化后的美学评分。损失函数采用由L1损失和二分类交叉熵损失的加权,来提高模型的性能和鲁棒性。模型训练完成后,通过选取不同的阈值,能分层出不同美感级别的人模图片。


  测试阶段 

基于测试情况,分析当前机器问题或者人的问题,可持续调优模型的准确率。在这个过程中不断进化调优。

  1. 调优通用性:在千牛平台上测试淘宝内部的【千牛智能模型】与淘宝外部第三方的模型。同类型的人模评测可兼容,但发现有较大的浮动。通过抓取具体图片问题时发现,上传的原图质量会对于准确率有影响。为保障公平需要制定测试图集的标准。

  2. 机器打分的真实性测试:准确率会每周产生一定的上下浮动,基于模型情况进行标准测试集的建设。运用1200张标准测试集进行AI与人工打分(考虑原图难易情况会对AI判断造成影响,测试集分为简单、中等、困难三个等级,占比1:1:1)。

  3. 机器打分的严谨性测试:调优后的打分模型,会对新全新生成的图片进行自动打分,并和人的打分进行比对。

    2eb172e87297f52736253846a71b1424.png

411acaab6c0b434abb6c336b3e379ecd.jpeg

第三步:应用美学模型

目标:运用美学模型,提升淘宝AI大模型的良图率。

d2605456b65c7e826f4f6f060bfe3269.png

  美学模型1.0版本-应用AI生图评测能力:
  1. 目标:通过美学模型评测淘宝生成模型,对图片评分与画面问题的判定,对判定的图片问题进行修复。

  2. 判定能力:可针对图片进行(1-5分)打分,筛选良图与差图,指导模型后续的优化建议。

  3. 识别能力:目前可反馈5个关键画面属性。(1. 手部异常。2. 人与背景不融合。3. 脸部异常。4. 身体异常。5. 其他)。

  4. 修复能力:AIGC生成人物时画好的手一直是难点,人的手部自由度高且姿态复杂多变、图中占比小且细节多,导致画手的成功率不高。特别地,在实际业务中,由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景,在进行换模特换背景时,生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手,对异常的手,利用3D手部状态重建模型保持正确的手指数量与手的形状,同时能够自适应生成图像中所需的手势。基于我们内部基底模型,融合Text Embedding,根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配,我们的手部修复方案在业务数据上测试,修复成功率超过50%,可大幅度提高整体的生图良图率。手部修复的case如下:

aadc9cab63345a656ea402feb11f88e2.png

59b9d1771a0aab191fafe095c7feeed4.png

  美学模型2.0版本-应用原图评测能力
  1. 目标:调优淘宝基地模型,目前有混杂的原图数据集,数据集质量参差不齐,需要进行有效的筛选优化。

  2. 背景:目前原图数据集来源核心是两部分:视觉中国和淘宝模特图。
    视觉中国的摄影图核心是供给给新闻稿做新闻配图,因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理,有些诸如模特的处理已经比较夸张。

    da710b8e20f8f480c81e5039dbcaea1d.png

  3. 筛选优质原图:通过原图判定模型,筛选优质摄影图,调优自研模型等数据集效果。提升生图的良图率。(如多人混乱、背景混乱,场景融合感等效果可提升)。
    收集专业摄影原图:目前通过设计团队搜集优质的摄影模特图。

  4. 1.0版本的AI美学评价模型影响生成模型,使生成模型自适应对齐人类偏好:AI美学评价可用于指导基于扩散的生成模型,不仅指导生成模型要生成高美学图像,也需要减少生成低美学图像的概率。为了解决这个问题,我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签,增强模型学习异常生成图像概念的能力,可以在推理阶段避免。

afb4d5d4e709558e51639d0bf984e3c8.jpeg

第四步:升级淘宝风格模型

目标:打造淘宝特色风格模型。

风格标准的归纳:风格框架已经设定完成,内容量较大,将联动校企合作研究生,根据我们的要求逐步填充风格内容。

  风格的背景情况
  1. 目前风格选择的丰富性不足,生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。

  2. 因为原图本身的来源关系,图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。

  3. 因为采用穷举的方式,导致工具的选择项过多,体验比较复杂,商家使用过程中会选择困难,采用不断尝试的方式。

  风格的框架设定
  1. 对应美学标准的五大原则。进行细分的穷举,作为组合因子。

  2. 风格类型分为平台品牌风格、趋势热点风格、经典艺术风格三类。

  3. 基于风格趋向进行因子组合。形成风格的多元组合。

d34acdcd4ad8d4f27c6df48985b4df1c.png

  风格标准的运用

基于前台AI产品进行风格应用。通过用户使用数据反馈,进行风格的排序与汰换。逐步累积商家需要的风格。

b60c891015b7c61cb214fa35b161d04d.png

  后续计划
  1. 美学标准:发布淘宝AI美学标准,联动中国美术学院完成。

  2. 风格标准:风格化标准完善,建立淘宝独有的风格体系。同时在产品侧进行测试。

  3. 产品能力:发布 AI paas产品能力,联动千牛产品团队部署上线,提供给集团相关自研AI与第三方AI进行服务,也同步提升兼容性。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/565380.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《自动机理论、语言和计算导论》阅读笔记:p261-p314

《自动机理论、语言和计算导论》学习第 10 天,p261-p314总结,总计 48 页。 一、技术总结 1.generating & reachable 2.Chomsky Normal Form(CNF) 乔姆斯基范式。 3.pumping lemma 泵作用引理。引理:引理是数学中为了取得某个更好的…

JAVA基础之垃圾收集器

一 JVM垃圾收集 分代收集思想 当前虚拟机的垃圾收集一般采用分代收集算法,这种算法本身没有创新性,只是根据对象存活周期的不同将内存分为几块。一般将java堆内存分为新生代和老年代,这样我们就可以根据不同年龄到的特点选择不同的垃圾收集…

试用花生壳软件,实现外网访问内网web服务器

试用花生壳软件,实现外网访问内网web服务器。今天查看了一下家用的WiFi路由器和光猫。在wifi路由器里看到了DDNS,看到了花生壳。这时想到了花生壳软件能实现外网访问内网web服务器的功能。于是试用了一下。 先游览了贝锐花生壳公司网站,了解…

落地灯几瓦合适?落地护眼灯推荐

不少人选择在客厅中摆放落地灯的时候,都不知道客厅落地灯多少瓦合适,接下来小编为大家整理了有关客厅落地灯多少瓦合适的相关内容,顺便分享一下落地灯应该怎么选,以及推荐五款落地护眼灯,供大家在选择的时候参考。 灯光…

如何使用ChatGPT仿写一篇学术论文

点击下方▼▼▼▼链接直达AIPaperPass ! AIPaperPass - AI论文写作指导平台 目录 1.仿写的目的 2.根据专业方向搜集合适的文献 3.总结想要仿写的文献 4.使用ChatGPT一步一步仿写 5.书籍介绍 AIPaperPass智能论文写作平台 深入地阅读和分析你研究领域的相关文…

路由过滤实验

目录 一、实验拓扑 ​编辑 二、实验要求 三、实验思路 四、实验配置 1、配置IP地址 2、配置RIP 3、配置OSPF 4、双向引入 5、使用路由过滤(acl),除 R4 上的业务网段以外,其他业务网段路由都引入到对方协议内部 6、配置地…

【函数式接口使用✈️✈️】配合策略模式实现文件处理的案例

目录 🍸前言 🍻一、功能描述 🍺二、面向对象设计模式 🍹三、策略模式 🍦四、策略 VS 面向对象 🍨章末 🍸前言 小伙伴们大家好,上周初步了解了下函数式接口,Consume…

通过DaoCloud DCE的场景化应用看容器云平台的核心能力(三)

以下场景来自DaoCloud官方文档场景化视频,这里以文字形式简单提取下要点,包括操作步骤和一些问题。 一共13个场景,本篇包含5个:9.快速定位异常与排障、10.基于CICD的应用发布、11.基于GitOps持续部署云原生应用、12.使用中间件与…

数据结构与算法笔记:线性建堆

ACM大牛带你玩转算法与数据结构-课程资料 本笔记属于船说系列课程之一,课程链接: 哔哩哔哩_bilibilihttps://www.bilibili.com/cheese/play/ep66799?csourceprivate_space_class_null&spm_id_from333.999.0.0 你也可以选择购买『船说系列课程-年度会…

110. turtle库创建画笔对象

110. turtle库创建画笔对象 【目录】 文章目录 110. turtle库创建画笔对象1. 知识回顾-类与对象1.1 类1.2 对象 2. 创建画笔对象2.1 方法12.1 方法2 3. 绘制一个正方形4. 总结 【正文】 1. 知识回顾-类与对象 类是创建对象的蓝图。 对象是类的实例。 1.1 类 类(…

001-谷粒商城-微服务剖析

1、架构图 还是很强的,该有的都有 2、微服务模块 SpringCloudAlibaba组件包括 SentinelNacosRocketMQSeata 搭配SpringCloudAlibaba组件 OpenFeignGateWayRibbn gateway使用了SpringWebFlux,前几天研究到,为什么springboot不直接使用Spri…

vue3【详解】选项式 API 实现逻辑复用

抽离逻辑代码到一个函数函数命名约定为 useXxxx格式 ( React Hooks 也是 )在 setup 中引用 useXxx 函数 演示代码:实时获取鼠标的坐标 逻辑封装 useMousePosition.js // 导入 ref, onMounted, onUnmounted import { ref, onMounted, onUnmounted } from "vue…

Android Graphics 显示系统 - 解读Source Crop和Display Frame(三二)

“ 假设你手里有一张足够大的白纸,请你把它对折51次。想象一下,它会有多高?1米?2米?其实,这个厚度超过了地球和太阳之间的距离!人生亦如此,不用心去投资,它不过是51张白纸…

事务并发控制之说透mvcc

前言 不知道有没有人有过这样的想法💡,为什么在MySQL中已经有了各种各样的锁了,还需要mvcc呢?如果你没有想过这个问题,那只能证明你真的没有想过。 但是我的建议是可以去想一下,如果你从来没有想过这个问…

虚拟机扩容方法

概述 我的虚拟机开始的内存是40G,接下来要扩成60GB 扩容步骤 步骤1 步骤2 步骤3 修改扩容后的磁盘大小,修改后的值只可以比原来的大,修改完成后点击扩展,等待扩展完成 步骤4 虽然外面扩展成功,但是新增的磁盘空间虚拟机内部还…

自动化测试的7个步骤

🔥 交流讨论:欢迎加入我们一起学习! 🔥 资源分享:耗时200小时精选的「软件测试」资料包 🔥 教程推荐:火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

阿里巴巴Java开发规范——编程规约(3)

# 阿里巴巴Java开发规范——编程规约(3) 编程规约 (四) OOP规约 1.【强制】构造方法里面禁止加入任何业务逻辑,如果有初始化逻辑,请放在 init 方法中 这条编程规范的目的是为了保持代码的清晰性、可读性…

怎么理解算力?1000P算力是什么概念?

算力,指计算机系统在单位时间内能够完成的计算任务量,它涵盖了CPU、GPU、TPU等硬件,每秒能处理的数据量,通常以“P”(PetaFLOPS,即千万亿次浮点运算每秒)为单位来衡量,是评估计算机性…

【笔试强训】day8

没啥好说&#xff0c;都是一遍过 1.求最小公倍数 思路&#xff1a; 求lcm。其实就是两数之乘积除以两个数的gcd。gcd就是是求两个数的最大公约数。 代码&#xff1a; #define _CRT_SECURE_NO_WARNINGS 1 #include <iostream> using namespace std;int gcd(int a, int …