新个性化时尚解决方案!Prompt2Fashion:自动生成多风格、类型时尚图像数据集。

今天给大家介绍一种自动化生成时尚图像数据的方法Prompt2Fashion。 首先创建了一组描述,比如“适合婚礼的休闲风格服装”,然后用这些描述来指导计算机生成图像。具体来说,他们使用了大型语言模型来写出这些服装的描述,接着将这些描述输入到另一个模型中,生成出实际的服装图像。为了确保这些图像看起来好看且合适,研究人员还请了一些人来检查这些图像,确保它们符合时尚的标准。因此,该方法可以快速有效地创造出符合不同场合和风格需求的时尚图像。

相关链接

论文地址:http://arxiv.org/abs/2409.06442v1

项目地址:https://github.com/georgiarg/Prompt2Fashion

论文阅读

Prompt2Fashion:自动生成的时尚数据集

摘要

人工智能 (AI) 与时尚的结合正在通过增强创造力、个性化和效率来彻底改变行业。从设计服装到预测趋势,人工智能正成为时装设计师、零售商和营销人员不可或缺的工具。然而,将人工智能融入时尚面临着重大挑战,特别是在评估人工智能生成的内容方面,这通常需要领域专业知识来确保相关性、风格和吸引力。

在这项工作中,我们展示了一个自动生成的时尚图像数据集,专注于个性化。该数据集涵盖了各种要求,包括性别、体型、场合和风格,以及它们的组合。通过利用大型语言模型 (LLM) 的功能以及扩散模型,我们提供了一种可扩展的时尚图像生成解决方案。我们的方法消除了设计最终服装时需要人工干预甚至扩散模型的条件提示的需要。

LLM 和扩散模型促进了生产的可扩展性,确保可以高效生成各种时尚图像。语言生成中的 LLM 以及图像生成中的扩散模型提供的质量保证由人类评估员验证。此验证过程反映了潜在消费者如何看待这些 AI 生成的服装,确保内容不仅在技术上精湛,而且还与当前的时尚趋势和消费者偏好产生共鸣。

鉴于人工智能正在创意领域取得重大进展,人类监督对生成内容的监管至关重要。毕竟,时尚图像合成框架最终是为该领域的专家(例如时装设计师)设计的。这些人工智能生成的图像很可能是创意过程的初步步骤,而不是最终产品。因此,人工智能生成的时尚内容必须由具有领域专业知识的个人进行评估。为此,在这项工作中,我们不仅为创意人员和工程师提供了一个开放的、自动生成的数据集,而且还强调了让专家参与评估过程的重要性,这不仅基于上述概念,还基于实验结果。

方法

本研究采用了大型语言模型(LLMs)和扩散模型(Diffusion Model)相结合的方法,生成时尚图像。首先,通过构建包含“风格、场合、性别”或“风格、场合、类型”的变量三元组,形成定制的提示模板。然后,这些提示被输入到LLMs中,如Mistral-7B和Falcon-7B,生成对应的服装描述。这些描述随后被用作扩散模型的输入,以生成最终的时尚图像。在实验中,研究者们创建了2000个样本,每个样本包含LLM输出的描述、原始三元组以及扩散模型生成的图像。为了确保生成的图像质量,研究者们还通过人类评估者进行评审,确保生成的时尚内容不仅在技术上可行,同时符合当前时尚趋势。

实验

由Stable Diffusion生成的图像,用5种不同的方法生成描述

由 Stable Diffusion 生成的描述和图像,其中的描述由 2 个不同的 LLM 生成,用于零样本学习、小样本学习和思维链(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。

由 Stable Diffusion 生成的描述和图像,以及由 2 个不同的 LLM 为 RAG 生成的带有 PDF 的描述 并以 BLOG 作为来源(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。

图像评价

描述评价

结论

本研究提出了一种生成由 2,000 张图像和描述组成的综合时尚数据集的新方法。通过利用 LLM 和扩散模型,我们创建了适合各种场合、风格和体型的多样化时尚内容集合。我们的评估表明,生成的图像和描述既相关又美观。虽然非专家的反馈证实了它们的吸引力,但专家评估对于确保高标准的时尚质量和适销性至关重要。因此,未来的工作将侧重于结合专家评级,以进一步完善数据集并增强其实用性。总体而言,该数据集代表了人工智能驱动的时装设计的重大进步,为行业进一步研究和应用提供了宝贵的资源。

未来工作

  • 目前正在创建 Hugging Face 数据集,以便研究人员和开发人员更轻松地访问和使用 Prompt2Fashion 数据集。Hugging Face 上的数据集将包括图像、其相应的描述和元数据,从而实现与机器学习框架和工具的无缝集成。

  • 为了进一步帮助用户浏览和使用 Prompt2Fashion 数据集,我们还将提供 Excel 指南。该指南将结合描述和图像,提供一种便捷的方式来探索数据集。Excel 文件中的每个条目将包括:

    1. 生成的图像。

    2. 相关描述。

    3. 元数据,例如使用的模型(Mistral 或 Falcon)、风格类别和评估分数(如适用)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/887672.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaSE——面向对象10:抽象类、接口

目录 一、抽象类 (一)抽象类的引出 (二)抽象类基本介绍 (三)注意事项和使用细节 (四)抽象类的最佳实践——模板设计模式 二、接口 (一)接口快速入门 (二)基本介绍 (三)注意事项与使用细节 (四)接口VS继承 (五)接口的多态性 1.多态参数 2.多态数组 3.接口存在多态…

文件上传之%00截断(00截断)以及pikachu靶场

pikachu的文件上传和upload-lab的文件上传 目录 mime type类型 getimagesize 第12关%00截断, 第13关0x00截断 差不多了,今天先学文件上传白名单,在网上看了资料,差不多看懂了,但是还有几个地方需要实验一下&#…

高性能架构—存储高性能

1 📊关系型数据库 存储技术飞速发展,关系型数据的ACID特性以及强大的SQL查询让其成为各种业务系统的关键和核心存储系统。 很多场景下的高性能设计最核心的就是关系型数据库的设计,很多数据库厂商再优化和提升单个数据库服务器的性能方面做了…

统一 SASE 架构中的网络和安全融合

网络威胁情报技术的进步 传统的网络边界一片混乱,剩下的只是无人管理的设备、分散在私有云和公共云中的资产、无法读取的应用程序流量泛滥,混合工作结构正在给现有网络的功能带来压力。 更重要的是,这些问题早在生成式人工智能和大型语言模…

【C++11】新特性

前言: C11 是C编程语言的一个重要版本,于2011年发布。它带来了数量可观的变化,包含约 140 个新特性,以及对 C03 标准中约600个缺陷的修正,更像是从 C98/03 中孕育出的新语言 列表初始化 C11 中的列表初始化&#xff0…

智能手表(Smart Watch)项目

文章目录 前言一、智能手表(Smart Watch)简介二、系统组成三、软件框架四、IAP_F411 App4.1 MDK工程结构4.2 设计思路 五、Smart Watch App5.1 MDK工程结构5.2 片上外设5.3 板载驱动BSP5.4 硬件访问机制-HWDataAccess5.4.1 LVGL仿真和MDK工程的互相移植5…

免费版U盘数据恢复软件大揭秘,拯救你的重要数据

我们的生活和工作越来越离不开各种存储设备,其中优盘因其小巧便携、方便使用的特点,成为了我们存储和传输数据的重要工具之一。为了防止你像我一样会遇到数据丢失抓狂的情况,我分享几款u盘数据恢复软件免费版工具来即时补救。 1.福昕U盘数据…

Oracle中TRUNC()函数详解

文章目录 前言一、TRUNC函数的语法二、主要用途三、测试用例总结 前言 在Oracle中,TRUNC函数用于截取或截断日期、时间或数值表达式的部分。它返回一个日期、时间或数值的截断版本,根据提供的格式进行截取。 一、TRUNC函数的语法 TRUNC(date) TRUNC(d…

鸿蒙harmonyos next flutter混合开发之开发plugin(获取操作系统版本号)

创建Plugin为my_plugin flutter create --org com.example --templateplugin --platformsandroid,ios,ohos my_plugin 创建Application为my_application flutter create --org com.example my_application flutter_application引用flutter_plugin,在pubspec.yam…

一键生成PPT的AI工具-Kimi!

一键生成PPT的AI工具-Kimi! 前言介绍Kimi为什么选择Kimi如何使用Kimi在线编辑PPT下载生成的PPT自己编辑 结语 😀大家好!我是向阳🌞,一个想成为优秀全栈开发工程师的有志青年! 📔今天不来讨论前后…

Jenkins Pipline流水线

提到 CI 工具,首先想到的就是“CI 界”的大佬--]enkjns,虽然在云原生爆发的年代,蹦出来了很多云原生的 CI 工具,但是都不足以撼动 Jenkins 的地位。在企业中对于持续集成、持续部署的需求非常多,并且也会经常有-些比较复杂的需求,此时新生的 CI 工具不足以支撑这些很…

前缀和算法详解

对于查询区间和的问题,可以预处理出来一个前缀和数组 dp,数组中存储的是从下标 0 的位置到当前位置的区间和,这样只需要通过前缀和数组就可以快速的求出指定区间的和了,例如求 l ~ r 区间的和,就可以之间使用 dp[l - 1…

鸿蒙OpenHarmony

开源鸿蒙系统编译指南 Ubuntu编译环境配置第一步:Shell 改 Bash第二步:安装Git和安装pip3工具第三步:远程仓配置第四步:拉取代码第五步:安装编译环境第六步:本地编译源码 Windows开发环境配置第一步&#x…

巧用armbian定时任务控制开发板LED的亮灭

新买了个瑞莎 3E 开发板,号称最小SBC,到了之后简直玩开了花,各种折腾后 安装好armbian系统,各种调优。 不太满意的地方:由于板子太小的原因,导致两个USBTYPEC的接口距离很近,所以买的OTG转接口如果有点宽的话 会显得特别拥挤。 还有就是每天晚上天黑了之后,卧室…

Uniapp API

1.uni.showToast 显示消息提示框 unishowToast({ obj参数 }) 2.uni.showLoading 显示 loading 提示框, 需主动调用 uni.hideLoading 才能关闭提示框。 3.uni.showModal 显示模态弹窗,可以只有一个确定按钮,也可以同时有确定和取消按钮。类似于一个A…

躺平成长:微信小程序运营日记第二天

在进行属于生活的开源之后,自己更加感受到自己存在的渺茫,同时更加开始深刻领会,开源的重要性,在开源,开放,创造,再创新的思维模式下,不发布八部金刚功相关的训练视频,自…

基于Node2Vec的图嵌入实现过程

目录 一、引言二、Node2Vec(原理)2.1 随机游走(Random Walk)2.2 嵌入学习2.3 Node2Vec 的优势 三、使用 Node2Vec 进行图嵌入(实践)3.1 读取和转换 JSON 文件为 Graph 对象3.2 训练 Node2Vec 模型3.3 二维嵌…

MySQL--三大范式(超详解)

目录 一、前言二、三大范式2.1概念2.2第一范式(1NF)2.3第二范式(2NF)2.3第三范式(3NF) 一、前言 欢迎大家来到权权的博客~欢迎大家对我的博客进行指导,有什么不对的地方,我会及时改进…

使用前端三剑客实现一个备忘录

一,界面介绍 这个备忘录的界面效果如下: 可以实现任务的增删,并且在任务被勾选后会被放到已完成的下面。 示例: (1),增加一个任务 (2),勾选任务 &#xff…