Poetry2Image:专为中文古诗词图像生成,忠于原诗意境和语义。

直接基于文本的图像生成通常会导致丢失图像中的关键元素。为了解决此问题,哈工大提出Poetry2Image,通过实施有针对性的图像校正解决这个问题,有效地捕捉这首诗所传达的语义和艺术精髓。

Poetry2Image流程分为如下几步:

  • 搜索和翻译:系统会在一个庞大的诗歌数据库中搜索用户提供的古诗,并找出它的现代- 汉语翻译和赏析。

  • 生成初始图像:利用诗歌的现代汉语翻译,系统会生成一幅初步的图像。

  • 提取关键元素:系统会使用一个大型的语言模型来识别并提取诗歌中的关键元素,比如“竹马”或“青梅”。

  • 图像修正:系统会检查生成的图像是否包含了所有这些关键元素。如果没有,系统会提出修改建议,比如添加缺失的元素或调整元素的位置。

  • 迭代优化:如果图像中的元素不完整或不正确,系统会根据建议再次生成图像,这个过程会不断重复,直到图像能够准确反映诗歌的意境。

通过这种方法,Poetry2Image能够生成既美观又忠于原诗意境的图像,即使是对于复杂的古诗,也能够有效地传达其深层含义和艺术精髓。

相关链接

论文地址:https://arxiv.org/pdf/2407.06196v1

论文阅读

Poetry2Image:从中国古典诗词生成图像的迭代校正框架

摘要

文本到图像的生成模型在涉及中国古典诗歌的任务中经常会遇到关键元素丢失或语义混淆的问题。通过微调模型解决这个问题需要相当大的训练成本。此外,手动提示重新扩散调整需要专业知识。为了解决这个问题,我们提出了 Poetry2Image,这是一个针对中国古典诗歌生成图像的迭代校正框架。利用外部诗歌数据集,Poetry2Image 建立了一个自动反馈和校正循环,通过图像生成模型和随后由大型语言模型 (LLM) 建议的重新扩散修改来增强诗歌和图像之间的一致性。使用 200 句中国古典诗歌的测试集,所提出的方法与五种流行的图像生成模型相结合,实现了 70.63% 的平均元素完整性,比直接图像生成提高了 25.56%。在语义正确性测试中,我们的方法达到了 80.09% 的平均语义一致性。该研究不仅促进了古诗词文化的传播,也为类似非微调方法提升LLM生成提供了参考。

方法

Poetry2Image的自动迭代校正框架。利用预先构建的诗歌数据集,该过程从提取诗歌和生成初始图像开始,然后实现自反馈图像校正迭代循环。该循环通过利用 LLM 分析诗歌文本的语义和开放词汇检测器 (OVD) 识别的图像元素来发挥作用。然后,它输出指导图像编辑扩散模型的校正建议,不断提供反馈,以逐步将文本语义与图像语义对齐。

关键元素提取模块 LLM Extractor 的示意图。从诗歌数据库中检索诗歌的翻译和评论后,这些文本连同系统提示一起输入到 LLM 中。随后,LLM 输出诗歌中包含的关键元素。

LLM Suggester 的示例,该模块专门用于修改图像边界框。在进行基于 OVD 的元素识别以确定现有边界框后,将翻译、此边界框和系统提示输入到 LLM 中。然后,LLM 根据翻译中的语义信息调整边界框,并输出修改后的边界框。

与图像生成模型的比较。我们的方法通过图像生成模型在元素完整性方面表现出了显著的改进。对于元素完整性,准确率的提高范围从 17.59% 到 33.87%,对于语义一致性,也实现了一定程度的改进。

以下是不同语言的诗歌范例和 Poetry2Image 的测试结果。

  1. 日本俳句:水中的月亮;破碎又破碎,但它依然在那里。

  2. 美国英语诗歌:独自一人在海滩上度过夜晚,老母亲摇着她沙哑的歌声来回摇摆,当我看着明亮的星星闪耀时,我想到了宇宙和未来的谱号。

  3. 英国英语诗歌:哦狂野的西风,你是秋天的气息,你看不见的存在,枯叶被驱赶,就像逃离魔法师的幽灵,黄色、黑色、苍白和疯狂的红色。

左边是直接从文字生成的意思,右边显示了我们方法的修正。

最初,对于日本诗歌,我们选择了著名的松尾芭蕉俳句进行分析。我们的方法准确识别出“断月落水”的隐喻,并进行适当调整天空中月亮的图像反映了这一点。随后,对于英语诗歌,我们测试了惠特曼和雪莱的诗歌。结果表明我们的方法有效地解释和纠正比如“老母亲”和“鬼”之类的隐喻。

效果展示

全流程图像生成效果评估。Peotry2Image 提升了古典诗歌等专业文本的图像生成质量,解决了词素丢失、语义混淆等核心问题。

  • 诗a:酒前高歌,人生苦短,日子过得很快。

  • 诗b:京城里满是豪车华服的贵人,你却才华横溢却面容憔悴。

  • 诗c:清水中斜映着稀疏的梅影,朦胧的月色中飘荡着淡淡的梅花香。

  • 诗d:阳光下的香炉峰笼罩着紫霞,远远望去,一条瀑布如白丝般挂在山前。

  • 诗e:我面对一杯悲酒,离家千里。思绪万千,想着边陲的动乱,想着未竟的事业,想着何时才能回到故乡。

  • 诗f:停下马车只因爱傍晚的枫林,霜染的枫叶,比二月的鲜艳花朵更美丽。

扩散模型无法理解关键因素是“周瑜”,他是一个历史人物,所以不能生成它。在第二首诗中,所有元素都可以被识别,但它不能传达怀旧的感觉 献给死去的英雄。 生成上图的诗文如下:

  • 诗a:若没有东风的帮助,江南就会一片废墟,美丽的二乔就会永远被关在铜雀楼里。

  • 诗b:当年的人不在了,但易水河今天还是那么冷

结论

我们提出了 Poetry2Image,这是一个集图像生成、错误校正和反馈于一体的迭代校正框架。该框架提高了中国古典诗歌等专业文本的图像生成质量,并解决了元素丢失和语义混淆等核心问题。我们的方法擅长元素丰富或多语言的诗歌,并与其他图像生成模型兼容。此外,我们的方法为类似的非微调方法提供了参考,以增强 LLM 生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/799590.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

免费进销存软件哪个好用?首选象过河

在快节奏的商业环境中,进销存管理一直是不可忽视的重要环节,关乎着企业的运营成本控制和运营效率的高低。传统的纸质记录已难以满足企业发展需求,很多企业管理者为了节约成本,都想寻找一款免费进销存软件。那么,免费进…

(day18) leetcode 204.计数质数

描述 给定整数 n ,返回 所有小于非负整数 n 的质数的数量 。 示例 1: 输入:n 10 输出:4 解释:小于 10 的质数一共有 4 个, 它们是 2, 3, 5, 7 。示例 2: 输入:n 0 输出:0示例 3…

计算机系统复习——文件系统和目录

文件系统 存储管理: 文件系统负责将文件存储在存储设备(如硬盘、固态硬盘)中,并记录文件的位置和大小。 文件访问控制: 文件系统管理文件的访问权限,确保只有授权用户可以读取、写入或执行文件。 数据…

PostgreSQL 中如何解决因长事务阻塞导致的其他事务等待问题?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会!📚领书:PostgreSQL 入门到精通.pdf 文章目录 PostgreSQL 中如何解决因长事务阻塞导致的其他事务等待问题?一、了解长事务阻塞的原因&…

Qt进阶版五子棋

五子棋是一种两人对弈的棋类游戏,目标是在横、竖、斜任意方向上连成五个子。在Qt中实现五子棋程序,你需要设计棋盘界面、处理下棋逻辑、判断胜负等。以下是实现一个基本五子棋程序的步骤: 创建项目和界面 使用Qt Creator创建一个新的Qt Widge…

人工智能大模型讲师培训老师叶梓介绍及多模态大模型原理与实践提纲

培训需要解决的问题 通过本次培训,拓展对多模态AI应用领域的视野,帮助团队聚焦AI赋能创新突破,提升对AI服务的技术认知与理解,更好地助力业务智能化业务建设。 培训时长 1天 培训老师介绍 叶梓,工学博士&#xff0…

【人工智能】Transformers之Pipeline(二):自动语音识别(automatic-speech-recognition)

​​​​​​​ 目录 一、引言 二、自动语音识别(automatic-speech-recognition) 2.1 概述 2.2 技术原理 2.2.1 whisper模型 2.2.2 Wav2vec 2.0模型 2.3 pipeline参数 2.3.1 pipeline对象实例化参数​​​​​​​ 2.3.2 pipeline对象使用参数…

HiFi Asia 2024圆满落幕,琛蓝生物分享企业成果

一个时代,一个风口。其中有些风口切中时代脉搏,顺势而为的人因此成功登顶,有些风口则被证伪,热潮散去之后留下一地鸡毛。在当今时代,倘若要寻找下一个时代风口,那么“大健康”毫无疑问是确定性最强大那一个…

BernNet Learning Arbitrary Graph Spectral Filters via Bernstein Approximation

发表于:neurips21 推荐指数: #paper/⭐⭐ 设定:在本文中,h是过滤器. bernstein 多项式逼近(这个证明有点稀里糊涂的,反正我觉得一点点问题,可能因为我水平低) p K ( t ) : ∑ k 0 K θ k ⋅ b k K ( t ) ∑ k 0 K f ( k K ) ⋅ ( K k ) ( 1 − t ) K − k t k . p_K(t):…

下载利器:IDM绿色版/一款Windows平台多线程下载工具

大家好!我是闷声轻创!今天给你们分享一款神器Internet Download Manager(简称IDM)这款软件是需要激活需要付费的【免注册激活,无假冒序列号弹窗】适用于Windows 系统,对于经常需要下载大量数据的用户来说&a…

自定义方法耗时监控告警

自定义方法耗时监控告警 用于记录代码耗时,当代码耗时超过指定阈值时打印告警日志 自定义注解 通过自定义注解的方式可以更方便的使用,只需要在需要做耗时兼容的方法上增加上该注解即可 package com.huakai.springenv.aspect.profiler;import java.lan…

Python与自动化脚本编写

Python与自动化脚本编写 Python因其简洁的语法和强大的库支持,成为了自动化脚本编写的首选语言之一。在这篇文章中,我们将探索如何使用Python来编写自动化脚本,以简化日常任务。 一、Python自动化脚本的基础 1. Python在自动化中的优势 Pyth…

i18n、L10n、G11N 和 T9N 的含义

注:机翻,未校对。 Looking into localization for the first time can be terrifying, if only due to all of the abbreviations. But the meaning of i18n, L10n, G11N, and T9N, are all very easy to understand. 第一次研究本地化可能会很可怕&…

Leetcode3202. 找出有效子序列的最大长度 II

Every day a Leetcode 题目来源:3202. 找出有效子序列的最大长度 II 解法1:动态规划 本题是选与不选的子序列问题,可以尝试给出这样的状态定义: dp[i][j]:以 nums[i] 结尾模 k 后值为 j 的最长子序列的长度。 那么…

el-popover或el-popconfirm中button不展示问题

vue3在使用Element-plus 2.X时&#xff0c;出现el-popover或el-popconfirm中button不展示问题。 正常效果&#xff1a; 第一种错误原因&#xff1a;el-button没有添加 slotreference <template slot-scope"scope"><el-popconfirm title"您确定删除吗…

【Linux】从零开始认识多线程 --- 线程控制

在这个浮躁的时代 只有自律的人才能脱颖而出 -- 《觉醒年代》 从零开始认识多线程 --- 线程控制 1 知识回顾2 线程控制2.1 线程创建2.2 线程等待2.3 线程终止 3 测试运行3.1 小试牛刀 --- 创建线程3.2 探幽析微 --- 理解线程参数3.3 小有心得 --- 探索线程返回3.4 求索无厌 …

CSS技巧专栏:一日一例 2.纯CSS实现 多彩边框按钮特效

大家好,今天是 CSS技巧一日一例 专栏的第二篇《纯CSS实现多彩边框按钮特效》 先看图: 开工前的准备工作 正如昨日所讲,为了案例的表现,也处于书写的习惯,在今天的案例开工前,先把昨天的准备工作重做一遍。 清除浏览器的默认样式定义页面基本颜色设定body的样式清除butt…

好用的智能模型网站合集——Vol1

探秘 AIGC 精彩应用&#xff0c;开启 AI 无限可能 别忘了点赞关注转发&#xff01; openxlab 在线工具合集 大眼仔好用工具合集 扣子——海量ai工具合集

书生大模型实战营-入门岛-第三关

提交PR 建立仓库 https://github.com/Olive-2019/NL2SQL/tree/main

算法日常练习

对于这个题&#xff0c;如何处理同一个方向的问题&#xff0c;且对于同一组的如果间隔太大如何实现离散化 #include<bits/stdc.h> using namespace std;#define int long long typedef long long ll; map<pair<int,int>,vector<pair<ll,ll>>> mp…