直接基于文本的图像生成通常会导致丢失图像中的关键元素。为了解决此问题,哈工大提出Poetry2Image,通过实施有针对性的图像校正解决这个问题,有效地捕捉这首诗所传达的语义和艺术精髓。
Poetry2Image流程分为如下几步:
-
搜索和翻译:系统会在一个庞大的诗歌数据库中搜索用户提供的古诗,并找出它的现代- 汉语翻译和赏析。
-
生成初始图像:利用诗歌的现代汉语翻译,系统会生成一幅初步的图像。
-
提取关键元素:系统会使用一个大型的语言模型来识别并提取诗歌中的关键元素,比如“竹马”或“青梅”。
-
图像修正:系统会检查生成的图像是否包含了所有这些关键元素。如果没有,系统会提出修改建议,比如添加缺失的元素或调整元素的位置。
-
迭代优化:如果图像中的元素不完整或不正确,系统会根据建议再次生成图像,这个过程会不断重复,直到图像能够准确反映诗歌的意境。
通过这种方法,Poetry2Image能够生成既美观又忠于原诗意境的图像,即使是对于复杂的古诗,也能够有效地传达其深层含义和艺术精髓。
相关链接
论文地址:https://arxiv.org/pdf/2407.06196v1
论文阅读
Poetry2Image:从中国古典诗词生成图像的迭代校正框架
摘要
文本到图像的生成模型在涉及中国古典诗歌的任务中经常会遇到关键元素丢失或语义混淆的问题。通过微调模型解决这个问题需要相当大的训练成本。此外,手动提示重新扩散调整需要专业知识。为了解决这个问题,我们提出了 Poetry2Image,这是一个针对中国古典诗歌生成图像的迭代校正框架。利用外部诗歌数据集,Poetry2Image 建立了一个自动反馈和校正循环,通过图像生成模型和随后由大型语言模型 (LLM) 建议的重新扩散修改来增强诗歌和图像之间的一致性。使用 200 句中国古典诗歌的测试集,所提出的方法与五种流行的图像生成模型相结合,实现了 70.63% 的平均元素完整性,比直接图像生成提高了 25.56%。在语义正确性测试中,我们的方法达到了 80.09% 的平均语义一致性。该研究不仅促进了古诗词文化的传播,也为类似非微调方法提升LLM生成提供了参考。
方法
Poetry2Image的自动迭代校正框架。利用预先构建的诗歌数据集,该过程从提取诗歌和生成初始图像开始,然后实现自反馈图像校正迭代循环。该循环通过利用 LLM 分析诗歌文本的语义和开放词汇检测器 (OVD) 识别的图像元素来发挥作用。然后,它输出指导图像编辑扩散模型的校正建议,不断提供反馈,以逐步将文本语义与图像语义对齐。
关键元素提取模块 LLM Extractor 的示意图。从诗歌数据库中检索诗歌的翻译和评论后,这些文本连同系统提示一起输入到 LLM 中。随后,LLM 输出诗歌中包含的关键元素。
LLM Suggester 的示例,该模块专门用于修改图像边界框。在进行基于 OVD 的元素识别以确定现有边界框后,将翻译、此边界框和系统提示输入到 LLM 中。然后,LLM 根据翻译中的语义信息调整边界框,并输出修改后的边界框。
与图像生成模型的比较。我们的方法通过图像生成模型在元素完整性方面表现出了显著的改进。对于元素完整性,准确率的提高范围从 17.59% 到 33.87%,对于语义一致性,也实现了一定程度的改进。
以下是不同语言的诗歌范例和 Poetry2Image 的测试结果。
-
日本俳句:水中的月亮;破碎又破碎,但它依然在那里。
-
美国英语诗歌:独自一人在海滩上度过夜晚,老母亲摇着她沙哑的歌声来回摇摆,当我看着明亮的星星闪耀时,我想到了宇宙和未来的谱号。
-
英国英语诗歌:哦狂野的西风,你是秋天的气息,你看不见的存在,枯叶被驱赶,就像逃离魔法师的幽灵,黄色、黑色、苍白和疯狂的红色。
左边是直接从文字生成的意思,右边显示了我们方法的修正。
最初,对于日本诗歌,我们选择了著名的松尾芭蕉俳句进行分析。我们的方法准确识别出“断月落水”的隐喻,并进行适当调整天空中月亮的图像反映了这一点。随后,对于英语诗歌,我们测试了惠特曼和雪莱的诗歌。结果表明我们的方法有效地解释和纠正比如“老母亲”和“鬼”之类的隐喻。
效果展示
全流程图像生成效果评估。Peotry2Image 提升了古典诗歌等专业文本的图像生成质量,解决了词素丢失、语义混淆等核心问题。
-
诗a:酒前高歌,人生苦短,日子过得很快。
-
诗b:京城里满是豪车华服的贵人,你却才华横溢却面容憔悴。
-
诗c:清水中斜映着稀疏的梅影,朦胧的月色中飘荡着淡淡的梅花香。
-
诗d:阳光下的香炉峰笼罩着紫霞,远远望去,一条瀑布如白丝般挂在山前。
-
诗e:我面对一杯悲酒,离家千里。思绪万千,想着边陲的动乱,想着未竟的事业,想着何时才能回到故乡。
-
诗f:停下马车只因爱傍晚的枫林,霜染的枫叶,比二月的鲜艳花朵更美丽。
扩散模型无法理解关键因素是“周瑜”,他是一个历史人物,所以不能生成它。在第二首诗中,所有元素都可以被识别,但它不能传达怀旧的感觉 献给死去的英雄。 生成上图的诗文如下:
-
诗a:若没有东风的帮助,江南就会一片废墟,美丽的二乔就会永远被关在铜雀楼里。
-
诗b:当年的人不在了,但易水河今天还是那么冷
结论
我们提出了 Poetry2Image,这是一个集图像生成、错误校正和反馈于一体的迭代校正框架。该框架提高了中国古典诗歌等专业文本的图像生成质量,并解决了元素丢失和语义混淆等核心问题。我们的方法擅长元素丰富或多语言的诗歌,并与其他图像生成模型兼容。此外,我们的方法为类似的非微调方法提供了参考,以增强 LLM 生成。