PAE:从潮流报告中提炼有效产品属性

本文将介绍PAE,一种用于包含 PDF格式的文本和图像的产品属性提取算法。目前大部分的方法侧重于从标题或产品描述中提取属性,或利用现有产品图像中的视觉信息。与之前的工作相比,PAE从潮流趋势报告的PDF文件中提取属性,提取的属性包含了未来的时尚趋势,然后将这些属性和零售商的产品目录对比,以便于提前做出预判和规划。

小编提示:本项目的亮点和价值在于细节,具体的作业细节!!

潮流报告

产品目录会被用于战略性地选择和组织系列产品,以满足客户需求并最大限度地提高销售额。这个过程涉及分析市场趋势、客户偏好和竞争对手的策略,以确定潜在的差距和机会——这个过程通常需要对未来流行的趋势进行预测和决策。

如上图所示,一些主流或者相关行业的调查报告会涵盖纺织品和材料创新、产品开发以及生活方式和室内设计趋势,通过对这些信息进行提取产品属性值,然后将属性值正确的映射到产品属性。在结合自身的产品库,就可以根据未来的流行趋势对自身的产品进行调整,或者为自身的产品贴上更合适的标签以便于形成网红产品。

项目的具体流程如下,从给定的PDF文件中提取所有文本(段落)和相关图像,使用LLM模型从图像和文本中提取相关属性。将属性合并到每个类别中,并为每个属性保留唯一值。利用基于Bert的模型将这些属性和目前现有库存的商品进行匹配,以便组织和规划未来的目录。

产品属性提取 (PAE) 引擎可以帮助零售行业加入新商品或从现有目录中提取属性。我们进行了这篇较长的论文中描述的大量实验,以表明与现有的最先进的属性提取框架相比,PAE 是一个有效、灵活的框架,与现有最先进的属性提取框架相当或更胜一筹(平均 92.5% F1 分数)。

PDF的文字提取

PDF文档的布局复杂性可能会使提取过程变得困难。例如,存在多个列、图像、表格和脚注会使纯文本的提取变得复杂。另一个挑战是在PDF中使用非标准或自定义字体,这可能导致提取结果不准确。此外,页眉、页脚、HTML 标签和页码等“噪音”的存在也会干扰提取过程。

有许多工具可用于文本提取,例如pdfMiner或pdfquery。上图显示从pdf 文件中提取文本的过程。首先,使用pdf2image中的“convert from path”功能将PDF文件拆分为PIL(Python 图像库)图像。

在内部,该函数使用pdfinfo命令行工具从 PDF 文件中提取元数据,例如页数。然后使用pdftocairo命令行工具将PDF的每一页转换为图像。其次,将图像转换为灰度,并通过应用形态梯度算子来增强和隔离文本区域,从而在每个页面上进行形态转换。最后使用具有光学字符识别 (OCR)功能的图像注释器进行文本提取。提取文本后使用拼写校正器(如 LanguageTool)来修复 OCR 中任何被误解的文本。

PDF的图片提取

PDF文件可以包含各种格式的图像,例如JPEG、PNG或TIFF。从不同格式提取图像可能需要多种技术。高效、及时地从大型 PDF 文件中提取图像可能是一个挑战,尤其是在处理有限的系统资源时。为了应对上述挑战,利用纯Python PDF库直接从 PDF 文件中提取图像对象并将它们提取为原始的字符串。然后使用 Pillow处理提取的图像并以 jpg 格式保存。

属性映射到现有产品目录

首先需要从之前的文本和图像中提炼有效的产品的属性值,这里直接使用Prompt工程利用现有的LLM进行信息的提炼。如下为具体的例子:

这个阶段常见的问题是存在嘈杂和缺失的标签。准确标记和注释PDF中每一页的所有相关信息是一项具有挑战性的任务。尽管采用了各种自动和手动注释流程,但几乎不可能获得完美标记的结构化数据。为了解决这个问题,研究团队采用图像预处理或数据清理技术来消除重复、嘈杂和无效的图像,然后再进行属性提取。

那么从每个页面上的文本和图像中提取属性,聚合之后就有了很多潮流趋势的属性和属性值。如何将这些信息映射到现有的产品目录,具体的过程如下:

商品属性匹配的挑战之一是,一个属性有很多不同的表示说法。例如,“vneck”需要和“V-Neck”进行合并为“V-Neck”。

这里使用了预训练BERT无大小写模型。BERT是个双向表示的模型,通过它生成源和目标的词嵌入,最后用余弦相似度来匹配现有目录中的相似的属性。

上面左图为每种潮流类型(都是衣服)提炼的页数P,文本数T,图片数I,小标签数H。右图则为F1-Score(准确性)。

到此就完成了从pdf提炼信息,然后和自身数据库整合的过程。后续就会有很多的应用,例如可以将匹配的产品增加曝光,或者增加缺乏的产品。其实某种意义上实现了最新信息跟踪的数字化过程。小编认为要是结合LangChian或者LlamaIndex作为调度框架会更加的流畅,具体就交给各位读者去实施。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/756793.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Django 自定义标签

1,简单标签 1.1 添加自定义标签函数 Test/app5/templatetags/mytags.py from django import template register template.Library() register.simple_tag() def show_title(value, n):if len(value) > n:return f{value[:n]}...else:return value 1.2 添加视…

day02-Spark集群及参数

一、Spark运行环境变量问题(了解) 1-pycharm远程开发运行时,执行的是服务器的代码 2-通过本地传递指令到远程服务器运行代码时,会加载对应环境变量数据,加载环境变量文件是用户目录下的.bashrc文件 在/etc/bashrc 1-1 在代码中添加 使用os模块…

Debug 调试代码

我们使用 debug 的目的, 认为就是查看代码的执行过程的。 步骤: 1. 打断点 断点的意义是, debug 运⾏的时候, 代码会在断点处停下来不执行如果是想要查看代码的执行过程, 建议将断点放在第⼀行在代码 和 行号之间 点击,出现的红色圆点 就是断点, 再次点击可以取消 …

ros1仿真导航机器人 基础传感器数据读取

仅为学习记录和一些自己的思考&#xff0c;不具有参考意义。 1 仿真环境 gazebo、rviz、ros1 2 机器人模型 <?xml version"1.0"?> <robot name"wpb_home_gazebo"><link name"base_footprint"><visual><origin …

嫦娥六号平安回家,Smartbi非常荣幸参与中国航天项目

“小时不识月&#xff0c;呼作白玉盘。”李白的这句诗&#xff0c;承载了古人对月亮的美好想象与纯真童趣。今天&#xff0c;当我们仰望夜空&#xff0c;那轮明月不仅是诗词中的意象&#xff0c;更是科学探索的目标和梦想的寄托。 2024年6月25日14时07分&#xff0c;嫦娥六号返…

安全与加密常识(0)安全与加密概述

文章目录 一、信息安全的基本概念二、加密技术概述三、常见的安全协议和实践四、加密的挑战与应对 在数字时代&#xff0c;信息安全和加密已成为保护个人和企业数据不受侵犯的关键技术。本文将探讨信息安全的基础、加密的基本原理&#xff0c;以及实用的保护措施&#xff0c;以…

Python中相关软件安装

1. python安装 1.下载地址 https://www.python.org/downloads/2.选择安装版本 1. Anaconda安装 安装地址 -- 清华大学镜像站点 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/查看anaconda是否安装成功 2.conda安装好后&#xff0c;将镜像源修改为清华大学的镜像…

知识库在AI大模型中的使用流程

大模型知识库的使用流程通常包括以下关键步骤&#xff0c;大模型知识库的使用流程需要跨学科的知识和技能&#xff0c;包括自然语言处理、数据库管理、软件工程等。同时&#xff0c;也需要关注用户体验、性能优化、安全保护等方面&#xff0c;以提供高质量的知识服务。北京木奇…

封装了一个iOS滚动厨窗效果

效果图 背景 我们要实现如图的厨窗效果&#xff0c;不能通过在tableView底部添加一个背景图片的方式&#xff0c;因为这需要修改整个tableView的背景色为透明&#xff0c;影响到的范围太大&#xff0c;只能将这个效果局限在这个cell 中&#xff0c;然后通过监听tableView的滚动…

昇思MindSpore学习笔记3--张量 Tensor

一、张量Tensor概念 矢量、标量和其他张量的计算函数&#xff0c;有内积、外积、线性映射以及笛卡儿积等 张量坐标在 n 维空间内&#xff0c;有 nr 个分量 每个分量都是坐标的函数,变换时每个坐标分量都按规则作线性变换 张量是一种特殊的数据结构&#xff0c;类似于数组和…

npm安装包报错解决

目录 一&#xff1a;问题回顾 二:问题分析 三&#xff1a;npm降级或者升级 四&#xff1a;npm和node js 关系 一&#xff1a;问题回顾 今天在本地部署一个vue开发的项目&#xff0c;需要在本地看下运行情况&#xff0c;按照常规的操作就是在网站根目录运行npm install 安装…

如何制作鼠标悬浮后伸缩的搜索框

引言 许多博客都在使用的伸缩搜索框制作教程 成品展示&#xff08;颜色自行搭配&#xff09; 初步布局 居中盒子&&初始化样式 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewpo…

Nuxt3 的生命周期和钩子函数(五)

title: Nuxt3 的生命周期和钩子函数&#xff08;五&#xff09; date: 2024/6/29 updated: 2024/6/29 author: cmdragon excerpt: 摘要&#xff1a;本文详细介绍了Nuxt3中的六个核心生命周期钩子及其用法&#xff0c;包括build:done、build:manifest、builder:generateApp、…

[oeasy]python021_赛博宝剑铭文大赏_宝剑上的铭文_特殊符号和宝物

继续运行 &#x1f94b; 回忆上次内容 上次修改了 程序 将 石中剑变成了 红色 爱之大剑 可以 让宝剑 具有 更多铭文符号 和 颜色 吗&#xff1f;&#x1f914; 铭文 亚瑟王 从石头中 取得宝剑 说明 不列颠科技从石器时代 进入了 青铜时代 第一把 Caliburn 断裂 第二把 湖中仙…

恢复的实现技术-日志和数据转储

一、引言 在系统正常运行的情况下&#xff0c;事务处理的恢复机制应采取某些技术措施为恢复做好相应的准备&#xff0c;保证在系统发生故障后&#xff0c;能将数据库从一个不一致的错误状态恢复到一个一致性状态 恢复技术主要包括 生成一个数据库日志&#xff0c;来记录系统中…

iOS开发中用到的自定义UI库

文章目录 前言cell 左右滑动菜单日历组件仿QQ 侧滑抽屉仿探探、陌陌的卡牌滑动库头部缩放视图自定义UITabbar刮刮乐广告横幅 前言 本文中的UI组件&#xff0c;是作者在移动应用开发中都用到过的。 确实&#xff0c;找到对的三方库可以快速帮助我们构建App, 极大程度上提高了生…

ESP32-C2模组数据透传模式配置详细教程

文章目录 1. 背景2. 关键步骤2.1 烧录AT指令固件2.2 配置透传模式2.3 如何退出透传模式重新配置3. 思考1. 背景 最近做的项目中,有蓝牙+WIFI的数据透传的需求,即系统A和系统B之间的通讯通过无线的方式,其实在实际项目中有很多这种场景比如无线调试手柄、无线数据终端、无线…

c进阶篇(一):数据的存储

1.数据类型介绍 char // 字符数据类型 short // 短整型 int // 整形 long // 长整型 long long // 更长的整形 float // 单精度浮点数 double // 双精度浮点数 1.1整形家族&#xff1a; char unsigned char signed char …

Linux 生产消费者模型

&#x1f493;博主CSDN主页:麻辣韭菜&#x1f493;   ⏩专栏分类&#xff1a;Linux初窥门径⏪   &#x1f69a;代码仓库:Linux代码练习&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习更多Linux知识   &#x1f51d; 前言 1. 生产消费者模型 1.1 什么是生产消…

stm32学习笔记---ADC模数转换器(代码部分)AD单通道/多通道

目录 第一个代码&#xff1a;AD单通道 ADC初始化步骤 ADC相关的库函数 RCC_ADCCLKConfig 三个初始化相关函数 ADC_Cmd ADC_DMACmd ADC_ITConfig 四个校准相关函数 ADC_SoftwareStartConvCmd ADC_GetSoftwareStartConvStatus ADC_GetFlagStatus ADC_RegularChannel…