1.17组会汇报

STRUC-BENCH: Are Large Language Models Good at Generating Complex Structured Tabular Data?

STRUC-BENCH:大型语言模型擅长生成复杂的结构化表格数据吗?23年arXiv.org

1概括

  这篇论文旨在评估大型语言模型(LLMs)在生成结构化表格数据方面的能力,并提出了一些创新方法来提高模型性能。

问题背景

  • 尽管大型语言模型(如GPT-4)在自然语言处理任务中表现出色,但在生成复杂的结构化数据(如表格、HTML或LaTeX格式)时仍存在挑战。
  • 研究强调当前缺乏系统性的基准和指标来评估模型在这些任务中的性能。

核心贡献

  • 提出了一种新的基准测试(Benchmark),名为STRUC-BENCH,覆盖多种数据格式,包括文本表格、HTML和LaTeX。
  • 设计了一种新方法,FORMATCOT(结构感知的提示优化),用于生成特定格式的提示数据,以改进模型的微调过程。
  • 引入了两个新评价指标:
    • P-Score:通过模型自身对生成内容和格式的相似性进行评分。
    • H-Score:使用启发式规则计算生成表格与目标表格的相似性。

  工作流程概述:我们首先创建原始文本表、HTML表和LATEX表的数据集。随后,LLaMA-7B使用FORMATCOT构建的训练数据进行训练。最后,我们的基准测试验证了当前LLM生成此类表的有效性。

2 问题分析和Benchmark

2.1问题分析

   为了评估LLM将文本描述转换为结构化表格的能力,我们使用了RotoWire数据集,该数据集原本是一个从表格到文本的数据集,我们将其反过来作为一个从文本到表格的任务。在通过对20个样本的审查确保描述包含足够的表格生成信息后,我们发现GPT-3.5和GPT-4的性能有很大的局限性,尤其是在处理复杂结构时。

   在以表格等精确格式生成数据的测试中,GPT-3.5和GPT-4尽管功能先进,却经常出错,MTurk系统性人工注释研究就证明了这一点。图2量化了错误类型,分为“元素错误”、“元素格式错误”、“结构错误”和“结构命名错误”。

图2 人工注释的错误分析

     GPT-3.5仅有3%的输出完全准确,而GPT-4仅有9%略好于GPT-3.5。这些结果表明,GPT架构在设计上存在局限性,尽管它能有效地模仿语言模式,但在需要较长序列的持续结构连贯性的任务中显得力不从心。

2.2 Benchmark Construction(基准建设

研究者们构建了一个名为STRUC-BENCH的基准测试,涵盖了文本表格、HTML和LaTeX格式。他们从RotoWire数据集和The Stack中选择了大于3x3的表格,以确保数据集的多样性和复杂性。STRUC-BENCH包括了对四个流行LLMs(GPT-NeoX-20B、GPT-3.5、GPT-4和Vicuna)的评估。

         

                   表1 STRUC-BENCH数据统计。行数和列数已取平均值。

3方法

3.1数据生成

如图3,提出了FORMATCOT,使用GPT-3.5生成格式指令,这是一种自指导方法,用于生成{数据、指令}对,以达到微调的目的。具体来说,我们对FORMATCOT的提示涉及指导模型准确描述和解释输出表格中呈现的格式元素。

图3:左上角的框表示原始输入,明显缺少对格式的描述。为了明确指示模型理解格式,我们使用位于右侧的FORMATCOT,它生成<FORMAT INSTRUCTION>。左下角的框说明了通过FORMATCOT后LLaMA微调的输入是什么样子。<TEXT>为预期的表输出(原始输入)提供描述性文本,<TABLE>用作参考表(输出),<FORMAT INSTRUCTION>是通过FORMATCOT生成的格式指南(添加到输入中)。

3.2评估指标

提出了P-Score(基于模型的评估)和H-Score(基于启发式的评估)两种新指标,以更准确地衡量LLMs的性能。

P-Score

我们采用两种方法对每个指标进行评分。首先,我们执行基于模型的评估,用两个表查询GPT-3.5,让它分别对内容和格式的相似性进行评分。我们会提示模型在输出分数前执行Chain-of-Thought (CoT) 思维链推理,用预测表和真值表两种顺序查询模型,然后平均分数。以P-Score(提示分数)的形式报告这些结果。

H-Score

此外,我们还采用了手工制作的评分函数来对表格的相似性进行评分。由于表格可以以不同的格式呈现,我们采用了几种启发式方法对表格进行归一化处理并计算其相似性。我们使用Levenshtein距离的平均值和Ratclif-f/Obershelp相似性度量来计算字符串或数据结构之间的相似性。这些启发式归一化指标以 H-Score的形式报告。

4实验

4.1实验设置

评估指标:使用了包括SacreBLEU、ROUGE-L、BERTScore、BARTScore、BLEURT在内的多种传统文本相似度评估指标,以及文章提出的两个新指标:P-Score和H-Score。

评估模型:包括GPT-NeoX-20B、GPT-3.5、GPT-4、Vicuna-13B、LLaMA-7B,以及经过微调的LLaMA-7B模型。

数据集:每个项目由三部分组成:指令、输入和输出。生成结果时,将每个项目的指令和输入合并为模型的最终输入。

推理过程:在推理过程中,用户提供自然语言提示,描述任务的格式和内容,以及预期的响应。

4.2人工评估

评估内容和格式质量:通过人工评估,关注内容和格式质量,使用10分制评分。

评估结果:P-Score和H-Score与人类判断有显著相关性,表明这些指标在评估结构化输出方面的有效性和可靠性。内容P-Score显示出最佳的实例级相关性。

4.3实验结果

表2根据几个指标对不同的LLM进行了比较分析。对于“来自原始文本的表格”(Tables from Raw Text),Ours-7B 在每个指标上都优于其他模型。如果不进行微调,Ours-7B的性能会明显下降,尤其是在SacreBLEU、ROUGE-L和BERTScore方面。不过,这些差异很小,7B模型在其他指标上都名列前茅。

这些结果表明,我们的方法表现出了卓越的性能,凸显了微调较小模型超越较大模型的功效。此外,我们还深入分析了基于我们的Mturk注释,将观察到的缺陷归因于几种错误类型。我们还在图5中展示了能力图。

表2:测试集上的自动评估结果,包括五种以前的度量标准和四种建议的度量标准。 w.o.f inetune表示我们还比较了未进行微调的模型的性能,作为一项消融研究。Ours-7B "是经过微调的LLaMA。

  

5局限性

虽然我们进行了全面的分析,但本文对结构化文本生成中LLM的探索还存在一些局限性:

探究表格表示的最佳格式 在这项研究中,我们没有调查哪种表格格式最有效。相同信息的不同呈现方式可能是合理的,而表格规范化策略,如确定将给定事实表格化的最佳方式或如何将多个表格相互连接等,仍有待探索。未来的研究可以对表格规范化进行研究,以确定表格数据结构和表示的最佳策略。

扩大数据集范围  可以探索的数据类型和来源是无穷无尽的。纳入更广泛的数据集可以让模型接触到更广泛的结构格式,最终提高其整体性能。

增强数字推理能力 我们的研究发现,数字推理能力不足是 LLM 面临的挑战之一。研究加强这些模型的数字推理能力的技术可以显著提高它们的性能。

开发先进方法 虽然我们提出的结构感知的指令微调方法(structure-aware instruction tuning method)显示出了很好的效果,但我们还可以开发更先进的技术。例如,未来的工作可以探索将更明确的结构信息纳入模型的方法,或者开发能让模型更有效地学习结构模式的方法。

探索多模态LLMs   随着LLM的不断发展,我们有机会探索多模态模型,这些模型可以以结构化的方式处理和生成文本以及其他形式的数据,如声音或图像。‌‌

目前研一,有相似方向的朋友我们可以交流学习呀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/955417.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

EF Core全局查询筛选器

目录 概述 用法 添加全局查询筛选器 禁用全局查询筛选器 概述 全局查询筛选器&#xff1a;EF Core 会自动将这个查询筛选器应用于涉及这个实体类型的所有 LINQ 查询。 场景&#xff1a;软删除、多租户。 什么是软删除&#xff1f; 逻辑删除&#xff0c;并不是真正地从数…

俄语画外音的特点

随着全球媒体消费的增加&#xff0c;语音服务呈指数级增长。作为视听翻译和本地化的一个关键方面&#xff0c;画外音在确保来自不同语言和文化背景的观众能够以一种真实和可访问的方式参与内容方面发挥着重要作用。说到俄语&#xff0c;画外音有其独特的特点、挑战和复杂性&…

怎么用CRM系统实现客户数据的集中管理?

一、为什么我们需要关注客户数据&#xff1f; 嘿&#xff0c;大家好&#xff01;你有没有过这样的经历&#xff0c;在与一家公司打交道时&#xff0c;突然发现对方对你的需求了如指掌&#xff0c;并且总能提供恰到好处的服务&#xff1f;这可不是巧合哦&#xff0c;背后很可能…

学习threejs,使用OrbitControls相机控制器

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️THREE.OrbitControls 相机控…

Vue2+OpenLayers实现点位拖拽功能(提供Gitee源码)

目录 一、案例截图 二、安装OpenLayers库 三、代码实现 3.1、初始化变量 3.2、创建一个点 3.3、将点添加到地图上 3.4、实现点位拖拽 3.5、完整代码 四、Gitee源码 一、案例截图 可以随意拖拽点位到你想要的位置 二、安装OpenLayers库 npm install ol 三、代码实现…

【Spring】获取Cookie和Session(@CookieValue()和@SessionAttribute())

文章目录 获取 Cookie 传统获取 Cookie简洁获取 Cookie&#xff08;注解&#xff09; 获取 Session Session 存储和获取简洁获取 Session (1)简洁获取 Session (2) 获取 Cookie 传统获取 Cookie 这是没有 Spring 的时候&#xff0c;用 Servlet 来获取&#xff08;获取所有的…

Linux第二课:LinuxC高级 学习记录day03

4、解压和压缩 1、gzip 和 gunzip 特点&#xff1a; 1&#xff09;只能对单个普通文件进行压缩或解压 2&#xff09;不能进行归档&#xff0c;压缩后或解压缩后源文件不存在 3&#xff09;压缩生成压缩格式为.gz 命令&#xff1a; 压缩&#xff1a;gzip 文件名.c // …

OpenCV实现多尺度细节提升算法

1、算法原理 多尺度细节提升算法来源于论文*《DARK IMAGE ENHANCEMENT BASED ON PAIRWISE TARGET CONTRAST AND MULTI-SCALE DETAIL BOOSTING》*&#xff0c;算法主要是解决细节增强算法中噪声和细节的平衡问题。 常规的非锐化掩蔽&#xff08;USM&#xff09;算法在提升细节…

查看APK的公钥,MD5信息

查看md5 sha1 sha256的等信息 keytool -list -printcert -jarfile apk的路径地址 查看公钥私钥信息 keytool -list -rfc --keystore keystore文件的路径地址 | openssl x509 -inform pem -pubkey 把里面的keystore文件的路径地址替换成你的本地文件就可以了 如果报以上错误 就…

【机器学习实战入门】使用Python进行手写数字识别

什么是手写数字识别&#xff1f; 手写数字识别是计算机识别手写数字的能力。这对手工制造的设备来说是一个难题&#xff0c;因为手写数字并不完美&#xff0c;且人们书写数字的方式多种多样。手写数字识别旨在解决这一问题&#xff0c;通过使用数字的图像来识别该图像中的数字…

技术晋升读书笔记—华为研发

读完《华为研发》第三版&#xff0c;我深感震撼&#xff0c;书中的内容不仅详实地记录了华为公司的成长历程&#xff0c;还揭示了华为成功背后的管理理念和创新思路。这本书通过真实的案例和数据&#xff0c;展示了华为如何从一个小企业发展成全球通信行业的领导者。 一、关键人…

SQL server数据库导出excel操作

1、选择需要查询的数据库&#xff1a;鼠标右键—>任务—>导出数据 2、 选择数据源和服务器&#xff0c;使用sql server身份验证 &#xff08;数据源就是指需要从哪里导出到excel表格&#xff0c;这里就选择你需要导出的数据库&#xff09; 3、下一步选择要导出的excel表…

javaEE初阶————多线程初阶(2)

今天给大家带来第二期啦&#xff0c;保证给大家讲懂嗷&#xff1b; 1&#xff0c;线程状态 NEW安排了工作还未开始行动RUNNABLE可工作的&#xff0c;或者即将工作&#xff0c;正在工作BLOCKED排队等待WAITING排队等待其他事TIMED_WAITING排队等待其他事TERMINATED工作完成了 …

用LLM做测试驱动开发:有趣又高效的尝试

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

你需要什么样的资源隔离?丨TiDB 资源隔离最佳实践

导读 资源隔离是数据库性能优化的重要环节&#xff0c; TiDB 在当前版本已经实现了从数据级隔离到流控隔离的全面升级 &#xff0c;无论是多系统共享集群、复杂负载隔离&#xff0c;还是小型系统整合和 SQL 精细化控制&#xff0c;TiDB 都提供了灵活且高效的解决方案。 本文以…

1 行命令引发的 Go 应用崩溃

一、前言 不久前&#xff0c;阿里云 ARMS 团队、编译器团队、MSE 团队携手合作&#xff0c;共同发布并开源了 Go 语言的编译时自动插桩技术。该技术以其零侵入的特性&#xff0c;为 Go 应用提供了与 Java 监控能力相媲美的解决方案。开发者只需将 go build 替换为新编译命令 o…

Python毕业设计选题:基于django+vue的宠物服务管理系统

开发语言&#xff1a;Python框架&#xff1a;djangoPython版本&#xff1a;python3.7.7数据库&#xff1a;mysql 5.7数据库工具&#xff1a;Navicat11开发软件&#xff1a;PyCharm 系统展示 管理员登录 管理员功能界面 用户管理 宠物商品管理 医疗服务管理 美容服务管理 系统…

Java连接TDengine和MySQL双数据源

git文件地址&#xff1a;项目首页 - SpringBoot连接TDengine和MySQL双数据源:SpringBoot连接TDengine和MySQL双数据源 - GitCode 1、yml配置 spring:datasource:druid:mysql:driver-class-name: com.mysql.cj.jdbc.Driverurl: jdbc:mysql://localhost:3306/testusername: roo…

三十一、事件过滤处理分析

三十一、事件过滤处理分析eventFilter 实现以下功能 bool QObject::eventFilter(QObject *watched, QEvent *event)&#xff1a; 如果已将此对象安装为所监视对象的事件过滤器&#xff0c;则过滤事件。 在你重新实现这个函数时&#xff0c;如果你想过滤掉事件&#xff0c;即停…

C++ QT中Q_Q和Q_D是什么?怎么使用?本质是什么?C++仿写

1.QT中Q_Q和Q_D是什么&#xff1f; Q_Q可以得到外部可以访问的类指针Q_D可以得到内部封装&#xff0c;外部不可达的类指针 2. 怎么使用&#xff1f; 上代码 APrivate.h #pragma once #include <QtCore>class A;class APrivate {Q_DECLARE_PUBLIC(A) public:APrivate(…