利用大语言模型进行长文本抽取式摘要的突破

论文地址:https://arxiv.org/pdf/2408.15801v1

引言:信息过载时代的文本摘要需求

在信息爆炸的时代,如何从海量文本中快速提取关键信息成为了一项至关重要的技能。自动文本摘要技术应运而生,主要分为抽取式生成式两种方法。生成式方法虽然能够生成灵活且富有创意的摘要,但常常面临事实不准确幻觉问题,尤其在处理长文本时,这些问题更为突出。

相比之下,抽取式摘要通过直接从源文本中选择相关句子来生成摘要,能够更好地保证语法和事实的准确性。然而,传统的抽取式摘要方法多依赖于预训练的编码器模型,在处理长文本时存在一定的局限性。


EYEGLAXS:基于大语言模型的抽取式摘要框架

为了应对上述挑战,我们提出了EYEGLAXS(Easy Yet Efficient larGe LAnguage model for eXtractive Summarization)框架。该框架利用了大语言模型(LLMs)的强大能力,特别是LLAMA2-7BChatGLM2-6B,用于长文本的抽取式摘要。

EYEGLAXS框架图
图1:EYEGLAXS的整体框架。雪花标志表示权重冻结,火炬标志表示权重可训练。

EYEGLAXS的主要特点:

  1. 采用先进的注意力机制和参数高效微调技术:

    • Flash Attention 2:有效降低了长序列处理的计算和内存需求,使得在单个A10 GPU卡上能够处理长达12,000个token的序列。
    • LoRA(低秩适应):通过训练少量额外的参数,显著降低了存储和计算成本,同时保持了与完全微调相当的性能。
  2. 解决位置偏差问题:

    • 采用了旋转位置编码(RoPE),能够有效编码序列中token的绝对和相对位置信息,并具有扩展到任何序列长度的灵活性。
  3. 模型选择与微调:

    • 选择了具有可扩展位置编码机制的LLMs,如LLAMA2和ChatGLM2,并使用LoRA进行微调,以确保模型在处理长序列时的效率和性能。

实验结果:超越现有方法的性能

我们在PubMedarXiv这两个广泛使用的科学论文数据集上进行了实验,结果表明,EYEGLAXS在多个指标上均优于现有的抽取式摘要方法。

主要实验结果:

  • PubMed数据集:

    • EYEGLAXS的ChatGLM2-6B (12K)变体在ROUGE-1、ROUGE-2和ROUGE-L指标上分别达到了50.17、24.41和45.66,超过了其他所有抽取式模型。
    • 相比之下,传统的LexRank方法在ROUGE-1上仅为39.19。

    PubMed数据集上的ROUGE结果
    图2:PubMed数据集上的ROUGE结果。

  • arXiv数据集:

    • EYEGLAXS的LLAMA2-7B (12K)变体在ROUGE-1、ROUGE-2和ROUGE-L指标上分别达到了48.96、21.07和43.30,同样表现出色。

    arXiv数据集上的ROUGE结果
    图3:arXiv数据集上的ROUGE结果。

训练数据量对性能的影响:

  • 实验表明,训练数据量与模型性能之间存在正相关关系。
  • 在使用不同比例的PubMed 4K数据集进行训练时,LLAMA2-7B LoRA (4K)在所有数据量下均表现出色,而ChatGLM2-6B (4K)在数据量增加时性能提升更为明显。

结论与展望

EYEGLAXS框架展示了大语言模型在长文本抽取式摘要任务中的巨大潜力,突破了传统方法的局限。然而,使用大语言模型也面临着计算资源需求高微调限制等挑战。

未来研究方向:

  1. 集成滑动注意力机制:进一步优化长序列处理效率。
  2. 结合图神经网络或强化学习:提升模型在复杂文本结构上的表现。
  3. 探索更多应用场景:验证模型在不同领域和文本类型上的通用性。

附录:模型训练时间

模型训练上下文长度训练时间 (arXiv)训练时间 (PubMed)
CHATGLM2-6b4K8h 08m8h 06m
CHATGLM2-6b12K52h 54m31h 14m
LLAMA2-7b4K8h 36m8h 33m
LLAMA2-7b12K51h 35m32h 29m

表1:不同模型在arXiv和PubMed数据集上的训练时间。


通过EYEGLAXS,我们看到了大语言模型在文本摘要领域的广阔前景。未来,随着技术的不断进步,文本摘要技术将更加智能、高效,为信息处理带来更多可能性。


参考资料:

  1. Mehdi Debiane Sanof, Lo Hemamou Sanof. “Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization” (2023).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/956868.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Quick get started with vcpkg, windows visual studio | CPP

本文属于 C 系列文章,本篇文章,是在 Quickstart C with cmake, visualstudio | CPP 基础上,继续的。 目录 vcpkg总结安装安装 mingw64安装 vcpkg 创建项目查询已有的包在 Visual Studio 中调试发布依赖Trouble ShootingCMake Error: CMake wa…

《Linux服务与安全管理》| 邮件服务器安装和配置

《Linux服务与安全管理》| 邮件服务器安装和配置 目录 《Linux服务与安全管理》| 邮件服务器安装和配置 1.在Server01上安装dns、postfix、dovecot和telnet,并启动 2.在Server01上配置DNS服务器,设置MX资源记录 3.在server1上…

BGP分解实验·9——路由聚合与条件性通告(1)

路由聚合是有效控制缩减BGP路由表的方法之一,路由聚合的前提和IGP一样,需要有路由目标存在BGP表中,与IGP不同的是,BGP路由聚合可以定义按需抑制路由的能力。 实验拓扑如下所示: 现在开始把从R1的R5的基础配置先准备好…

Spring Boot 配置(官网文档解读)

目录 摘要 Spring Boot 配置加载顺序 配置文件加载顺序 Spring Boot 配置加载方式 Value Value 注解简单示例 ConfigurationProperties 启动 ConfigurationProperties ConfigurationProperties 验证 ConfigurationProperties 与 Value 对比 Autowired Autowired 自…

ElasticSearch JavaRestClient查询之快速入门

文章目录 查询操作流程概述构建并发起请求1. 创建请求对象2. 设置请求体3. 发送请求 查询结果的解析1. 解析结果结构2. 获取总条数3. 获取命中的数据 完整示例代码总结 查询操作流程概述 Elasticsearch 查询操作大致可以分为两个部分: 构建并发起请求:…

【C++】红黑树的应用(封装map和set)

✨ 青山一道同云雨,明月何曾是两乡 🌏 📃个人主页:island1314 🔥个人专栏:C学习 🚀 欢迎关注:👍点赞 &…

C# 给定欧氏平面中的一组线可以形成的三角形的数量

给定欧氏平面中的一组线可以形成的三角形的数量(Number of Triangles that can be formed given a set of lines in Euclidean Plane) 给定欧氏平面上的 n 条不同直线的集合 L {l 1 , l 2 , ………, l n }。第i 条直线由形式为 a i x b i y c i的方程给出。求出可以使用集合…

C++书籍 第一部分专业C++程序设计概述

1&#xff0c;必不可少的“hello world” #include<iostream>int main(int argc, char** argv) {std::cout << "hello world" << std::endl;return 0; } 这个是一个极其简单的程序&#xff0c;虽然没有多大简直&#xff0c;但是可以体现c程序格式方…

leetcode刷题记录(七十二)——146. LRU 缓存

&#xff08;一&#xff09;问题描述 146. LRU 缓存 - 力扣&#xff08;LeetCode&#xff09;146. LRU 缓存 - 请你设计并实现一个满足 LRU (最近最少使用) 缓存 [https://baike.baidu.com/item/LRU] 约束的数据结构。实现 LRUCache 类&#xff1a; * LRUCache(int capacity)…

微调时如何平衡新旧参数?

在微调预训练模型时&#xff0c;平衡新旧参数是一个重要的问题。合理地平衡新旧参数可以确保模型既保留预训练阶段学到的通用表示能力&#xff0c;又能够有效地适应特定任务。以下是一些常用的方法和技术来平衡新旧参数&#xff1a; ### 1. 学习率调整 **不同层使用不同的学习…

性能调优篇 四、JVM运行时参数

目录 一、三种JVM参数选项1、标准参数选项1&#xff09;特点2&#xff09;各种选项3&#xff09;-server 和 -client 2、-X参数选项3、-XX参数选项 二、添加JVM参数选项1、idea 如何添加jvm参数 三、常见的JVM参数选项1、打印设置的参数选项及其值2、堆、栈、方法区等内存大小设…

2024年博客之星主题创作|Android 开发:前沿技术、跨领域融合与就业技能展望

目录 引言 一、推动 Android 应用创新的核心力量 1.1 人工智能与机器学习的崛起 1.2 增强现实&#xff08;AR&#xff09;与虚拟现实&#xff08;VR&#xff09;的应用扩展 1.3 5G技术的推动 1.4 跨平台开发技术的成熟 1.4.1 React Native 1.4.2 Flutter 1.4.3 Taro …

汇编与逆向(一)-汇编工具简介

RadASM是一款著名的WIN32汇编编辑器&#xff0c;支持MASM、TASM等多种汇编编译器&#xff0c;Windows界面&#xff0c;支持语法高亮&#xff0c;自带一个资源编辑器和一个调试器。 一、汇编IDE工具&#xff1a;RadASM RadASM有内置的语言包 下载地址&#xff1a;RadASM asse…

Gin 源码概览 - 路由

本文基于gin 1.1 源码解读 https://github.com/gin-gonic/gin/archive/refs/tags/v1.1.zip 1. 注册路由 我们先来看一段gin代码&#xff0c;来看看最终得到的一颗路由树长啥样 func TestGinDocExp(t *testing.T) {engine : gin.Default()engine.GET("/api/user", f…

Linux网络序列化与反序列化

Linux网络序列化与反序列化 1. 前言 在网络通信中&#xff0c;互相通信的信息不一定都是字符串&#xff0c;往往一些结构化的信息也需要进行通信。理论上&#xff0c;只要服务器和客户端都自定义一个共同的协议&#xff0c;结构化的信息也能实现正常通信。但考虑到不同系统、…

实战经验:使用 Python 的 PyPDF 进行 PDF 操作

文章目录 1. 为什么选择 PyPDF&#xff1f;2. 安装 PyPDF3. PDF 文件的合并与拆分3.1 合并 PDF 文件3.2 拆分 PDF 文件 4. 提取 PDF 文本5. 修改 PDF 元信息6. PDF 加密与解密6.1 加密 PDF6.2 解密 PDF 7. 页面旋转与裁剪7.1 旋转页面7.2 裁剪页面 8. 实战经验总结 PDF 是一种非…

PhyCAGE:符合物理规律的图像到 3D 生成

Paper: Yan H, Zhang M, Li Y, et al. PhyCAGE: Physically Plausible Compositional 3D Asset Generation from a Single Image[J]. arXiv preprint arXiv:2411.18548, 2024. Introduction: https://wolfball.github.io/phycage/ Code: Unreleased PhyCAGE 是一种 image-to-3D…

游戏为什么失败?回顾某平庸游戏

1、上周玩了一个老鼠为主角的游戏&#xff0c;某平台喜1送的&#xff0c; 下载了很久而一直没空玩&#xff0c;大约1G&#xff0c;为了清硬盘空间而玩。 也是为了拔掉心中的一根刺&#xff0c;下载了而老是不玩总感觉不舒服。 2、老鼠造型比较写实&#xff0c;看上去就有些讨…

上位机工作感想-2024年工作总结和来年计划

随着工作年限的增增长&#xff0c;发现自己越来越不喜欢在博客里面写一些掺杂自己感想的东西了&#xff0c;或许是逐渐被工作逼得“成熟”了吧。2024年&#xff0c;学到了很多东西&#xff0c;做了很多项目&#xff0c;也帮别人解决了很多问题&#xff0c;唯独没有涨工资。来这…

Android系统开发(六):从Linux到Android:模块化开发,GKI内核的硬核科普

引言&#xff1a; 今天我们聊聊Android生态中最“硬核”的话题&#xff1a;通用内核镜像&#xff08;GKI&#xff09;与内核模块接口&#xff08;KMI&#xff09;。这是内核碎片化终结者的秘密武器&#xff0c;解决了内核和供应商模块之间无尽的兼容性问题。为什么重要&#x…