NLP深入学习:《A Survey of Large Language Models》详细学习(七)

文章目录

  • 1. 前言
  • 2. 应用场景
    • 2.1 LLMs 对研究界的应用
      • 2.1.1 经典 NLP 任务
      • 2.1.2 信息检索
      • 2.1.3 推荐系统
      • 2.1.4 多模态大语言模型
      • 2.1.5 知识图谱增强型 LLM
      • 2.1.6 基于 LLM 的智能体
      • 2.1.7 用于评估
    • 2.2 特定领域的应用
  • 3. 参考


1. 前言

这是《A Survey of Large Language Models》的走读最后一篇文章。

前情提要:
《NLP深入学习:《A Survey of Large Language Models》详细学习(一)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(二)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(三)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(四)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(五)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(六)》

第一章介绍了论文的摘要、引言以、总述部分
第二章讲解了 LLMs 相关资源,包含公开模型、API、预训练的数据集以及微调的数据集,
第三章介绍预训练部分,这是 LLMs 的重要部分!
第四章介绍适应性训练
第五章介绍 LLMs 的 prompts
第六章介绍 LLMs 的模型能力与评价体系方法

本文介绍 LLMs 的应用场景,文章主体的最后一部分。

2. 应用场景

这是文章本节的主要内容:
在这里插入图片描述

2.1 LLMs 对研究界的应用

2.1.1 经典 NLP 任务

在 LLMs 应用于经典自然语言处理任务方面:

  1. Word/Sentence-level Tasks(词/句任务)
    在词/句子层面的任务中,LLMs 展示了强大的理解和生成能力。对于诸如词汇聚类、词义消歧等词级任务,以及句子匹配、情感分类等句子级别任务,LLMs 经过适当微调或利用 In-context Learning 技术,能够在这些基础NLP 任务上取得优异的表现。例如,通过分析上下文中的少量示例,LLMs 能够理解并模仿给出的样例来正确预测单词类别或者判断两个句子之间的语义关系。

  2. Sequence Tagging(序列标注)
    序列标注是给定文本序列中的每个元素分配预定义标签的任务,如命名实体识别(NER)和词性标注(POS)。研究指出,尽管 LLMs 在无监督学习环境下进行这类任务时面临挑战,但通过对模型进行适当地微调或使用连续提示优化策略,它们可以有效地对词语进行精准标记,并在一些复杂类别(如“MISC”和其他组织类型的实体)上的表现有所提升。

  3. Information Extraction(信息抽取)
    信息抽取涉及从非结构化文本中自动提取有意义的信息,例如关系抽取和事件抽取。虽然 LLMs 仅通过 In-context Learning 可能无法达到最优性能,但在结合了小规模模型的专业知识或采用与小型模型合作的方式之后,LLMs 能显著提高其在这些复杂任务上的表现。此外,有研究表明,在特定条件下,LLMs 甚至可以在零样本或少样本设置下展现出竞争性的信息抽取能力。

  4. Text Generation(文本生成)
    文本生成是 LLMs 擅长的一项核心任务,包括机器翻译、摘要生成等。基于预训练的语言建模优势,LLMs 已经成功地被应用到多种生成任务中,并且商业产品如 GPT-3 在提供高质量文本生成服务方面取得了突出成绩。在适当的提示引导下,LLMs 不仅能生成连贯、准确的文本,还能适应不同领域和场景的需求,比如文档级别的翻译和根据用户交互改进生成质量。

2.1.2 信息检索

在大型语言模型(LLMs)应用于信息检索(IR)领域方面,研究主要集中在以下两个核心方向:

  1. LLMs 作为 IR 模型
    LLMs 因其强大的语言理解和生成能力而被探索用于信息检索任务。尽管LLMs 的直接应用存在一些挑战,如推理和排序大规模文档列表时的高计算开销、长文本处理限制等,但通过特殊设计的提示工程技术和少量示例学习,LLMs 可以在某些情况下用作 reranker 来优化搜索结果。例如,将LLMs 用作候选文档集合的重排序器,在不改变底层检索系统的基础上,对初步检索出的文档进行细粒度的语义相似性评估和排名。

  2. LLM 增强型IR模型
    为了克服 LLMs 直接作为 IR 模型的局限性,研究人员尝试将 LLMs 集成到现有 IR 系统中以提升其性能。这种策略包括使用 LLMs 为传统的检索模型提供额外的知识注入或特征表示,比如利用 LLMs 理解用户查询意图并生成相关的关键词或短语,从而改进检索系统的检索效果。此外,LLMs 还能用来注解和丰富用户与文档之间的交互历史数据,帮助构建更准确的用户画像,进而提高推荐系统的精度和个性化程度。

2.1.3 推荐系统

在推荐系统领域,大型语言模型(LLMs)的应用研究集中在几个主要方向:

  1. LLMs作为推荐模型
    大型语言模型可以直接用于构建推荐模型。通过特定的指令和提示技术,LLMs 能够根据用户的历史行为或提供的上下文信息生成个性化推荐。例如,在零样本或少样本学习设置下,研究人员探索了如何利用预训练好的 LLMs 直接生成推荐内容,如产品建议、文章链接等。为了优化此类推荐性能,研究还涉及到了诸如指令调整、最近关注度提示以及上下文学习等多种策略。

  2. LLM增强型推荐模型
    除了直接提供推荐外,LLMs 也被应用于改进传统推荐系统。一种方法是利用 LLMs 编码用户和物品的附加信息(如用户评论、商品描述等),从而提取更丰富的特征表示,这些表示可以被输入到传统的协同过滤或其他推荐算法中,以提高推荐结果的质量。
    另一方面,有研究将 LLMs 的能力转移到小型模型上,采用蒸馏的方式将 LLMs 的语义理解能力传递给轻量级推荐模型,这样既能保留 LLMs 的优势,又能降低在线服务时的计算资源消耗。

  3. LLM作为推荐模拟器
    LLMs 还能用于开发推荐系统的模拟器,例如 RecAgent 项目就是基于LLMs 构建的一个新颖推荐系统模拟框架。这种模拟器允许代理(agent)模拟真实用户的交互行为,并基于历史互动记录和记忆模块来捕捉用户的潜在兴趣偏好。一些模拟器还采用了多智能体协作学习的方法,使得用户和物品都能作为具有决策能力的智能体参与到推荐过程中,更好地理解和反映用户与物品之间的双向关系。

2.1.4 多模态大语言模型

多模态大语言模型是一种能够处理和整合不同模态信息(如文本、图像、音频等)的大型语言模型。在本文中,针对多模态大模型的介绍包括训练过程、评估方法以及改进的关键点:

  1. 训练过程
    多模态大模型的训练通常采用两阶段策略:首先进行视觉-语言对齐预训练,第二阶段是视觉指令调优:

    1. Vision-language alignment pre-training
      在这一预训练阶段,主要目标是使模型能够理解并整合不同模态的信息,特别是将视觉信息与语言信息相结合。具体而言,模型会首先采用一个预训练好的图像编码器来处理输入的图像数据,并将其转化为可被语言模型理解的视觉表示。然后通过端到端的方式,在大规模图像-文本对齐的数据集上进行联合训练,确保模型能够在不修改原有语言模型参数的基础上,有效地捕获视觉和语言之间的关联性。这种策略旨在使得模型学习如何从视觉信息中提取语义,并将其转换为语言形式的描述或推理。
    2. Visual instruction tuning
      预训练完成后,为了进一步提升模型对特定任务的理解和执行能力,研究人员通常会对模型进行视觉指令调优。在此过程中,模型将会接收到包含视觉输入(如图片)以及与之相关的自然语言指令作为输入,要求模型基于这些指令生成合适的响应。视觉指令调优阶段可以看作是一个细化调整的过程,目的是让模型学会遵循给定的指令完成复杂的跨模态任务,例如根据图片内容回答问题、按照指令编辑图片或者生成相关文字描述等。
  2. 评估 MLLMs
    为了全面评估 MLLM 的表现,研究者开发了一系列基准测试集,如 LVLM-eHub 和 Reform-Eval 等,这些数据集包含了大量的跨模态任务实例,用于考察模型在理解复杂指令并基于多种输入生成恰当响应的能力。其他专门设计的评估基准还包含了从现有视觉任务中抽取的问题以及经过人类注释的数据,以评价模型在感知认知、推理以及其他高级能力方面的表现。

  3. 提升 MLLMs 的关键点
    视觉指令数据的质量和数量对于提高 MLLMs 性能至关重要。研究表明,精心构造高质量的人工编写的视觉指令或利用 LMM 自身生成指令的能力可以显著影响模型效果。在训练策略上,如何平衡保留预训练模型原有的语言知识能力和适应多模态任务的需求是一个挑战。研究指出,在视觉-语言对齐预训练阶段仅更新连接模块或者同时微调连接模块及语言模型组件的不同选择,会影响模型的泛化能力和对原始参数知识的保持程度。另外,安全性与对齐问题也是关键考虑因素。由于 MLLMs 可能在处理多模态输入时产生误导性内容,因此需要开发有效的验证机制控制指令数据质量,并通过诸如 RLHF(强化学习的提示调整)等技术优化模型行为,使其输出更准确且符合道德规范。

2.1.5 知识图谱增强型 LLM

KG-Enhanced LLM,即知识图谱增强型大型语言模型,通过将外部知识库(如知识图谱)与预训练的语言模型相结合,增强了模型在处理需要深度领域知识和推理能力的任务时的表现。以下是关于 KG-Enhanced LLM 的两个部分:

  1. Retrieval-Augmented LLM(检索增强 LLM)
    这种方法主要利用预先构建的知识库(例如知识图谱),通过检索模型首先从大量事实记录中找到与当前任务相关的小规模子图。之后,这些检索到的知识片段被整合到模型的提示或输入中,无需对整个语言模型进行参数更新就能提供额外的信息支持。具体实现上,可能包括训练小型语言模型来识别问题相关的三元组信息,或者采用迭代阅读和推理框架,使模型能够多次交互地访问知识库以获取更准确的答案。

  2. Synergy-Augmented LLM(协同增强 LLM)
    对于解决复杂任务,比如多跳问答(multi-hop question answering),研究者探索了如何系统地结合 LLMs 与知识图谱的优势。这种增强方式通常涉及将任务分解为一系列子目标,并让模型与知识库环境互动,动态生成和执行计划。技术手段可能包括设计特定接口以便 LLM 更好地操作和利用结构化数据,以及利用强化学习策略优化模型在知识图谱上的搜索路径和决策过程。

2.1.6 基于 LLM 的智能体

LLM-based Agent(基于大型语言模型的智能体)是一种结合了预训练大型语言模型与决策规划能力的自动化系统,能够在多种环境中执行任务和作出决策。以下是对其总体框架及其应用领域的详细介绍:

总体结构
基于大型语言模型的智能体通常由三个主要组件构成:记忆(memory)、规划(planner)以及执行(executor)模块。记忆组件负责存储从环境中感知到的信息,包括短期记忆(如内部上下文窗口)和长期记忆(例如映射至外部向量数据库),确保模型能够依据历史信息进行推理和决策。规划组件扮演关键角色,利用从记忆中提取的知识生成针对目标任务的行动计划或策略。这一过程可能涉及文本形式的指令序列生成,或者编程代码级别的任务描述。执行组件则根据规划阶段制定的行动计划,在实际环境中采取相应行动,并将执行结果反馈给规划器以进一步迭代优化计划。

应用

  • LLM-based Agent的应用广泛且多样,它们可以用于解决一系列复杂问题,比如多步骤的自然语言处理任务、跨模态交互以及需要理解并遵循指令完成的任务。
  • 在信息检索领域,智能体可以作为搜索助手,不仅返回相关信息,还能通过理解和解释用户的查询意图,生成满足用户需求的精准答案。
  • 对于虚拟助手和聊天机器人,LLM-based Agent能提供更智能、个性化的服务,基于情境理解生成连贯对话内容,同时具备解决问题和知识查询的能力。
  • 在游戏和模拟环境中,智能体能够根据场景变化动态生成策略,实现自主行为和决策,这对于开发智能游戏AI、增强现实应用以及虚拟世界中的智能代理至关重要。

2.1.7 用于评估

在大型语言模型(LLMs)的评估方面,本文主要介绍了两种核心内容:评估格式和评估方法。

评估规范

  • Score-based Evaluation:这是一种基于量化指标的评估方式。通过设计相应的任务或基准数据集,对 LLM 生成文本的质量进行评分,比如利用传统的自动评价指标衡量机器翻译、摘要生成等任务的表现,或者根据预定义的标准(如准确性、连贯性、相关性等)对回答问题、生成代码片段等任务给出分数。

  • Language-based Evaluation:这种评估形式更关注模型输出的语言质量和逻辑合理性。评估可能包括对中间推理步骤以及最终答案的定性和定量分析,甚至要求模型能够提供可解释性的反馈。

评估方法
随着 LLMs 的发展,一些研究开始采用其他强大的预训练模型作为评估工具。例如,通过让一个大型语言模型评估另一个模型生成的内容,以实现自动化且相对客观的评估。此外,还有研究使用多智能体系统进行评估,其中不同大小和类型的 LLMs 相互协作或竞争,共同产生一个综合评判结果。

元评估基准:为了评估 LLMs 在各种复杂任务上的表现一致性与可靠性,研究者们引入了元评估基准,通过对模型性能与人类标注结果的一致程度进行量化,来检验模型在特定任务上是否具备良好的泛化能力和准确度。

2.2 特定领域的应用

在特定领域应用方面,大型语言模型(LLMs)展示了对多个专业领域的广泛适应性和潜在价值。以下是它们在各个具体领域的应用介绍:

  1. 医疗保健
    LLMs 如 Med-PaLM 等已成功应用于医疗保健领域,能够处理生物学信息提取、医疗建议咨询以及心理健康分析等任务。Med-PaLM等专门针对医疗领域的预训练模型,在美国医学执照考试(USMLE)上达到了专家水平,并且在回答消费者健康问题时得到了医生的较高认可度。然而,LLMs生成的医疗信息可能存在误导性,例如误解医学术语或给出与医学指南不一致的建议,因此确保模型输出准确性和安全性至关重要。

  2. 教育
    在教育领域,LLMs 可以作为教学助手提供个性化学习资源,解释概念,解答学生疑问,并辅助教师进行课程设计和内容开发。通过理解和生成结构化的知识表达,LLMs 可以帮助创建教育资源,比如自动生成练习题和习题解答,以支持远程学习和在线教育平台。

  3. 法律
    在法律行业,LLMs 用于文档摘要、案例检索、法规解释等方面,为律师和法律研究人员节省了大量时间和精力。虽然 LLMs 能生成法律文件草案或分析法律文本,但其输出必须经过专业人士审核,以确保符合法律法规要求及避免潜在的风险和错误。

  4. 金融
    在金融领域,LLMs 被用于新闻摘要、财务报告解读、市场趋势分析以及股票投资建议生成等多种场景。

  5. 科学研究
    科学研究是另一个受益于 LLMs 潜力的领域,LLMs 被用于文献综述、研究想法生成、数据分析等多个阶段。已有研究表明,LLMs能够有效处理知识密集型科学任务,如 PubMedQA 和 BioASQ 中的生物医学文献检索和问答,甚至能够在一定程度上协助撰写科学论文和研究报告。

3. 参考

《A Survey of Large Language Models》
《NLP深入学习:《A Survey of Large Language Models》详细学习(一)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(二)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(三)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(四)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(五)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(六)》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/393138.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

人力资源智能化管理项目(day10:首页开发以及上线部署)

学习源码可以看我的个人前端学习笔记 (github.com):qdxzw/humanResourceIntelligentManagementProject 首页-基本结构和数字滚动 安装插件 npm i vue-count-to <template><div class"dashboard"><div class"container"><!-- 左侧内…

二.重新回炉Spring Framework:Spring Framework主要组件概览

1.写在前面的话 这里主要简单说一下Spring Framework的几个核心组件的总体情况。为了比较直观&#xff0c;这里使用了ClassPathXmlApplicationContext的类图来进行说明。它基本上包含了 IoC 体系中大部分的核心类和接口。类图如下图所示&#xff1a; 2.Resource 组件体系 R…

⭐北邮复试刷题429. N 叉树的层序遍历(按层入队出队BFS)(力扣每日一题)

429. N 叉树的层序遍历 给定一个 N 叉树&#xff0c;返回其节点值的层序遍历。&#xff08;即从左到右&#xff0c;逐层遍历&#xff09;。 树的序列化输入是用层序遍历&#xff0c;每组子节点都由 null 值分隔&#xff08;参见示例&#xff09;。 示例 1&#xff1a;输入&a…

SG3225EEN晶体振荡器规格书

SG3225EEN 晶振是EPSON/爱普生的一款额定频率25 MHz至500 MHz的石英晶体振荡器&#xff0c;6脚贴片&#xff0c;LV-PECL输出&#xff0c;3225封装常规有源晶振&#xff0c;具有小尺寸&#xff0c;轻薄型&#xff0c;高稳定性&#xff0c;低相位抖动&#xff0c;低电源电压&…

【算法】基础算法002之滑动窗口(一)

&#x1f440;樊梓慕&#xff1a;个人主页 &#x1f3a5;个人专栏&#xff1a;《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 &#x1f31d;每一个不曾起舞的日子&#xff0c;都是对生命的辜负 目录 前言 1.长度最小的子数组…

找图片、壁纸就上这6个网站,高清无水印,免费下载~

推荐6个高清无水印图片、壁纸网站&#xff0c;质量非常高&#xff0c;还能免费下载&#xff0c;赶紧收藏一波~ 1、wallhaven https://wallhaven.cc/ 一个提供优质电脑高清壁纸搜索引擎&#xff0c;壁纸高清如画&#xff0c;使用后都会爱上彻底不能自拔。 Wallhaven 提供超过7…

labelme篇---批量修改用labelme标注的标签

labelme篇—批量修改用labelme标注的标签 labelme标注后的标签格式如下图&#xff1a; 我们要改的就是label 所以代码如下 # -*- coding: utf-8 -*- import os import jsonjson_dir # JSON文件所在文件夹的路径 old_label # 要修改的旧标签名 new_label # 修改后…

C#上位机与三菱PLC的通信06--MC协议之QnA-3E报文测试

1、A-3E报文回顾 1、存储区分类及访问规则 2、命令类型 命令由主命令子命令组成 3、报文结构 2、启动mc服务器 3、创建VS项目 这节继续使用上节的VS2022的项目&#xff0c;增加一个方法 MCTestA3E()&#xff0c;具体怎么创建项目&#xff0c;见上节的过程。C#上位机与三菱…

three.js 3D可视化地图

threejs地图 可视化地图——three.js实现 this.provinceInfo document.getElementById(provinceInfo); // 渲染器 this.renderer new THREE.WebGLRenderer({antialias: true }); this.renderer.setSize(window.innerWidth, window.innerHeight); this.container.appendChild…

GZ036 区块链技术应用赛项赛题第6套

2023年全国职业院校技能大赛 高职组 “区块链技术应用” 赛项赛卷&#xff08;6卷&#xff09; 任 务 书 参赛队编号&#xff1a; 背景描述 近年来&#xff0c;食品安全问题层出不穷&#xff0c;涉及到各种食品类别&#xff0c;如肉类、水果、蔬菜等。食品安全事…

SQL32 截取出年龄(substring_index函数的用法)

代码 select substring_index(substring_index(profile,,,3),,,-1) as age ,count(device_id) from user_submit group by age知识点 substring_index(FIELD, sep, n)可以将字段FIELD按照sep分隔&#xff1a; (1).当n大于0时取第n个分隔符(n从1开始)之前的全部内容&#xff1…

【Vision Pro 应用分享】Make It Spatial——将普通照片转化为Spatial空间照片,以在Vision Pro视界眼镜上观看3D效果

该应用目前在Mac App Store上免费提供 下载地址:‎Make It Spatial on the Mac App Store Read reviews, compare customer ratings, see screenshots, and learn more about Make It Spatial. Download Make It Spatial for macOS 14.0 or later and enjoy it on your Mac.h…

BUGKU-WEB 变量1

题目描述 题目截图如下&#xff1a; 进入场景看看&#xff1a; flag In the variable !<?php error_reporting(0); include "flag1.php"; highlight_file(__file__); if(isset($_GET[args])){$args $_GET[args];if(!preg_match("/^\w$/",$args…

Airtest-Selenium实操小课:爬取新榜数据

1. 前言 最近看到群里很多小伙伴都在用Airtest-Selenium做一些web自动化的尝试&#xff0c;正好趁此机会&#xff0c;我们也出几个关于web自动化的实操小课&#xff0c;仅供大家参考~ 今天跟大家分享的是一个非常简单的爬取网页信息的小练习&#xff0c;在百度找到新榜网页&a…

前端工程化面试题 | 09.精选前端工程化高频面试题

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

从零开始学习数据结构—【链表】—【探索环形链的设计之美】

环形链表 文章目录 环形链表1.结构图2.具体实现2.1.环形链表结构2.2.头部添加数据2.2.1.具体实现2.2.2.测试添加数据 2.3.尾部添加数据2.3.1.具体实现2.3.2.添加测试数据 2.4.删除头部数据2.4.1.具体实现2.4.2.测试删除数据 2.5.删除尾部数据2.5.1.具体实现2.5.2.测试删除数据 …

PFA洗气瓶配空气采样泵用PFA气体吸收瓶的特点

PFA洗气瓶是一种洗去气体中杂质的器皿&#xff0c;是将不纯气体通过选定的适宜液体介质鼓泡吸收&#xff08;溶解或由于发生化学反应&#xff09;&#xff0c;从而洗去杂质气体&#xff0c;以达净化气体的目的。在设计时&#xff0c;四氟球的周围都布满小孔。一般情况下&#x…

【教学类-19-10】20240214《ABAB式-规律黏贴18格-手工纸15*15CM-一页3种图案,AB一组样板,纵向、有边框》(中班)

背景需求 利用15*15CM手工纸制作AB色块手环&#xff08;手工纸自带色彩&#xff09;&#xff0c;一页3个图案&#xff0c;2条为一组&#xff0c;画图案&#xff0c;黏贴成一个手环。 素材准备 代码展示 # # 作者&#xff1a;阿夏 # 时间&#xff1a;2024年2月14日 # 名称&…

LeetCode刷题计划---day2

07 #include <iostream> #include <iomanip> // 头文件用于控制输出格式 using namespace std;int main() {const int n 5; // 等级个数double grade[n] {4.0, 3.0, 2.0, 1.0, 0.0}; // 每个等级对应的分数string input;while (getline(cin, input)) { // 读入一…

我国纯自研水陆两栖大飞机,鲲龙AG600M完成高寒试飞任务

据航空工业官微介绍&#xff0c;近期我国自主研制的大型水陆两栖飞机“鲲龙”AG600M在海拉尔完成最后一项高寒试飞任务。 其动力装置系统、燃油系统、液压系统、飞控系统、航电系统、起落架系统等关键系统通过了高寒地面试验和试飞验证&#xff0c;可满足我国全疆域范围内的森…