《Ai学习笔记》自然语言处理 (Natural Language Processing):机器阅读理解-基础概念解析01

自然语言处理 (Natural Language Processing)

NLP四大基本任务

序列标注: 分词、词性标注

分类任务: 文本分类、情感分析

句子关系:问答系统、对话系统

生成任务:机器翻译、文章摘要

机器阅读理解的定义

Machine Reading Comprehension(MRC)机器阅读理解任务

QA问题的一个子集,含有contexts

通过交互从书面文字中提取与构造文章语义的过程

机器阅读理解场景

搜索引擎

机器回答&智能客服

垂直:医疗、法律、金融、教育等领域

MRC四大任务

完形填空

原文中除去若干关键词,需要模型填入正确的单词或者短语

多项选择

模型需要从给定的若干选项中给出正确答案

答案抽取

回答限定是文章中的一个子句,需要模型在文章中标注正确答案的起始和终止位置。

自由回答

不限制模型生成答案形式,允许模型自由产生数据

机器阅读理解方法

特征+传统机器学习

BERT以前:各种神奇的QA架构
BERT之后:预训练+微调+trick

机器学习总体架构

NLP相关任务的基本流程

文本预处理:构造训练语料

算法选择:输出数据-》规则

文本获取:

1、人工标注

2、用户标注

3、互联网收集后清洗

文本预处理:

1、去除冗余字符标记

2、分词(jieba/中文)

3、单词处理(英文:大写->小写,单词还原,同义词扩展)

4、去除停用词

总结:

在训练之前,要针对对应的模型:
1、确定目标大模型的训练语料格式
2、针对庞杂的文本文件进行去除标记、分词、单词处理、去除停用词。这些操作

3、得到的文件就可以用来预训练啦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/645378.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

用LabVIEW进行CAN通信开发流程

本文详细介绍了在LabVIEW中开发CAN(Controller Area Network)通信的流程,包括硬件配置、软件编程和调试步骤。重点讨论了开发过程中需要注意的问题,如节点配置、数据帧格式和错误处理等,为开发高效可靠的CAN通信应用提…

[C++]debug介绍+debug时如何查看指针指向内存处的值

一、简介 预备工具和知识:使用使用VSCode使用Debug。 本文简介:本文将简要介绍debug中Continue,Step Over,Step Into和Restart的功能。并介绍如何在debug时查看动态内存地址(指针)的值; 二、D…

npm 错误,ERESOLVE unable to resolve dependency tree

npm 错误,ERESOLVE unable to resolve dependency tree 在命令中增加 --legacy-peer-dep 选项或者–force npm install --legacy-peer-depsnpm install --force

Mysql 找出未提交事务的SQL及死锁

未提交事务: 通过查看information_schema.INNODB_TRX视图,您可以了解当前系统中正在运行的事务情况,从而进行问题排查和性能优化。 SELECT * FROM information_schema.innodb_trx; 通过trx_state为RUNNIG,trx_started判断是否有一直RUNNING的事务。 如果有未提交…

MySQL 8.4.0 LTS 变更解析:I_S 表、权限、关键字和客户端

↑ 关注“少安事务所”公众号,欢迎⭐收藏,不错过精彩内容~ MySQL 8.4.0 LTS 已经发布 ,作为发版模型变更后的第一个长期支持版本,注定要承担未来生产环境的重任,那么这个版本都有哪些新特性、变更,接下来少…

企业如何正确地利用LLM大模型?

大型语言模型 (LLM) 不值得信任。就是这样。 考虑到它们先进的 AI 能力以及当今强大的基础模型的普遍知识,这似乎是一件令人惊讶的事情。然而,问题的关键在于 LLM 无法解释其输出。你不能信任 LLM 的结果,不是因为它不准确,而是因…

如何解决mfc110udll丢失的问题,7个方法可解决mfc110udll丢失

mfc110u.dll是一个动态链接库文件,属于Microsoft Visual C 2012 Redistributable Package的一部分。它是Microsoft Foundation Classes (MFC) 库的一个版本,专门用于支持基于MFC开发的应用程序运行。MFC是一个用于Windows操作系统上使用C进行本机应用程序…

[书生·浦语大模型实战营]——第二节:轻松玩转书生·浦语大模型趣味 Demo

1. 部署InternLM2-Chat-1.8B 模型进行智能对话 1.1配置环境 创建开发机 Intern Studio 官网网址:https://studio.intern-ai.org.cn/ 进入官网后,选择创建开发机,填写 开发机名称 后,点击 选择镜像 使用 Cuda11.7-conda 镜像&am…

JVM堆分配中TLAB分配方案

个人博客 JVM堆分配中TLAB分配方案 | iwts’s blog Java对象的内存分配过程如何保证线程安全 对象的内存分配过程中,主要流程是将对象的引用指向一个具体的内存区域,然后进行初始化操作。 但是,因为堆是全局共享的,因此在同一…

自建公式,VBA在Excel中轻松获取反义词

自建公式,VBA在Excel中轻松获取反义词 文章目录 前言一、爬取网站数据二、代码1.创建数据发送及返回方法2.汉字转UTF8编码2.获取反义词 三、运行效果截图 前言 小学语文中,近义词、反义词是必考内容之一。家长不能随时辅导怎么办?有VBA&…

谷歌浏览器安装devtools工具

在浏览器中输入极简插件,然后打开如下的网页,在搜素框中输入vue 出现下图 点击推荐下载 (地址:https://chrome.zzzmh.cn/info/nhdogjmejiglipccpnnnanhbledajbpd) 打开谷歌浏览器如图 选择“扩展程序” 点开之后&…

Python实现xml解析并输出到Excel上

1.编写xml文件 2.使用Python的ElementTree模块来解析XML import xml.etree.ElementTree as ET from openpyxl import Workbook # 解析XML函数 def parse_xml(xml_file):tree ET.parse(xml_file)root tree.getroot() --打开根节点data []for user in root.findall(Users/Us…

微信小程序毕业设计-学生知识成果展示与交流系统项目开发实战(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:微信小程序毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计…

python文件处理之os模块和shutil模块

目录 1.os模块 os.path.exists(path):文件或者目录存在与否判断 os.path.isfile(path):判断是否是文件 os.path.isdir(path):判断是否是文件夹 os.remove(path):尝试删除文件 os.rmdir(path):尝试删除目录 os.m…

程序员分享好用的工具,用来用去还是觉得这几款软件最实用

大家好,我是程序员大猩猩。 作为一个程序员,除了经常要使用到的开发工具,如:Jetbrains家的IntelliJ IDEA以及它家族工具,如WebStorm、PhpStorm和GoLand都是非常好的语言开发工具。 相对于语言开发工具,我…

【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model

note 文章目录 note论文1. 论文试图解决什么问题2. 这是否是一个新的问题3. 这篇文章要验证一个什么科学假设4. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?5. 论文中提到的解决方案之关键是什么?6. 论文中的…

民宿bug

前端 后端 1 订单管理 订单日期已过,状态没有变成已完成

Scikit-Learn朴素贝叶斯

Scikit-Learn朴素贝叶斯 1、朴素贝叶斯1.1、贝叶斯分类1.2、贝叶斯定理1.3、贝叶斯定理的推导1.4、朴素贝叶斯及原理1.5、朴素贝叶斯的优缺点2、Scikit-Learn朴素贝叶斯2.1、Sklearn中的贝叶斯分类器2.2、Scikit-Learn朴素贝叶斯API2.3、Scikit-Learn朴素贝叶斯实践(新闻分类与…

..堆..

堆 堆是完全二叉树,即除了最后一列之外,上面的每一层都是满的(左右严格对称且每个节点都满子节点) 最后一列从左向右排序。 默认大根堆:每一个节点都大于其左右儿子,根节点就是整个数据结构的最大值 pr…

解决Vue3+TS+vite,VSCode 高亮语法错误

一般像这种提示,有可能就是TypeScript语法的识别问题, 一般我们重装一下Vue - Official插件 或者将tcconfig.json中的moduleResolution改为node模式, 基本都是TypeScript无法识别vue文件中的TypeScript语句导致的