自然语言处理学习笔记(二)————语料库与开源工具

目录

1.语料库

2.语料库建设

(1)规范制定

(2)人员培训 

(3)人工标注

3.中文处理中的常见语料库

(1)中文分词语料库

(2)词性标注语料库

(3)命名实体识别语料库

(4)句法分析语料库

(5)文本分类语料库

4.NLP开源工具


1.语料库

语料库就是自然语音处理中的数据集

2.语料库建设

语料库建设指的是构建一份语料库的过程,分为规范制定、人员培训与人工标注这 3个阶段。

(1)规范制定

指的是由语言学专家分析并制定一套标注规范,这份规范包括标注集定义、样例和实施方法。

在中文分词和词性标注领域比较著名的规范有
- 北京大学计算语言学研究所发布的《现代汉语语料库加工规范-——词语切分与词性标注》
- 中国国家标准化管理委员会发布的《信息处理用现代汉语词类标记规范》

(2)人员培训 

指的是对标注员的培训,由于人力资源的限制,制定规范与执行规范的未必是同一批人。大型语料库往往需要多人协同标注

这些标注员对规范的理解必须达到一致,否则会导致标注员内部冲突,影响语料库的质量

(3)人工标注

针对不同类型的任务,人们开发出许多标注软件,其中比较成熟的一款是 brat ( brat rapidannotation tool ),它支持词性标注、命名实体识别和句法分析等任务,brat是典型的B/S架构,服务端用Python编写,客户端运行于浏览器,相较于其他标注软件,brat最大的亮点是多人协同标注功能,此外,拖曳式的操作体验也为brat增色不少。

3.中文处理中的常见语料库

(1)中文分词语料库

        由人工正确切分后的句子集合。以著名的“ 1998年《人民日报》语料库 ”为例,该语料库由北京大学计算语言学研究所联合富士通研究开发中心有限公司,在人民日报社新闻信息中心的许可下,从 1999 年4月起到 2002 年 4 月底,共同标注完成,语料规模达到2600万汉字。

先  有  通货膨胀  干扰,后  有  通货  紧缩  叫板。

(2)词性标注语料库

        它指的是切分并为每个词语指定一个词性的语料。依然以《人民日报》语料库为例,“ 1998年的《人民日报》”一共含有 43 种词性,这个集合称作“ 词性标注集 ”

迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n

(3)命名实体识别语料库

        这种语料库人工标注了文本内部制作者关心的“ 实体名词 ”以及“ 实体类别 ”。比如《人民日报》语料库中一共含有人名、地名和机构名3种命名实体。这个句子中的加粗词语分别是“ 人名 ”、“ 地名 ”和“ 机构名 ”,中括号括起来的是“ 复合词 ”我们可以观察到 :有时候机构名和地名复合起来会构成更长的机构名,这种构词法上的嵌套现象增加了命名实体识别的难度

萨哈夫/nr 说/v ,/w 伊拉克/ns 将/d 同/p [联合国/nt 销毁/v 伊拉克/ns 大规模/b 杀伤性/n 武器/n 特别/a 委员会/n] /nt 继续/v 保持/v 合作/v 。/w

(4)句法分析语料库

        汉语中常用的句法分析语料库有 CTB ( Chinese Treebank,中文树库 ),这份语料库的建设工作始于1998年,历经宾夕法尼亚大学、科罗拉多大学和布兰迪斯大学的贡献,一直在发布多个改进版本。以 CTB 8.0 版为例,一共含有来自新闻、广播和互联网的3007篇文章,共计 71369 个句子、1620 561 个单词和 2589848 个字符,每个句子都经过了分词、词性标注和句法标注,其中一个句子可视化后如图1-6所示。

 

        中文单词上面的英文标签表示“ 词性 ”,而箭头表示“ 有语法联系 ”的两个单词,具体是何种联系由箭头上的标签表示。

(5)文本分类语料库

        它指的是人工标注了“ 所属分类 ”的文章构成的语料库。相较于上面介绍的 4 种语料库,文本分类语料库的数据量明显要大很多。

        eg)以著名的搜狗文本分类语料库为例 :一共包含汽车、财经、IT、健康、体育、旅游、教育、招聘、文化、军事 10 个类别,每个类别下含有8000篇新闻。

        另外,一些新闻网站上的栏目经过了编辑的手工整理,相互之间的区分度较高,也可作为文本分类语料库使用。

“ 情感分类语料库 ”则是文本分类语料库的一个子集,无非是类别限定为“ 正面 ”“ 负面 ”等而已。

notes:

如果这些语料库中的类目、规模不满足实际需求,我们还可以按需自行标注

标注的过程实际上就是把许多文档整理后放到不同的文件夹中

4.NLP开源工具

目前开源界贡献了许多优秀的NLP工具,它们为我们提供了多种选择。下边介绍最为主流的几种。比如教学常用的NLTK ( Natural Language Toolkit )、斯坦福大学开发的CoreNLP,以及国内哈工大开发的 LTP ( Language Technology Platform )、何晗开发的HanLP ( Han Language Processing ),下面是上述工具的比较。

 我们将使用hanlp进行学习,具体安装使用会记录在下一笔记。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/58401.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

我理解的音响设备音频放大器地线环路共地回路造成交流声干扰哼声的分析,信号接地,工业仪表接地的问题

我理解的音响设备音频放大器地线环路共地回路造成交流声干扰哼声的分析,信号接地,工业仪表接地的问题 wxleasyland 2023.8 一、地线环路造成交流声哼声 家里插座中有一个的PE地线,相当于大地。 设备1的“信号地”接到家里三脚插座的PE地线…

【雕爷学编程】MicroPython动手做(39)——机器视觉之图像基础2

MixPY——让爱(AI)触手可及 MixPY布局 主控芯片:K210(64位双核带硬件FPU和卷积加速器的 RISC-V CPU) 显示屏:LCD_2.8寸 320*240分辨率,支持电阻触摸 摄像头:OV2640,200W像素 扬声器&#…

unity TextMeshPro 富文本

<b>粗体标签</b> <i>斜体标签</i> <u>下划线标签</u> <s>删除线标签</s> <sup>上标标签</sup>前面后边上标签 5<sup>。</sup>C <sub>下标标签&#xff0c;如&#xff1a;</sub>H<sub&…

【练】要求定义一个全局变量 char buf[] = “1234567“,创建两个线程,不考虑退出条件,打印buf

要求定义一个全局变量 char buf[] "1234567"&#xff0c;创建两个线程&#xff0c;不考虑退出条件&#xff0c;另&#xff1a; A线程循环打印buf字符串&#xff0c;B线程循环倒置buf字符串&#xff0c;即buf中本来存储1234567&#xff0c;倒置后buf中存储7654321. 不…

动手学深度学习—卷积神经网络(原理解释+代码详解)

目录 1. 从全连接层到卷积层2. 图像卷积2.1 互相关运算2.2 卷积层2.3 图像中目标的边缘检测2.4 学习卷积核2.5 特征映射和感受野 3. 填充和步幅3.1 填充3.2 步幅 4. 多输入多输出通道4.1 多输入通道4.2 多输出通道4.3 11卷积核 5. 汇聚层5.1 最大汇聚层和平均汇聚层5.2 填充和步…

c 语言解析 时间字符串

#include <iostream> #include <ctime>int main(int argc, char *argv[]) {struct tm timeinfo;char cur_time[] "current time: 2021-09-06 23:50:13";// 解析时间到timeinfo中strptime(cur_time, "current time: %Y-%m-%d %H:%M:%S", &…

【快应用】adbutton如何直接下载广告而不跳落地页再下载

【关键词】 原生广告、adbutton、下载 【问题背景】 快应用中的原生广告推出了adbutton组件来直接下载广告app&#xff0c;在使用的时候&#xff0c;点击adbutton按钮的安装文案&#xff0c;不是直接下载广告app&#xff0c;而是跳转到落地页后直接下载&#xff0c;这种情形该…

Redis主从复制、哨兵机制、集群分片

目录 一.主从复制 1.概述 2.主从架构相比于单点架构的优势 3.主从复制原理和工作流程 第一次同步 第一阶段&#xff1a;建立链接、协商同步 第二阶段&#xff1a;主服务器同步数据给从服务器 第三阶段&#xff1a;主服务器发送新写操作命令给从服务器 基于长连接的命…

vscode 通过mongoose 连接mongodb atlas

了解mongodb 的项目结构 1.代表集群名称 > 2.代表数据库名称>3.代表每个 collection名称 三者范围为从大到小的关系 &#xff08;一对多&#xff09;。每个集群有不同的连接地址、用户信息&#xff08;Database Access&#xff09;、ip配置信息&#xff08;Network Acce…

Modbus TCP转Profinet网关modbus tcp转以太网

大家好&#xff0c;今天我们来聊一聊如何使用捷米特的Profinet转modbusTCP协议转换网关在博图上进行非透传型配置。 1, 首先&#xff0c;我们需要安装捷米特JM-TCP-PN的GSD文件&#xff0c;并根据现场设备情况配置modbusTCP地址。然后&#xff0c;在博图中添加该GSD文件&#x…

应用在测温仪中的数字温度传感芯片

测温仪&#xff08;thermometric indicator&#xff09;&#xff0c;是温度计的一种&#xff0c;用红外线传输数字的原理来感应物体表面温度&#xff0c;操作比较方便&#xff0c;特别是高温物体的测量。应用广泛&#xff0c;如钢铸造、炉温、机器零件、玻璃及室温、体温等各种…

一零六六、线程池、锁

线程池&#xff1a; 管理线程创建&#xff0c;销毁的一系列池子 如何创建线程池&#xff1f; ExecutorService executor Executors.newFixedThreadPool(n); 创建线程有多种方法&#xff0c;为何要用线程池&#xff1f; 减少性能开销,每次执行任务都新建线程造成cpu资源浪费…

Shell脚本学习-MySQL单实例和多实例启动脚本

已知MySQL多实例启动命令为&#xff1a; mysqld_safe --defaults-file/data/3306/my.cnf & 停止命令为&#xff1a; mysqladmin -uroot -pchang123 -S /data/3306/mysql.sock shutdown 请完成mysql多实例的启动脚本的编写&#xff1a; 问题分析&#xff1a; 要想写出脚…

MINIO安装(centos7)

步骤1&#xff1a;安装wget 在开始安装MinIO之前&#xff0c;需要安装wget命令行工具。可以使用以下命令在CentOS系统中安装wget&#xff1a; sudo yum install wget 步骤2&#xff1a;下载MinIO wget https://dl.minio.org.cn/server/minio/release/linux-amd64/minio 将下…

分布式应用:ELK企业级日志分析系统

目录 一、理论 1.ELK 2.ELK场景 3.完整日志系统基本特征 4.ELK 的工作原理 5.ELK集群准备 6.Elasticsearch部署&#xff08;在Node1、Node2节点上操作&#xff09; 7.Logstash 部署&#xff08;在 Apache 节点上操作&#xff09; 8.Kiabana 部署&#xff08;在 Node1 节点…

常用SQL语句总结

SQL语句 文章目录 SQL语句1 SQL语句简介2 DQL&#xff08;数据查询语句&#xff09;3 DML&#xff08;数据操纵语句&#xff09;4 DDL&#xff08;数据定义语句&#xff09;5 DCL&#xff08;数据控制语句&#xff09;6 TCL&#xff08;事务控制语句&#xff09; 1 SQL语句简介…

面试热题(最长回文子串)

给你一个字符串 s&#xff0c;找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同&#xff0c;则该字符串称为回文字符串 输入&#xff1a;s "babad" 输出&#xff1a;"bab" 最长回文子串以前的博客已经讲过KMP算法以及比较不常见的Manacher算法…

使用数字陷波器滤除工频信号

使用数字陷波器滤除工频信号 在实际测量时经常会受到工频信号&#xff08;交流50Hz&#xff09;的干扰&#xff0c;有时干扰还很大&#xff0c;有用信号完全被淹没了。可以应用数字陷波器来消除工频信号的干扰。 数字陷波器函数如下函数&#xff1a;iirnotch功能&#xff1a;数…

【JVM】(二)深入理解Java类加载机制与双亲委派模型

文章目录 前言一、类加载过程1.1 加载&#xff08;Loading&#xff09;1.2 验证&#xff08;Verification&#xff09;1.3 准备&#xff08;Preparation&#xff09;1.4 解析&#xff08;Resolution&#xff09;1.5 初始化&#xff08;Initialization&#xff09; 二、双亲委派…

【go-zero】docker镜像直接部署API与RPC服务 如何实现注册发现?docker network 实现 go-zero 注册发现

一、场景&问题 使用docker直接部署go-zero微服务会发现API无法找到RPC服务 1、API无法发现RPC服务 用docker直接部署 我们会发现API无法注册发现RPC服务 原因是我们缺少了docker的network网桥 2、系统内查看 RPC服务运行正常API服务启动,通过docker logs 查看日志还是未…