Lecture 5 Part of Speech Tagging

目录

        • POS application: Information Extraction 词性应用:信息提取
      • POS Open Class 开放类词性
      • Problem of word classes: Ambiguity 词类问题:模糊性
      • Tagsets 标记集
      • Penn Treebank Tags:
      • Derived Tags: 衍生标签
      • Tagged Text Example 标记文本示例
      • Reasons for automatic POS tagging 自动词性标注的原因
      • Automatic Taggers 自动标注器
      • Unknown Words

Part of Speech(POS)

  • Also called word classes, morphological classes, syntactic categories 也称为词类、形态类、句法类别

  • E.g.: nouns, verbs, adjective 例如:名词、动词、形容词

  • POS tells information about a word and its neighbors: 词性提供了关于单词及其相邻单词的信息

    • Nouns are often preceded by determiners 名词通常由限定词前置
    • Verbs preceded by nouns 动词通常由名词前置
    • content as a noun pronounced as /'kɑ:ntent/
    • content as an adjective pronounced as /kən’tent/

POS application: Information Extraction 词性应用:信息提取

  • Given sentence: “Brasilia, the Brazilian capital, was founded in 1960”

  • Extract information: 提取信息

    • capital(Brazil, Brasilia)
    • founded(Brasilia, 1960)
  • First step of information extraction is finding all POS tags: 信息提取的第一步是找到所有的词性标签

    • nouns: Brasilia, capital
    • adjective: Brazilian
    • verbs: founded
    • numbers: 1960

POS Open Class 开放类词性

  • Open vs. closed: How readily do POS categories take on new words? 开放类 vs. 封闭类:词性类别接受新词的频率如何?

  • E.g. of open classes: 开放类的例子

    • Nouns:
      • Proper(专有名词) vs. common(普通名词): Australia, wombat
      • Mass(集合名词) vs. count(可数名词): rice, bowls
    • Verbs:
      • Rich inflection: go/goes/going/gone/went 富有变化
      • Auxiliary verbs(助动词): be, have, do 助动词
      • Transitivity: wait, hit, give 及物性
    • Adjectives:
      • Gradable(等级形容词) vs. non-gradable(非等级形容词): happy/happier/happiest, computational
    • Adverbs:
      • Manner(情状副词): slowly
      • Locative(处所副词): here
      • Degree(程度副词): really
      • Temporal(时间副词): today
  • E.g. of closed classes: 封闭类的例子

    • Prepositions(介词):
      • in, on, with, for, of, over
    • Particles:
      • off
    • Determiners(限定词):
      • Articles(冠词): a, an, the
      • Demonstratives(指示词): this, that, these, those
      • Quantifiers(数量词): each, every, some, two
    • Pronouns(代词):
      • Personal(人称代词): I, me, she
      • Possessive(所有格代词): my, our
      • Interrogative(疑问代词): who, what
    • Conjunctions(连词):
      • Coordinating(并列连词): and, or, but
      • Subordinating(从属连词): if, although, that
    • Modal verbs(情态动词):
      • Ability: can, could
      • Permission: can, may
      • Possibility: may, might, could, will
      • Necessity: must

Problem of word classes: Ambiguity 词类问题:模糊性

  • Many word types belong to multiple classes 许多单词类型属于多个类别

  • POS depends on context 词性取决于上下文

  • E.g.: flies

    在这里插入图片描述

    • The word flies in the first sentence is an inflection of the verb “fly” 在第一句中,flies 是动词 “fly” 的变形
    • The word flies in the second sentence is the plural form of the noun “fly” 在第二句中,flies 是名词 “fly” 的复数形式

Tagsets

Tagsets 标记集

  • A compact representation of POS information 词性信息的紧凑表示

    • Usually less than 4 capitalized characters. E.g. NN = noun 通常少于4个大写字符。例如 NN = noun
    • Often includes inflectional distinctions 经常包括形态变化的区别
  • Major English tagsets: 主要的英语标记集

    • Brown: 87 tags
    • Penn Treebank: 45 tags
    • CLAWS/BNC: 61 tags
    • Universal: 12 tags
  • At least one tagset for all major languages 所有主要语言至少有一个标记集

Penn Treebank Tags:

  • Open classes: 开放类

    • NN: noun 名词
    • VB: verb 动词
    • JJ: adjective 形容词
    • RB: adverb 副词
  • Closed classes: 封闭类

    • DT: determiner 限定词
    • CD: cardinal number 基数
    • IN: preposition 介词
    • PRP: personal pronoun 人称代词
    • MD: modal 情态动词
    • CC: coordinating conjunction 并列连词
    • RP: particle 助词
    • WH: wh-pronoun 疑问代词
    • TO: to

Derived Tags: 衍生标签

  • Open classes: 开放类

    • NN (noun singular): 单数名词
      • NNS (plural) 复数
      • NNP (proper) 专有名词
      • NNPS (proper plural) 复数专有名词
    • VB (verb infinitive): 不定式动词
      • VBP (1st/2nd person present) 第一/第二人称现在时
      • VBZ (3rd person singular) 第三人称单数
      • VBD (past tense) 过去时
      • VBG (gerund) 现在分词
      • VBN (past participle) 过去分词
    • JJ (adjective): 形容词
      • JJR (comparative) 比较级
      • JJS (superlative) 最高级
    • RB (adverb): 副词
      • RBR (comparative) 比较级
      • RBS (superlative) 最高级
  • Closed classes: 封闭类

    • PRP (pronoun personal): 人称代词
      • PRP$ (possessive) 所有格
    • WP (wh-pronoun): 疑问代词
      • WP$ (possessive) 所有格
      • WDT (wh-determiner) 疑问限定词)
      • WRB (wh-adverb) 疑问副词

Tagged Text Example 标记文本示例

在这里插入图片描述

Automatic Tagging

Reasons for automatic POS tagging 自动词性标注的原因

  • Important for morphological analysis. E.g. lemmatization 对形态分析很重要。例如:词形还原

  • For some applications, we want to focus on certain POS 对于某些应用,我们希望关注某些词性

    • E.g. nouns are important for information retreieval, adjectives for sentiment analysis 例如:名词对于信息检索很重要,形容词对于情感分析很重要
  • Very useful features for certain classification tasks. 对于某些分类任务,这是非常有用的特性

    • E.g. genre attribution 体裁属性
  • POS tags can offer word sense disambiguation 词性标签可以提供词义消歧

    • E.g. cross/NN, cross/VB, cross/JJ all have different means
  • Can use them to create larger structures 可以用它们来创建更大的结构

Automatic Taggers 自动标注器

  • Rule-based taggers 基于规则的标注器
  • Statistical taggers 统计标注器
    • Unigram tagger 一元标注器
    • Classifier-based tagger 基于分类器的标注器
    • Hidden Markov Model tagger 隐马尔科夫模型标注器

Rule-Based Tagging

  • Typically starts with a list of possible tags for each word. Source from a lexical resource or a corpus 通常从词典或语料库中为每个单词列出可能的标签开始
  • Often includes other lexcial information. E.g. verb subcategorization 经常包括其他词汇信息。例如:动词下类化
  • Apply rules to narrow down to a single tag 应用规则以缩小到一个标签
  • Large systems have thousands of constraints 大型系统有数千个约束

Unigram Tagger

  • Assign most common tag to each word type 为每个单词类型分配最常见的标签
  • Requires a corpus of tagged words 需要一个标记过的词语的语料库
  • Just a look-up table 只是一个查找表
  • Approximately 90% accuracy 精度约为90%
  • Often considered the baseline for more complex approaches 通常被认为是更复杂方法的基线

Classifier-Based Tagging

  • Use a standard discriminative classifier like logistic regression or neural network with features: 使用如逻辑回归或神经网络这样的标准判别式分类器,其特征包括

    • Target word 目标词
    • Lexical context around the word 词周围的词汇上下文
    • Already classified tags in the sentence 句子中已分类的标签
  • Can suffer from error propagation: wrong predictions from previous steps affect the next ones 可能受到错误传播的影响:前一步的错误预测影响下一步

Hidden Markov Models

  • A basic sequential model 一个基本的序列模型
  • Like sequential classifiers, use both previous tag and lexical evident 与序列分类器一样,使用前一个标签和词汇证据
  • Unlike classifiers, considers all possibilities of previous tag and treat previous tag evidence and lexical evidence as independent from each other 与分类器不同的是,它考虑了前一个标签的所有可能性,并将前一个标签的证据和词汇证据视为相互独立的
    • Less sparsity 稀疏度较小
    • Fast algorithms for sequential prediction 针对序列预测的快速算法

Unknown Words

  • Huge problem in morphologically rich languages 在形态丰富的语言中是一个巨大的问题

  • Can use things already seen only once to best guess for things never seen before 可以使用已经看到一次的事物来对从未见过的事物进行最佳猜测

    • Tend to be nouns, followed by verbs 倾向于是名词,然后是动词
    • Unlikely to be determiners 不太可能是限定词
  • Can use sub-word representations to capture morphology 可以使用子词表示来捕获形态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/25724.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

160个CrackMe之001

吾爱中的逆向练习题 运行程序 有两个方式 一个是账号登入 一个是序列号输入 账号输入 方法一 爆破 我们先进行账号输入 这个是最简单的逆向 所以我们可以使用 字符串查找看看 先试用ollydbg打开 右键 ->查找 ->所有参考文本字符串 这里我们能发现有两个报错 我们还…

通过python封装1688图片搜索商品数据接口,拍立淘API接口

1688图片搜索API封装接口是一个可以帮助用户快速使用1688图片搜索API的接口封装库。该接口封装库可以帮助用户快速引入1688图片搜索API,并提供各种参数配置和封装的API调用方法,以方便用户快速实现自己的图片搜索需求。 该接口封装库将1688图片搜索API的…

九耶丨阁瑞钛伦特-springmvc(三)

SpringMVC作为一种流行的Java Web框架,是基于Spring之上的。它提供了强大的MVC(Model-View-Controller)架构,能够快速地实现Java Web开发,高效地与数据交互。如何使用SpringMVC成为开发人员的首要问题。要了解SpringMV…

设计模式之~外观模式

定义: 为子系统中的一组接口提供一个一致的界面,此模式定义了一个高层接口,这个接口使得这一子系统更加容易使用。 结构图: 区分中介模式: 门面模式对外提供一个接口 中介模式对内提供一个接口 优点: 松耦…

Linux进程概念引入

文章目录 冯诺依曼体系操作系统概念设计目的定位系统调用和库函数的概念 进程概念描述进程PCBtask_struct内容分类 组织进程查看进程通过系统调用获取进程标识符通过系统调用创建进程 冯诺依曼体系 目前我们的计算机基本都是遵守冯诺依曼体系的,在冯诺依曼体系中&am…

C++ 内存分区模型

C程序在执行时,将内存大方向划分为4个区域 代码区:存放函数体的二进制代码,由操作系统进行管理的 全局区:存放全局变量和静态变量以及常量 栈区:由编译器自动分配释放 , 存放函数的参数值 , 局部变量等 堆区&…

第11届蓝桥杯Scratch国赛真题集锦

编程题 第 1题 问答题 3D打印小猫 题目说明 背景信息:3D打印技术,它与普通打印工作原理基本相同,打印机内装有液体或粉未等“打印材料”,与电脑连接后,通过电脑控制把“打印材料”一层层叠加起来,最终把计算机上的蓝图变成实物。 编程实现:通过滑杆控制小猫造型变化,按下…

YUM在线升级功能

文章目录 YUM在线升级功能利用YUM进行查询、安装、升级与删除功能查询功能使用案例 安装/升级功能删除功能 YUM的配置文件修改软件源产生的问题与解决之道使用案例 YUM的软件群组功能使用案例 全系统自动升级 管理的抉择:RPM还是Tarball基础服务案例:以A…

学生成绩管理系统

基于springboot vue实现的学生成绩管理系统 主要模块: 1)学生模块:我的成绩、成绩统计、申述管理、修改密码 2)教师模块:任务管理、对学生班级任务安排、班级学生的成绩查看、申述管理 3)管理员模块&…

应用运维的三个项目

应用运维 目录概述需求: 设计思路实现思路分析1.开发和运维2.比重3.历史项目4.工作内容5.历程 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,…

南山城市更新--向南村(一期,二期)项目详情

向南村(一期)城市更新单元项目简介 项目于2010年被列入《深圳城市更新单元规划制定计划第一批计划》中,申报主体为向南实业股份有限公司,后与恒大合作开发。 项目位于南山区桂庙路南侧,毗邻前海、衔接后海&am…

javaWeb ssh小提琴管理系统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 java ssh小提琴管理系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S 模式开发。开发环境为TOMCAT7.0,…

TypeScript实现贪吃蛇游戏

TS实现贪吃蛇游戏 文章目录 TS实现贪吃蛇游戏[toc]1.项目效果2.项目梳理3.项目准备4.主体页面结构5.CSS样式6.TS逻辑6.1 食物逻辑6.2 蛇逻辑6.3 记分板逻辑6.4 游戏控制器逻辑6.5 程序入口ts 1.项目效果 项目体验 2.项目梳理 这个小游戏主要包括积分面板,食物&…

【Spring】— 映射文件

目录 映射文件select元素insert元素update元素和delete元素sql元素resultMap元素 映射文件 映射文件是MyBatis框架中十分重要的文件。在映射文件中&#xff0c;<mapper>元素是映射文件的根元素&#xff0c;其他元素都是它的子元素。映射文件中的主要元素如下所示。 <…

【owt】WebrtcNode, subscribe-sdp offer 流程(1)

sdp offer 流程 1. AmqpClient - New message received sdp offer 的消息 2023-04-26T21:54:19.790 - DEBUG: AmqpClient - RpcServer New message received {method: onTransportSignaling,args: [b149e44bb10d4e91bd162a8c6806ae7b,{sdp: v0\r\n o- 7177131362423164715 …

生活-考驾照2

昨日已通过科目一&#xff0c;接下来&#xff0c;向着科目二出发&#xff01;&#xff01;&#xff01; 考试注意事项 就考前一周死命刷题&#xff0c;至少一天有三次93以上的记录&#xff0c;我也就最后一天达到90&#xff0c;之前一直马路杀手刷题&#xff0c;我就在网页版…

WRF模式应用:天气预报、模拟分析观测气温、降水、风场、水汽和湿度、土地利用变化、土壤及近地层能量水分通量、土壤、水体、植被等相关气象变量

查看原文>>>高精度气象模拟软件WRF(Weather Research Forecasting)技术及案例应用 气候是多个领域&#xff08;生态、水资源、风资源及碳中和等问题&#xff09;的主要驱动因素&#xff0c;合理认知气候变化有利于解释生态环境变化机理及过程&#xff0c;而了解现在、…

Alibaba Arthas学习与使用

Alibaba Arthas学习与使用 目录 下载安装卸载退出快捷键重点部分: 命令 dashboardthreadjvmsyspropsysenvvmoptiongetstaticognlscsmjadmcredefinedumpclassloadermonitorwatchtracestackttoptionsprofiler 下载安装 # 下载 curl -O https://alibaba.github.io/arthas/art…

如何在多个端口上运行 SSH 服务器?

SSH&#xff08;Secure Shell&#xff09;是一种用于安全远程访问和管理服务器的协议。默认情况下&#xff0c;SSH服务器在Linux系统上使用22号端口进行通信。但是&#xff0c;有时我们可能需要在多个端口上运行SSH服务器&#xff0c;以满足特定的需求或增强服务器的安全性。 本…

SQL审核工具Yearning搭建及使用

一、背景 实际的业务场景中&#xff0c;我们难免会直接对生产库的数据进行修改。很多朋友都是发sql给运维&#xff0c;然后运维执行。过程不可控&#xff0c;出错几率很大。 而且没有审核&#xff0c;不知道提交的具体是什么sql&#xff0c;极有可能是删库跑路的sql&#xff0…