自然语言处理学习笔记(三)————HanLP安装与使用

目录

1.HanLP安装

2.HanLP使用

(1)预下载

 (2)测试

(3)命令行

 (4)测试样例

3.pyhanlp可视化

4. HanLP词性表


1.HanLP安装

 HanLP的 Python接口由 pyhanlp包提供,其安装只需一句命令:

pip install pyhanlp

安装完成

2.HanLP使用

(1)预下载

第一次使用pyhanlp时,会自动下载许多hanlp的jar包(包含许多算法)和数据包(包含许多模型)到pyhanlp的系统路径中,大约六百多兆。

 (2)测试

from pyhanlp import *

print(HanLP.segment('你好,欢迎进入nlp的世界'))

输出结果:

[你好/vl, ,/w, 欢迎/v, 进入/v, nlp/nx, 的/ude1, 世界/n]

程序正常运行,说明安装成功。 

(3)命令行

通过命令行,可以在不写代码的前提下轻松调用 HanLP 提供的常见功能。

分词

》hanlp segment
》你好,欢迎进入nlp的世界!
》你好/vl ,/w 欢迎/v 进入/v nlp/nx 的/ude1 世界/n !/w
》通过命令行,可以在不写代码的前提下轻松调用 HanLP 提供的常见功能。
》通过/p 命令行/n ,/w 可以/v 在/p 不/d 写/v 代码/n 的/ude1 前提/n 下/f 轻松/a 调用/v  /w HanLP/nx  /w 提供/v 的/ude1 常见/a 功能/n 。/w

退出当前模式使用:ctrl+z,然后回车

关闭词性标注:

》hanlp segment --no-tag
》pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务
》pyhanlp 提供 了 一个 很好 的 展示 交付 界面 , 只要 一 句 命令 就 能 启动 一个 web 服务

 句法分析

》hanlp parse
》第一次使用pyhanlp时,会自动下载许多hanlp的jar包(包含许多算法)和数据包(包含许多模型)到pyhanlp的系统路径中,大约六百多兆。

1       第一    第一    m       m       _       2       定中关系        _       _
2       次      次      q       q       _       3       状中结构        _       _
3       使用    使用    v       v       _       5       定中关系        _       _
4       pyhanlp pyhanlp ws      nx      _       3       动宾关系        _       _
5       时      时      Ng      Ng      _       9       状中结构        _       _
6       ,      ,      wp      w       _       5       标点符号        _       _
7       会      会      v       v       _       9       状中结构        _       _
8       自动    自动    d       d       _       9       状中结构        _       _
9       下载    下载    v       v       _       0       核心关系        _       _
10      许多    许多    m       m       _       11      定中关系        _       _
11      hanlp   hanlp   ws      nx      _       14      定中关系        _       _
12      的      的      u       u       _       11      右附加关系      _       _
13      jar     jar     ws      nx      _       14      定中关系        _       _
14      包      包      n       n       _       9       动宾关系        _       _
15      (      (      wp      w       _       16      标点符号        _       _
16      包含    包含    v       v       _       9       并列关系        _       _
17      许多    许多    m       m       _       18      定中关系        _       _
18      算法    算法    n       n       _       16      动宾关系        _       _
19      )      )      wp      w       _       16      标点符号        _       _
20      和      和      c       c       _       22      左附加关系      _       _
21      数据    数据    n       n       _       22      定中关系        _       _
22      包      包      v       v       _       9       并列关系        _       _
23      (      (      wp      w       _       24      标点符号        _       _
24      包含    包含    v       v       _       22      并列关系        _       _
25      许多    许多    m       m       _       26      定中关系        _       _
26      模型    模型    n       n       _       24      动宾关系        _       _
27      )      )      wp      w       _       24      标点符号        _       _
28      到      到      p       p       _       36      状中结构        _       _
29      pyhanlp pyhanlp ws      nx      _       32      定中关系        _       _
30      的      的      u       u       _       29      右附加关系      _       _
31      系统    系统    n       n       _       32      定中关系        _       _
32      路径    路径    n       n       _       33      定中关系        _       _
33      中      中      nd      f       _       28      介宾关系        _       _
34      ,      ,      wp      w       _       28      标点符号        _       _
35      大约    大约    d       d       _       36      状中结构        _       _
36      六百多兆        六百多兆        i       i       _       22      并列关系        _       _
37      。      。      wp      w       _       9       标点符号        _       _

\
1       \       \       nh      nr      _       0       核心关系        _       _

 (4)测试样例

from pyhanlp import *
print (HanLP.segment('你好,欢迎在Python中调用HanLP的API'))

# 分词
print("-"*100)
print("分词测试")
for term in HanLP.segment("下雨天地面积水"):
print('{}\t{}'.format (term.word, term.nature)) # 获取单词与词性

TestCases = ["商品和服务",
"结婚的和尚未结婚的确实在干扰分词啊",
"买水果然后来世博园最后去世博会",
"中国的首都是北京",
"欢迎新老师生前来就餐",
"工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
"随着页游兴起到现在的页游繁盛,依赖于存档进行逻辑判断的设计减少了,但这块也不能完全忽略掉。"]
for sentence in TestCases:
print (HanLP.segment (sentence))

# 关键词提取
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露,"\
"根据刚刚完成了水资源管理制度的考核,有部分省接近了红线的指标,"\
"有部分省超过红线的指标。对一些超过红线的地方,陈明忠表示,对一些取用水项目进行区域的限批,"\
"严格地进行水资源论证和取水许可的批准。"
print("关键词提取测试")
print(HanLP.extractKeyword(document,2))

# 自动摘要
print("-"*100)
print("自动摘要测试")
print(HanLP.extractSummary(document,3))

3.pyhanlp可视化

pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果

4. HanLP词性表


a    形容词
ad    副形词
ag    形容词性语素
al    形容词性惯用语
an    名形词
b    区别词
begin  仅用于始##始
bg    区别语素
bl    区别词性惯用语
c    连词
cc    并列连词
d    副词
dg    辄,俱,复之类的副词
dl    连语
e    叹词
end    仅用于终##终
f    方位词
g    学术词汇
gb    生物相关词汇
gbc    生物类别
gc    化学相关词汇
gg    地理地质相关词汇
gi    计算机相关词汇
gm    数学相关词汇
gp    物理相关词汇
h    前缀
i    成语
j    简称略语
k    后缀
l    习用语
m    数词
mg    数语素
Mg    甲乙丙丁之类的数词
mq    数量词
n    名词
nb    生物名
nba    动物名
nbc    动物纲目
nbp    植物名
nf    食品,比如“薯片”
ng    名词性语素
nh    医药疾病等健康相关名词
nhd    疾病
nhm    药品
ni    机构相关(不是独立机构名)
nic    下属机构
nis    机构后缀
nit    教育相关机构
nl    名词性惯用语
nm    物品名
nmc    化学品名
nn    工作相关名词
nnd    职业
nnt    职务职称
nr    人名
nr1    复姓
nr2    蒙古姓名
nrf    音译人名
nrj    日语人名
ns    地名
nsf    音译地名
nt    机构团体名
ntc    公司名
ntcb    银行
ntcf    工厂
ntch    酒店宾馆
nth    医院
nto    政府机构
nts    中小学
ntu    大学
nx    字母专名
nz    其他专名
o    拟声词
p    介词
pba    介词“把”
pbei    介词“被”
q    量词
qg    量词语素
qt    时量词
qv    动量词
r    代词
rg    代词性语素
Rg    古汉语代词性语素
rr    人称代词
ry    疑问代词
rys    处所疑问代词
ryt    时间疑问代词
ryv    谓词性疑问代词
rz    指示代词
rzs    处所指示代词
rzt    时间指示代词
rzv    谓词性指示代词
s    处所词
t    时间词
tg    时间词性语素
u    助词
ud    助词
ude1    的 底
ude2    地
ude3    得
udeng    等 等等 云云
udh    的话
ug    过
uguo    过
uj    助词
ul    连词
ule    了 喽
ulian    连 (“连小学生都会”)
uls    来讲 来说 而言 说来
usuo    所
uv    连词
uyy    一样 一般 似的 般
uz    着
uzhe    着
uzhi    之
v    动词
vd    副动词
vf    趋向动词
vg    动词性语素
vi    不及物动词(内动词)
vl    动词性惯用语
vn    名动词
vshi    动词“是”
vx    形式动词
vyou    动词“有”
w    标点符号
wb    百分号千分号,全角:% ‰ 半角:%
wd    逗号,全角:, 半角:,
wf    分号,全角:; 半角: ;
wh    单位符号,全角:¥ $ £ ° ℃ 半角:$
wj    句号,全角:。
wky    右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wkz    左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
wm    冒号,全角:: 半角: :
wn    顿号,全角:、
wp    破折号,全角:—— -- ——- 半角:— —-
ws    省略号,全角:…… …
wt    叹号,全角:!
ww    问号,全角:?
wyy    右引号,全角:” ’ 』
wyz    左引号,全角:“ ‘ 『
x    字符串
xu    网址URL
xx    非语素字
y    语气词(delete yg)
yg    语气语素
z    状态词
zg    状态词 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/61991.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Hyper实现git bash在windows环境下多tab窗口显示

1.电脑上安装有git bash 下载链接&#xff1a;https://gitforwindows.org/ 安装Hyper 下载链接:官网 https://hyper.is/ 或者在百度云盘下载&#xff1a; https://pan.baidu.com/s/1BVjzlK0s4SgAbQgsiK1Eow 提取码&#xff1a;0r1f 设置 打开Hyper&#xff0c;依次点左上角-&g…

从特斯拉FSD v11.4.6,看FSD入华

从特斯拉FSD v11.4.6&#xff0c;看FSD入华 1. 芝加哥城区a. 亮点b. 问题 2. 小镇中心a. 亮点b. 问题 3. FSD入华a. 技术路线b. 场景 4. 参考视频 FSD最近更新了v11.4.6&#xff0c;本文根据2个FSD城区测试视频&#xff0c;一起看一下有哪些亮点和问题。 FSD入华的消息也甚嚣尘…

图像快速傅里叶变换的工业应用案例简介:图像自相关,背景纹理去除,旋转矫正,划痕检测

快速傅里叶变换是非常重要的数学分析工具&#xff0c;同时也是一种非常重要的信号处理方法。 下面借助Halcon商业图像处理库&#xff0c;介绍些工业应用案例&#xff0c;我们可以通过案例理解图像快速傅里叶变换的一些应用场景。 案例1&#xff1a;图像自相关性确定芯片间距 …

springCache-缓存

SpringCache 简介&#xff1a;是一个框架&#xff0c;实现了基于注解的缓存功能&#xff0c;底层可以切换不同的cache的实现&#xff0c;具体是通过CacheManager接口实现 使用springcache,根据实现的缓存技术&#xff0c;如使用的redis,需要导入redis的依赖包 基于map缓存 …

AI编程工具Copilot与Codeium的实测对比

csdn原创谢绝转载 简介 现在没有AI编程工具&#xff0c;效率会打一个折扣&#xff0c;如果还没有&#xff0c;赶紧装起来&#xff0e; GitHub Copilot是OpenAi与github等共同开发的的AI辅助编程工具&#xff0c;基于ChatGPT驱动&#xff0c;功能强大&#xff0c;这个没人怀疑…

【100天精通python】Day27:文件与IO操作_CSV文件处理

目录 专栏导读 1. CSV文件格式简介 2 csv模块的使用方法 3 读写CSV文件的示例 3.1 读取CSV文件示例 3.2 写入CSV文件示例 4 CSV文件的常用数据处理 4.1 读取CSV文件的特定列 4.2 读取CSV文件的特定行 5 csv 文件的特殊处理 5.1 处理包含逗号、换行符、引号的字段 5.…

MySql之日志

Buffer Pool Buffer Pool &#xff08;缓冲池&#xff09;是 InnoDB 存储引擎中非常重要的内存结构&#xff0c;顾名思义&#xff0c;缓冲池其实就是类似 Redis 一样的作用&#xff0c;起到一个缓存的作用&#xff0c;因为我们都知道 MySQL 的数据最终是存储在磁盘中的&#xf…

如何通过 WordPress 数据库启用插件?【进不去后台可用】

如果您无法访问 WordPress 后台并需要激活插件以恢复访问权限&#xff0c;则可以通过 WordPress 数据库来实现。本文将向您展示如何使用数据库轻松激活 WordPress 插件。 何时使用数据库激活 WordPress 插件&#xff1f; 许多常见的 WordPress 错误会阻止网站所有者访问 WordP…

性能测试工具在提升软件质量和用户体验方面的关键作用

在当今的数字时代&#xff0c;软件应用的性能和响应速度对于用户体验和企业的成功至关重要。为了满足用户对高性能和卓越体验的期望&#xff0c;开发团队需要使用专业的性能测试工具来检测和改进应用程序的性能。本文将讨论性能测试工具在提升软件质量和用户体验方面的关键作用…

Python 模块 locust 性能测试

简介 locust 是 Python 的一个开源的负载测试工具&#xff0c;用于测试网络应用程序的性能和可伸缩性。它使用Python编写&#xff0c;并提供了一个简单易用的语法来定义和执行负载测试。locust模块允许用户模拟大量并发用户并观察系统在高负载下的响应情况。 目录 1. 基本用法…

Spring5.2.x 源码使用Gradle成功构建

一 前置准备 1 Spring5.2.x下载 1.1 Spring5.2.x Git下载地址 https://gitcode.net/mirrors/spring-projects/spring-framework.git 1.2 Spring5.2.x zip源码包下载&#xff0c;解压后倒入idea https://gitcode.net/mirrors/spring-projects/spring-framework/-/…

Layui实现OA会议系统之会议管理模块总合

目录 一、项目背景 二、项目概述 1. 概述 2. 环境搭建 3. 工具类引用 4. 功能设计 4.1 会议发布 4.2 我的会议 4.3 会议审批 4.4 会议通知 4.5 待开会议 4.6 历史会议 4.7 所有会议 5. 性能优点 5.1 兼容性好 5.2 可维护性和可扩展性 5.3 轻量灵活 5.4 模块化设计…

[BabysqliV3.0]phar反序列化

文章目录 [BabysqliV3.0]phar反序列化 [BabysqliV3.0]phar反序列化 开始以为是sql注入 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ST1jvadM-1691302941344)(https://raw.githubusercontent.com/leekosss/photoBed/master/202308032140269.png)…

SQL-每日一题【1179. 重新格式化部门表】

题目 部门表 Department&#xff1a; 编写一个 SQL 查询来重新格式化表&#xff0c;使得新的表中有一个部门 id 列和一些对应 每个月 的收入&#xff08;revenue&#xff09;列。 查询结果格式如下面的示例所示&#xff1a; 解题思路 1.题目要求我们重新格式化表&#xff0c;…

【Linux】五、进程

一、冯诺依曼体系结构 存储器&#xff1a;指的是内存&#xff1b; 输入设备&#xff1a;键盘、摄像头、话筒&#xff0c;磁盘&#xff0c;网卡&#xff1b; 输出设备&#xff1a;显示器、音响、磁盘、网卡&#xff1b; 中央处理器&#xff08;CPU&#xff09;&#xff1a;运算器…

一、8.分页

当物理内存不够时就把不常用的内存暂时存入磁盘&#xff0c;并且描述符的P位置0&#xff0c;把要使用的段放入内存&#xff0c;描述符P位置1 但是这种方式会产生大量内存碎片&#xff0c;影响内存分配效率 设想一个虚拟内存&#xff0c;每隔任务都有他独立的虚拟内存&#xf…

【编译原理】五、简单四则运算的代码实现

1. 前言 前面说了那么多BNF的相关理论知识&#xff0c;实际上就是为了一个目的&#xff1a; 描述语法规则 描述语法规则是一切的开始。最终&#xff0c;还是要用代码来实现。 如果对于BNF仍然是一头雾水&#xff0c;也没关系&#xff0c;因为我们的最终目的是编写解析器&…

用Abp实现找回密码和密码强制过期策略

用户找回密码&#xff0c;确切地说是重置密码&#xff0c;为了保证用户账号安全&#xff0c;原始密码将不再以明文的方式找回&#xff0c;而是通过短信或者邮件的方式发送一个随机的重置校验码&#xff08;带校验码的页面连接&#xff09;&#xff0c;用户点击该链接&#xff0…

.dex文件转换成.class文件,.class文件转成java文件

.dex文件转换成.class文件 什么是.dex文件 dex文件是Android系统的可执行文件,包含应用程序的全部操作指令以及运行时数据。 由于dalvik是一种针对嵌入式设备而特殊设计的java虚拟机,所以dex文件与标准的class文件在结构设计上有着本质的区别。 当java程序编译成class后,还需…

解决一个Sqoop抽数慢的问题,yarn的ATSv2嵌入式HBASE崩溃引起

新搭建的一个Hadoop环境&#xff0c;用Sqoop批量抽数的时候发现特别慢&#xff0c;我们正常情况下是一个表一分钟左右&#xff0c;批量抽十几个表&#xff0c;也就是10分钟的样子&#xff0c;结果发现用了2个小时&#xff1a; 查看yarn日志 发现有如下情况&#xff1a; 主要有两…