中文自然语言处理库(SnowNLP)的简单使用

snownlp 是一个简单易用的 Python 库,专为处理中文文本而设计。它基于自然语言处理技术,提供了多种功能,包括分词、词性标注、情感分析、文本转换(简繁转换)等。这个库的核心优势在于对中文文本的处理能力,尤其是情感分析功能。

主要功能

  1. 分词(Tokenization):将长文本划分为单独的词汇。

  2. 词性标注(Part-of-Speech Tagging):标注文本中每个词汇的词性,如名词、动词等。

  3. 情感分析(Sentiment Analysis):判断文本的情感倾向是正面还是负面。

  4. 文本转换(Text Conversion):实现简体和繁体中文之间的转换。

  5. 关键词提取(Keywords Extraction):提取文本中的关键词。

  6. 摘要生成(Summarization):从文本中提取关键句生成摘要。

  7. 短语提取(Phrase Extraction):从文本中提取短语。

安装

snownlp 可以通过 pip 安装:

pip install snownlp

示例

以下是使用snownlp进行各种处理的一些基本示例:

分词
from snownlp import SnowNLP

text = """
中新社北京2023年12月29日电(记者 刘育英)中国工信部12月29日发布的《工业和信息化部等八部门关于加快传统制造业转型升级的指导意见》提出,到2027年,中国传统制造业在全球产业分工中的地位和竞争力进一步巩固增强。传统制造业是中国制造业的主体,石化化工、钢铁、有色、建材、机械、汽车、轻工、纺织等传统制造业增加值占中国全部制造业的比重近80%。但中国传统制造业“大而不强”“全而不精”问题仍然突出,低端供给过剩和高端供给不足并存,创新能力不强,产业基础不牢,资源约束趋紧,要素成本上升,巩固提升竞争优势面临较大挑战。指导意见提出,到2027年,传统制造业高端化、智能化、绿色化、融合化发展水平明显提升,有效支撑制造业比重保持基本稳定,在全球产业分工中的地位和竞争力进一步巩固增强。工业企业数字化研发设计工具普及率、关键工序数控化率分别超过90%、70%,工业能耗强度和二氧化碳排放强度持续下降,万元人民币工业增加值用水量较2023年下降13%左右,大宗工业固体废物综合利用率超过57%。
"""
#分词
s = SnowNLP(text)
print(s.words)

 

词性标注
tags = [word.tag for word in SnowNLP(text).tags]
print(tags)

 

 

情感分析
#情感分析
sentiment = SnowNLP(text).sentiments
print(sentiment)

 

s.sentimentsSnowNLP库中用于情感分析的功能。这个情感分数是一个介于0到1之间的浮点数,用于表示文本的情感倾向。分数越接近1,表示文本的情感倾向越正面;分数越接近0,表示文本的情感倾向越负面。 

文本转换(简繁转换)
#简繁转化
traditional = SnowNLP(text).han
print(traditional)

 

还是简体,这个功能不一定有效。。。

关键词提取
#提取关键词
keywords = SnowNLP(text).keywords(limit=5)
print(keywords)

 

摘要生成

#总结摘要
summary = SnowNLP(text).summary(3)# 提取3个句子作为摘要
print(summary)

 提取关键词和生成摘要的效果还不错。

依存句法分析

分析文本中词语之间的依存关系。

s = SnowNLP(text)
dependency = s.tags  # 获取依存关系
for item in dependency:
    print(item)

 就是词性标注。没啥区别。

文本分类

对文本进行分类(需要自行训练模型)。

#文本分类:对文本进行分类(需要自行训练模型)。

# 首先需要有一些标注好的数据进行训练
# 例如:snownlp.SnowNLP([[words, tags], ...])
# 然后使用save方法保存训练好的模型

# 首先需要有一些标注好的数据进行训练 

转换成拼音

将中文文本转换成拼音。

s = SnowNLP(text)
pinyin = s.pinyin
print(pinyin)

这个功能还挺实用的。

词频统计

对文本中的词频进行统计。

s = SnowNLP(text)
words_count = s.tf
print(words_count)

这个...不是词频是字频吧


注意事项

  • snownlp 对于情感分析提供了预训练模型,但这个模型可能不适用于所有类型的文本。对于特定领域或特定文体的文本,可能需要额外的训练来优化结果。
  • 库的准确性在很大程度上依赖于数据质量和数据量,对于复杂或特殊的文本内容,可能需要进一步的自定义处理或训练。

snownlp 是处理中文文本的强大工具,但它的功能和准确性可能会受限于所使用的数据和特定应用场景。


虽然代码是gpt写的,但是我都运行了的,是可以跑的,这篇算是这个库的简单使用。其中的一些功能,词频统计,关键词提取,情感分析,生成摘要,转化拼音。还是很实用的功能。以后会有场景用得上的。


创作不易,看官觉得写得还不错的话点个关注和赞吧,本人会持续更新python数据分析领域的代码文章~(需要定制代码可私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/287532.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

软性演员-评论家算法 SAC

软性演员-评论家算法 SAC 软性演员-评论家算法 SAC优势原理软性选择模型结构目标函数重参数化熵正则化代码实现 软性演员-评论家算法 SAC 优势原理 DDPG 的问题在于,训练不稳定、收敛差、依赖超参数、不适应复杂环境。 软性演员-评论家算法 SAC,更稳定…

基于ssm的资产管理信息系统+vue论文

摘要 当下,正处于信息化的时代,许多行业顺应时代的变化,结合使用计算机技术向数字化、信息化建设迈进。以前企业对于资产信息的管理和控制,采用人工登记的方式保存相关数据,这种以人力为主的管理模式已然落后。本人结…

我用 Python 自动生成图文并茂的数据分析报告

reportlab是Python的一个标准库,可以画图、画表格、编辑文字,最后可以输出PDF格式。它的逻辑和编辑一个word文档或者PPT很像。有两种方法: 1)建立一个空白文档,然后在上面写文字、画图等; 2)建…

【设计模式-2】原型模式的原理、代码实现及类图展示

我们一定对类的实例化比较熟悉,前面我们说的单例、还有3种工厂模式都是通过new关键字来创建对象,下面我们来了解一种新的对象创建的方式。 1. 定义 原型模式也是一种创建型的设计模式,实现和原理总体比较简单,一句话总结呢&#…

帮企10合一万能分销商城源码系统:全开源可二开,全端覆盖+完整的代码包以及搭建教程

电商市场的竞争日益激烈,越来越多的企业开始意识到分销商城的重要性。然而,市面上的分销商城系统往往存在着功能单一、扩展性差等问题,无法满足企业的多样化需求。今天来给大家分享一款10合一万能分销商城源码系统。 以下是部分代码示例&…

MYSQL二主二从集群部署

目录 一、环境描述 二、安装mysql 2.1 卸载mysql(如果没安装过,可忽略) 2.1.1 列出安装的mysql 2.1.2 卸载mysql 2.1.3 删除mysql文件目录 2.1.3.1 查看mysql 目录 2.1.3.2 依次删除 2.2 在线安装 2.2.1 下载安装源 2.2.2 安装源rpm 2.2.3 加入rpm密钥 …

西安人民检察院 | OLED翻页查询一体机

产品:55寸OLED柔性屏 项目时间:2023年12月 项目地点:西安 在2023年12月,西安人民检察院引入了OLED翻页查询一体机,为来访者提供了一种全新的信息查询方式。 这款一体机采用55寸OLED柔性屏,具有高清晰度、…

虚幻UE 材质-进阶边界混合之WAT世界对齐纹理

边界混合前篇:虚幻UE 材质-边界混合之PDO像素深度偏移量 上一篇主要讲材质相似或者不同的两个物体之间的边界混合 这一篇主要讲自建材质且相同的两个物体之间的边界混合 文章目录 一、世界对齐纹理二、世界对齐纹理实验1、制作材质 三、进一步优化 一、世界对齐纹理…

25计算机专业考研经验贴之准备篇

Hello各位小伙伴,大家新年好! 马上就要进入寒假假期了,25考研也该提上日程了。今天先跟大家分享一下大家在假期可以先做起来的准备工作。 【选择学校】 择校是个非常重要的内容,因为不同学校的考试内容是不一样的,有些…

免费SSL证书:为你的网站安全护航

SSL证书作为保障网站安全的重要工具,其价值不言而喻。然而,许多人对SSL证书望而却步,因为其高昂的价格让人望而生畏。但现在,我们为您带来了福音——免费SSL证书!让您轻松实现网站安全,无惧网络威胁。 一、…

UTF-8编码文件:有BOM和无BOM的区别

UTF-8编码文件:有BOM和无BOM的区别 在处理UTF-8编码的文本文件时,你可能会遇到“有BOM”和“无BOM”两种类型。了解这两者之间的区别对于确保文件兼容性和正确的数据处理至关重要。 什么是BOM? BOM(Byte Order Mark,…

CRM系统如何实现市场销售管理?CRM系统有哪些营销功能

CRM管理系统中的营销管理模块,它的锋芒常被销售管理所掩盖,但对于企业的业务来说同样重要。营销部门虽然不像销售人员一样直接面对客户,却是挖掘线索、商机的重要角色。CRM在市场营销领域的关键功能包括:营销漏斗、客户细分、营销…

javascript 常见工具函数(五)

41.深度拷贝对象: static deepCopyObj$(obj) {var result Array.isArray(obj) ? [] : {};for (var key in obj) {if (obj.hasOwnProperty(key)) {if (typeof obj[key] object && obj[key] ! null) {result[key] Utils$.deepCopyObj$(obj[key]); //递归…

微信好友添加频繁的原因

01 微信好友添加频繁的原因 1. 添加好友的频率太高:短时间内添加多个好友,系统会认为账号被盗,从而限制用户添加好友; 2. 频繁的发送好友请求:在短时间内连续发送好友请求,也会导致微信限制操作&#xff0…

系列五、搭建Naco(集群版)

一、搭建Naco(集群版) 1.1、前置说明 (1)64位Red Hat7 Linux 系统; (2)64位JDK1.8;备注:如果没有安装JDK,请参考【系列二、Linux中安装JDK】 (3&…

HbuilderX中的git的使用

原文链接https://blog.csdn.net/Aom_yt/article/details/119924356

【C++入门】类和对象(完)

前言 在谈论C时,常常会涉及到一些高级特性和概念,比如初始化列表、static成员、友元、内部类、匿名对象等。这些概念在C编程中起着非常重要的作用,对于想要深入了解C语言的开发者来说,掌握这些知识是至关重要的。本文,…

LeetCode第32题 : 最长有效括号

题目介绍 给你一个只包含 ( 和 ) 的字符串,找出最长有效(格式正确且连续)括号子串的长度。 示例 1: 输入:s "(()" 输出:2 解释:最长有效括号子串是 "()" 示例 2&#xf…

SpringBoot整合mybatis多数据源

废话不多说先上结果 对应数据库 首先导入所需的mybatis、mysql和lombok依赖 <dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId><version>2.2.2</version></dependen…

关于我花费六千多组了台window+Linux主机

一边学习&#xff0c;一边总结&#xff0c;一边分享&#xff01; 写在前面 我在2023年12月组了一台“洋垃圾”的主机&#xff0c;一边当做台式机使用&#xff0c;一边当做服务器使用。这个方案算是相对比较划算的方案。我开始是打算直接单做服务器使用的&#xff0c;以及内存…