《python》——jieba库

jieba库

jieba简介

  • jieba 是一个非常受欢迎的中文分词库
    • 中文分词:这是 jieba 库最主要的功能。它能够将一段中文文本按照词语进行切分。例如,对于句子 “我爱自然语言处理”,jieba 分词后可以得到 [“我”, “爱”, “自然语言”, “处理”] 这样的结果。分词的准确性对于很多自然语言处理任务(如文本分类、信息检索、机器翻译等)都非常重要。
    • 词性标注(可选扩展功能):除了分词,jieba 还可以为每个分出来的词标注词性,如名词、动词、形容词等。这有助于进一步理解文本的语法结构和语义信息。

jieba下载

# 可以使用 pip 命令进行安装
pip install jieba

jieba使用方法

  • 简单分词

    • 导入 jieba 库后,使用jieba.lcut()函数可以对文本进行分词。
    import jieba
    text = "这是一个测试句子"
    words = jieba.lcut(text)
    print(words)
    
    • 运行结果会是[‘这是’, ‘一个’, ‘测试’, ‘句子’]。这里lcut()函数返回的是一个列表类型的分词结果。
  • 精确模式分词

    • jieba.cut()函数提供了精确模式分词,它返回的是一个可迭代的生成器对象。
    import jieba
    text = "中华人民共和国"
    words_generator = jieba.cut(text)
    words = list(words_generator)
    print(words)
    
    • 结果为[‘中华人民共和国’],这种精确模式适合在对文本准确性要求较高的场景下使用,比如文本挖掘中的实体识别等。
  • 全模式分词

    • 使用jieba.lcut()函数并设置参数cut_all = True可以进行全模式分词。全模式会把文本中所有可能的词语都切分出来。
    import jieba
    text = "我们一起学习自然语言处理"
    words = jieba.lcut(text, cut_all=True)
    print(words)
    
    • 可能的结果有[‘我们’, ‘一起’, ‘学习’, ‘自然’, ‘语言’, ‘自然语言’, ‘处理’]等更多的词语组合,这种模式适合在需要获取文本所有可能词汇的场景下使用,比如词汇挖掘。

jieba自定义词典

  • 在实际应用中,jieba 的默认词典可能无法满足所有需求。例如,对于一些特定领域的专业词汇或者新出现的网络词汇,jieba 可能无法正确切分。这时可以通过自定义词典来解决这个问题。
    • 自定义词典的格式一般是每行一个词,词后面可以跟上词频(可选)、词性(可选)。例如,创建一个名为user_dict.txt的自定义词典文件,内容如下:
    人工智能 100 n
    区块链 80 n
    
    • 在代码中加载自定义词典可以使用jieba.load_userdict(“user_dict.txt”)。这样,当对包含 “人工智能”“区块链” 等词汇的文本进行分词时,jieba 就能正确切分这些词了。

jieba实例

import jieba
str = '我们在学习python办公自动化'
jieba.add_word('python办公自动化') #向辞海中添加词
a = jieba.lcut(sentence=str)
print(a)

结果
在这里插入图片描述

如果不向辞海添加python自动化则为:

import jieba
str = '我们在学习python办公自动化'
# jieba.add_word('python办公自动化') #向辞海中添加词
a = jieba.lcut(sentence=str)
print(a)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/952820.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

实训云上搭建集群

文章目录 1. 登录实训云1.1 实训云网址1.2 登录实训云 2. 创建网络2.1 网络概述2.2 创建步骤 3. 创建路由器3.1 路由器名称3.1 创建路由器3.3 查看网络拓扑 4. 连接子网5. 创建虚拟网卡5.1 创建原因5.2 查看端口5.3 创建虚拟网卡 6. 管理安全组规则6.1 为什么要管理安全组规则6…

python-42-使用selenium-wire爬取微信公众号下的所有文章列表

文章目录 1 seleniumwire1.1 selenium-wire简介1.2 获取请求和响应信息2 操作2.1 自动获取token和cookie和agent2.3 获取所有清单3 异常解决3.1 请求url失败的问题3.2 访问链接不安全的问题4 参考附录1 seleniumwire Selenium WebDriver本身并不直接提供获取HTTP请求头(header…

【理论】测试框架体系TDD、BDD、ATDD、MBT、DDT介绍

一、测试框架是什么 测试框架是一组用于创建和设计测试用例的指南或规则。框架由旨在帮助 QA 专业人员更有效地测试的实践和工具的组合组成。 这些指南可能包括编码标准、测试数据处理方法、对象存储库、存储测试结果的过程或有关如何访问外部资源的信息。 A testing framewo…

详细全面讲解C++中重载、隐藏、覆盖的区别

文章目录 总结1、重载示例代码特点1. 模板函数和非模板函数重载2. 重载示例与调用规则示例代码调用规则解释3. 特殊情况与注意事项二义性问题 函数特化与重载的交互 2. 函数隐藏(Function Hiding)概念示例代码特点 3. 函数覆盖(重写&#xff…

计算机系统组成(计算机组成原理 基础)

文章目录: 一:体系结构 1.系统组成 1.1 硬件系统 1.2 软件系统 2.工作原理 2.1 冯诺依曼体系 2.2 指令和指令系统 3.性能指标 二:硬件系统 1.主机 1.1 CPU 1.2 内存 2.外设 2.1 外存 2.2 输入设备 2.3 输出设备 2.4 适配器 …

STM32 : 波特率发生器

波特率发生器 1. 发送器和接收器的波特率 波特率寄存器 (BRR): 在串行通信中,发送器和接收器的波特率是由波特率寄存器(BRR)中的一个值 DIV 来确定的。 2. 计算公式 计算公式: 详细解释 1. 波特率寄存器 (BRR) BRR: 波特率寄存器是一…

全新市场阶段, Plume 生态不断壮大的 RWAfi 版图

加密市场在 2024 年迎来了新的里程碑。BTC 不仅成功推出 ETF,以 BTC 为代表的主流加密货币还在一系列传统金融机构的推动下逐步与主流金融市场接轨。与此同时,随着特朗普成功当选下一任美国总统,他承诺推出一系列友好的加密政策,并…

MySQL的小问题

编码问题 不管官方使用什么编码:latin1、gbk、utf8、utfmb4。统一使用utfmb4 MySQL中的utf8并不是utf-8,它省略了一个字节,只是用三个字节存储所有的符号,utfmb4才是utf-8 远程登录问题: MySQL官方默认没有启动远程…

单片机(MCU)-简单认识

简介: 内部集成了CPU,RAM,ROM,定时器,中断系统,通讯接口等一系列电脑的常用硬件功能。 单片机的任务是信息采集(依靠传感器),处理(依靠CPU)&…

金融项目实战 01|功能测试分析与设计

前置内容:金融项目准备的内容笔记可直接看如下笔记 只看:一、投资专业术语 和 二、项目简介 两部分文章浏览阅读2.3k次,点赞70次,收藏67次。安享智慧理财金融系统测试项目,测试用例,接口测试,金…

vue-cli项目配置使用unocss

在了解使用了Unocss后&#xff0c;就完全被它迷住了。接手过的所有项目都配置使用了它&#xff0c;包括一些旧项目&#xff0c;也跟同事分享了使用Unocss的便捷性。 这里分享一下旧项目如何配置和使用Unocss的&#xff0c;项目是vue2vue-cli构建的&#xff0c;node<20平常开…

5个不同类型的数据库安装

各种社区版本下载官方地址&#xff1a;MySQL :: MySQL Community Downloads 一、在线YUM仓库&#xff08;Linux&#xff09; 选择 MySQL Yum Repository 选择对应版本下载仓库安装包&#xff08;No thanks, just start my download.&#xff09; 下载方法1&#xff1a;下载到本…

《CPython Internals》阅读笔记:p97-p117

《CPython Internals》学习第 7 天&#xff0c;p97-p117 总结&#xff0c;总计 21 页。 一、技术总结 1.词法分析(lexical analysis) 根据《Compilers-Principles, Techniques, and Tools》(《编译原理》第2版)第 5 页&#xff1a;The first phase of a compiler is called …

js逆向说明

一 负载的内容传输用这个格式 Content-Type: multipart/form-data Content-Type 是 HTTP 请求头中的一个字段&#xff0c;它告诉服务器请求体的类型。在这个例子中&#xff0c;Content-Type 的值为 multipart/form-data&#xff0c;这表示请求体采用了 multipart/form-data 格…

什么是负载均衡?NGINX是如何实现负载均衡的?

大家好&#xff0c;我是锋哥。今天分享关于【什么是负载均衡&#xff1f;NGINX是如何实现负载均衡的&#xff1f;】面试题。希望对大家有帮助&#xff1b; 什么是负载均衡&#xff1f;NGINX是如何实现负载均衡的&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源…

spring boot学习第二十三篇:Spring Boot集成RocketMQ

前置条件先安装好RocketMQ 希望在Window10安装rocketMQ并简单使用&#xff0c;可以参考如下文章&#xff1a; Window10安装rocketMQ并简单使用-CSDN博客 1、pom.xml文件里面加上依赖 <dependency><groupId>org.apache.rocketmq</groupId><artifactId&…

OpenCV基础:视频的采集、读取与录制

从摄像头采集视频 相关接口 - VideoCapture VideoCapture 用于从视频文件、摄像头或其他视频流设备中读取视频帧。它可以捕捉来自多种源的视频。 主要参数&#xff1a; cv2.VideoCapture(source): source: 这是一个整数或字符串&#xff0c;表示视频的来源。 如果是整数&a…

使用MATLAB正则表达式从文本文件中提取数据

使用MATLAB正则表达式从文本文件中提取数据 使用Python正则表达式从文本文件中提取数据的代码请看这篇文章使用正则表达式读取文本数据【Python】-CSDN博客 文本数据格式 需要提取 V 后面的数据, 并绘制出曲线. index 1V 0.000000W 0.000000E_theta 0.000000UINV 0.0…

Table-Augmented Generation(TAG):Text2SQL与RAG的升级与超越

当下AI与数据库的融合已成为推动数据管理和分析领域发展的重要力量。传统的数据库查询方式&#xff0c;如结构化查询语言&#xff08;SQL&#xff09;&#xff0c;要求用户具备专业的数据库知识&#xff0c;这无疑限制了非专业人士对数据的访问和利用。为了打破这一壁垒&#x…

怎样使自己处于高能量状态?

在忙碌的生活中&#xff0c;保持高能量状态很关键。以下是一些简单易行的方法。 一、原谅自己&#xff0c;放下过去 别总回想让自己尴尬或犯错的事&#xff0c;这样只会消耗能量。告诉自己“错了就改&#xff0c;别再想”&#xff0c;把精力放在当下和未来。 二、避免内耗&…