实现中文jieba分词

目录

问题描述:

代码实现:


问题描述:

使用中文分词库jieba从给定的文本中提取指定范围内的前后词语。

特殊的,如果前面是‘的’即再向前取一位,这个可根据自己的实际需求做出更改。

代码实现:

import jieba
from pdb import set_trace as stop

def get_front_end_word(text, span):

    text_seg_list = jieba.cut(text, cut_all=False)
    span_seg_list = jieba.cut(span,cut_all=False )
    text_result = " ".join(text_seg_list)
    span_result = " ".join(span_seg_list)
    index = text_result.find(span_result) # 获取最后一个位置
    front_word =text_result[:index].split()[-1] # 获取前一个元素index
    if front_word == '的':
        front_front_word = text_result[:index-2].split()[-1] # 因为有一个空格,所以是-2
        front_word = front_front_word+front_word

    end_word = text_result[index + len(span_result):].split()[0] # 至于后面的0要不要添加,需要依据统计结果而定
    return front_word, end_word


text="比同等价位的惠普华硕宏基的做功要好,但还是很粗糙,性能够用。"
span = "惠普华硕宏基"
front_index, end_index = get_front_end_word(text, span)
print(front_index, end_index)

运行结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/291214.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何获取完整的中国DEM高程数据

地形数据,也叫dem数据,是我们在各项研究中最常使用的数据之一,通过地形数据我们可以分析地表的高程、坡度、坡向等信息! 地形数据,也叫dem数据,是我们在各项研究中最常使用的数据之一,通过地形…

企业无法处理海量的大文件,FTP不可靠该如何进行替代?

FTP是一项标准协议,用于在网络中进行文件传输,最早于1971年问世,被认为是互联网的基石之一。FTP可在不同操作系统和网络环境下实现文件上传和下载,具备方便、迅速和高效的特性,广泛应用于网站建设、软件更新、数据备份…

frp配置内网穿透访问家里的nas

frp配置内网穿透访问家里的nas 需求 家里局域网内有台nas,在去公司的路上想访问它 其内网地址为: http://192.168.50.8:6002 工具 1.frp版本v0.53.2 下载地址: https://github.com/fatedier/frp/releases/download/v0.53.2/frp_0.53.2_li…

万界星空科技低代码平台:制造业数字化转型的捷径

低代码MES系统:制造业数字化转型的捷径 随着制造业的数字化转型,企业对生产管理系统的需求逐渐提高。传统的MES系统实施过程复杂、成本高昂,已经无法满足现代企业的快速发展需求。而低代码搭建MES系统的出现,为企业提供了一种高…

大创项目推荐 深度学习卫星遥感图像检测与识别 -opencv python 目标检测

文章目录 0 前言1 课题背景2 实现效果3 Yolov5算法4 数据处理和训练5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 **深度学习卫星遥感图像检测与识别 ** 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐…

Android 相机库CameraView源码解析 (四) : 带滤镜预览

1. 前言 这段时间,在使用 natario1/CameraView 来实现带滤镜的预览、拍照、录像功能。 由于CameraView封装的比较到位,在项目前期,的确为我们节省了不少时间。 但随着项目持续深入,对于CameraView的使用进入深水区,逐…

借助开源自定义表单,实现流程化办公

实现流程化办公已经成为众多企业的发展目的和愿望,因为可以为企业提质增效、创造良好效益,因此在现代化职场办公中,流程化办公是众多客户追求的发展目的。开源自定义表单拥有较为突出的优势和特点,可以发挥其应有的市场价值和作用…

DBSCAN聚类算法

DBSCAN读作:DB Scan,是英语基于密度的噪声应用空间聚类(Density-Based Spatial Clustering of Applications with Noise)的简写。在理解K-means聚类算法之后再来理解DBSCAN就容易多了。 DBSCAN的步骤如下: 随机从一个…

weblogic中间件安装

1.下载jdk Java Archive Downloads - Java SE 6 下载jdk-6u45-linux-x64.bin 2.配置防火墙和SELINUX Redhat7操作系统配置防火墙,开放应用端口,例如7001; # firewall-cmd --permanent --add-port7001/tcp # firewall-cmd --reload 关闭selinu…

图的遍历(搜索)算法(深度优先算法DFS和广度优先算法BFS)

一、图的遍历的定义: 从图的某个顶点出发访问遍图中所有顶点,且每个顶点仅被访问一次。(连通图与非连通图) 二、深度优先遍历(DFS); 1、访问指定的起始顶点; 2、若当前访问的顶点…

实时计算大作业kafka+zookeeper+storm+dataV

第一章 总体需求 1.1.课题背景 近年来,大数据称为热门词汇,大数据分析随着互联网技术的发展愈加深入电商营销之 中,越来越多的电商企业利用大数据分析技术,利用信息化对产业发展营销方向进行确定, 对电子商务行…

Elasticsearch:Serarch tutorial - 使用 Python 进行搜索 (一)

本实践教程将教你如何使用 Elasticsearch 构建完整的搜索解决方案。 在本教程中你将学习: 如何对数据集执行全文关键字搜索(可选使用过滤器)如何使用机器学习模型生成、存储和搜索密集向量嵌入如何使用 ELSER 模型生成和搜索稀疏向量如何使用…

小微企业的如何使用云计算帮助企业节约成本?

2023 年,云应用市场价值 150 亿美元,200 万亿 GB 的天文数字数据在云上找到了归宿。然而,这些数字只是云技术变革力量的冰山一角。 自 2000 年代初出现以来,云计算彻底改变了我们存储、处理和访问数据和软件的方式。它在 COVID-1…

礼品卡原生卡包预约项目优惠劵余额卡转增小程序开发

礼品卡原生卡包预约项目优惠劵余额卡转增小程序开发 用户登录和注册:用户可以使用手机号码或其他方式登录和注册账户。 资讯浏览:用户可以浏览最新的项目资讯,了解相关的优惠信息和活动信息。 项目预约:用户可以浏览可预约的项目…

SV-7042VP 15W sip网络有源音箱,可外接15W无源副音箱

SV-7042VP 15W sip网络有源音箱,可外接15W无源副音箱 一、描述 SV-7042VP是深圳锐科达电子有限公司的一款壁挂式SIP网络有源音箱,具有10/100M以太网接口,可将网络音源通过自带的功放和喇叭输出播放,可达到功率15W。同时它可以外接一个15W的…

HarmonyOS 应用开发学习笔记 ets组件生命周期

HarmoryOS Ability页面的生命周期 Component自定义组件 ets组件生命周期官放文档 本文讲解 ets组件的生命周期,在此之前大家可以先去了解Ability的生命周期,这两个生命周期有有一定的关联性 在开始之前,我们先明确自定义组件和页面的关系&…

C/C++动态内存分配 malloc、new、vector(简单讲述)

路虽远,行则将至 事虽难,做则必成 今天来主要讲C中动态内存分配 其中会穿插一些C的内容以及两者的比较 如果对C语言中的动态内存分配还不够理解的同学 可以看看我之前的博客:C语言动态分配 在讲解C的动态内存分配之前 我们先讲一下C内存模型 &#xff1…

Java+springboot+vue智慧校园源码,数据云平台Web端+小程序教师端+小程序家长端

技术架构: Javaspringbootvue element-ui小程序电子班牌:Java Android演示自主版权。 智慧校园电子班牌人脸识别系统全套源码,包含:数据云平台Web端小程序教师端小程序家长端电子班牌 学生端。 电子班牌系统又称之为智慧班牌&am…

低代码平台受到欢迎的原因有哪些?

在当今快速发展的数字化时代,应用程序开发已成为企业不可或缺的关键环节。传统的代码开发方式虽然稳定、强大,但对于许多企业来说,其耗时、成本高昂且对技术要求较高,因此,低代码开发被越来越多的企业选择。 低代码开发…

Jenkins的环境部署,(打包、发布、部署、自动化测试)

一、Tomcat环境安装 1.安装JDK(Java环境) JDK下载地址:Java Downloads | Oracle 安装好后在系统环境变量里配置环境变量: ①添加JAVA_HOME 变量名:JAVA_HOME变量值:C:\Program Files\Java\jdk1.8.0_18…