nodejs使用nodejieba

Nodejieba是一个基于Node.js平台的中文分词模块,用于将中文文本切分成有意义的词汇。它是结巴中文分词的Node.js版本,结巴分词是一种开源的中文分词工具,广泛应用于中文自然语言处理领域

优点

  1. 高性能: Nodejieba的底层实现采用了C++,通过Node.js的插件机制与JavaScript集成,因此具有较高的性能。这使得Nodejieba在处理大规模文本数据时表现出色。

  2. 支持多种分词模式: Nodejieba支持多种分词模式,包括精确模式、搜索引擎模式和新词识别模式。这使得它适用于不同的应用场景,可以根据需求选择合适的分词模式。

  3. 用户自定义词典: 用户可以通过自定义词典来增加或修改分词器的词汇,以适应特定领域或特定项目的需求。这种灵活性使Nodejieba更适用于定制化的分词任务。

  4. 支持关键词提取: Nodejieba提供了关键词提取的功能,可以帮助用户快速了解文本的主题和重要信息,是文本摘要、主题分析等任务的有力工具。

  5. 支持词性标注: 除了分词功能外,Nodejieba还支持对词汇进行词性标注,为进一步的语义分析提供了基础。

  6. 广泛应用: 作为结巴中文分词的Node.js版本,Nodejieba在中文自然语言处理领域得到了广泛的应用,成为许多项目和应用中的首选分词工具。

  7. 开源: Nodejieba是开源项目,用户可以根据需要自由使用、修改和分发,同时也可以参与到项目的开发和改进中。

安装

  • 官网地址  GitHub - yanyiwu/nodejieba: "结巴"中文分词的Node.js版本
  • 下载命令   下载会很慢,建议使用淘宝镜像
    npm install nodejieba
  • 注意 我这里安装后会抛错 ,由于没有记录,借用一下别人的图,如下:

    解决方法我是按照这个博主的方法在本地编译,编译完成后大概如下图所示
    https://www.bilibili.com/video/BV1HH4y1z7Sg?p=1&vd_source=387b3bf6f7293c29f1cf7f181535349d



    在vscode里面下载本地文件即可
    注意:这个路径为你自己编译后的nodejieba文件路径
    npm install C:/path/to/nodejieba
    
  • 最后,检查是否安装成功
    完成安装后,package.json 文件中会添加 Nodejieba 作为项目的依赖项,而 package-lock.json 文件会记录确切的版本和路径信息。
    示例 package.json 
    "dependencies": {
      "nodejieba": "file:C:/path/to/nodejieba",
      // 其他依赖项...
    }

    示例 package-lock.json
     

    "nodejieba": {
      "version": "file:C:/path/to/nodejieba",
      "resolved": "C:\\path\\to\\nodejieba",
      // 其他信息...
    },
    // 其他依赖项...

使用nodejieba

  • 引入 Nodejieba 模块: 在你的 Node.js 代码中,引入 Nodejieba 模块:
    const nodejieba = require('nodejieba');
  • 初始化分词器: 在开始分词之前,需要初始化分词器。你可以使用 nodejieba.load() 方法初始化默认分词器,以下只是个人用法,可以不用和我一样
    jieba.load({
                userDict: 'C:/path/to/dictionary.txt',  // 添加自定义词典
                stopWordDict:'C:/path/to/stopwords.txt', //加载停用词文件
            });
  • 进行分词: 使用 nodejieba.cut 方法进行分词。该方法接受两个参数,第一个参数是要分词的文本字符串,第二个参数是分词的模式,例如 "cut" 表示精确模式,"cutAll" 表示全模式,"cutForSearch" 表示搜索引擎模式。
    const text = "我爱自然语言处理";
    const result = nodejieba.cut(text);
    console.log(result);

    输出结果类似于
     

    [ '我', '爱', '自然语言', '处理' ]
  • 其他功能
    添加自定义词典
    你可以通过 nodejieba.insertWord(word) 方法向分词器添加自定义词汇:
    nodejieba.insertWord('人工智能');

    关键词提取 Nodejieba 还提供了关键词提取的功能,通过 nodejieba.extract 方法实现,第一个参数为要提取的句子,第二个参数为提取几个关键词
     

    const keywords = nodejieba.extract(text, 5); // 提取前5个关键词
    console.log(keywords);

    比如输入‘怎么获取更多活动积分’,输出结果大概如下,word为关键词,weight为权重

      { word: '积分', weight: 8.28754954559 },
      { word: '获取', weight: 6.91781490051 },
      { word: '活动', weight: 4.71207177215 },
      { word: '怎么', weight: 4.41962335578 }

    进行词性标注使用 nodejieba.tag 方法进行词性标注。该方法接受一个文本字符串作为参数,并返回一个数组,每个元素是一个对象,包含了词汇和对应的词性。
     

    const text = "我爱自然语言处理";
    const taggedWords = nodejieba.tag(text);
    console.log(taggedWords);

    输出结果类似于
     

    [
      { word: '我', tag: 'r' },
      { word: '爱', tag: 'v' },
      { word: '自然语言', tag: 'l' },
      { word: '处理', tag: 'v' }
    ]
  • 释放分词器资源当不再需要使用分词器时,可以通过 nodejieba.release() 方法释放资源:

    nodejieba.release();

记录一下。。。。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/257055.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用栈的特性实现多位计算器

创建一个栈: //定义一个ArrayStack 表示栈 class ArrayStack2 {private int maxSize; //栈的大小private int[] stack; //定义一个栈private int top -1; //定义一个栈顶指针public ArrayStack2(int size) {maxSize size;stack new int[maxSize];}//栈满public …

matplotlib科研绘图之折线图、柱状图、散点图、误差棒

matplotlib折线图例子1 # -*- coding: utf-8 -*- # Time : 2023/12/19 10:56 # Author : 长沙有肥鱼 # FileName: 21.py # Software: PyCharm # Blog : https://blog.csdn.net/weixin_53660567?spm1010.2135.3001.5343# 导入Matplotlib库 import matplotlib import ma…

【经典LeetCode算法题目专栏分类】【第7期】快慢指针与链表

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能AI、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 快慢指针 移动零 class…

azkaban编译时报错的解决方案

大数据单机学习环境搭建(11)Azkaban单机部署,关于Azkaban和gradle下载,本文编译不限于单机solo模式。 一.大多数报错处理 1.1首先操作 1)安装 git yum install git -y 2)替换 azkaban 目录下的 build.gradle 文件的 2处 repositories 信息。改为 阿里…

LVS+Keepalived集群的介绍和搭建

目录 LVSKeepalived集群的介绍 Keepalived及其工作原理 Keepalived体系主要模块及其作用 一个合格的集群应该具备的特性 健康检查(探针)的方式 实验:搭建LVSKeepalived集群 实验准备 实验步骤 LVS 部署 配置节点服务器 实验验证 实…

vs code(Visual Studio Code)使用Remote SSH插件连接不上,反复输入密码

使用Remote SSH插件连接不上,反复输入密码问题解决分为两步 1,点击此处 可以得到配置文件的存放目录,进入硬盘这个目录 打开这个文件,知道你服务器的所在行ip,整行删掉,尝试再次连接 2,如果1不…

用户行为分析遇到的问题-ubantu16,hadoop3.1.3【更新中】

用户行为分析传送门 我的版本 ubantu16 hadoop 3.1.3 habse 2.2.2 hive3.1.3 zookeeper3.8.3 sqoop 1.46/1.47 我sqoop把MySQL数据往hbase导数据时候有问题 重磅:大数据课程实验案例:网站用户行为分析(免费共享) 用户行为分析-小…

32位MCU极致性价比高速风筒方案特点--【其利天下技术】

近年来,伴随着人们消费升级及现代工业技术水平的提升,电吹风市场已经步入了绿色节能、高效多功能化的发展阶段。人们对电吹风的需求和要求都在不断增加。然而,传统电吹风采用交流电机,使用寿命有限,维护不方便&#xf…

ctfshow(web171-web189)

目录 web171 web172 web173 web174 web175 web176 web177 web178 web179 web180 web181 web182 web183 web184 web185 web186 web187 web188 web189 web171 1 and 11 有结果 1 and 12 无结果 字符型注入点 1 order by 3 -- 正常 1 order by 4 -- 报错0 unio…

100G光模块可以插40G端口吗?

传统数据中心主要依托10G网络架构运营。然而,为了适应AI、深度学习、大数据计算等业务的大规模部署需求,下一代数据中心架构正在向25G/100G网络架构转型。在国内,我们已经看到BAT等互联网领军企业实现了这种高带宽网络架构的规模化部署。 构…

字节开源的netPoll多路复用器源码解析

字节开源的netPoll多路复用器源码解析 引言NetPollepoll API原生网络库实现netpoll 设计思路netpoll 对比 go net数据结构 源码解析多路复用池初始化Epoll相关API可读事件处理server启动accept 事件客户端连接初始化客户端连接建立 可读事件等待读取数据 可写事件处理客户端启动…

ADC Buffer数据格式和readDCA1000.m

参考文献 mmwave_sensor_raw_data_capture_using_dca1000_v02Mmwave Radar Device ADC Raw Data CaptureAWR18xx,16xx,14xx,68xx Technical Reference ManualADC Buffer中数据格式有两种,分别是: Interleaved data format (supported only in the 14xx) 按照采样的点数存放,…

深度卷积神经网络的剪枝方法

深度学习领域的一种剪枝技术是“网络瘦身(Network Slimming)”,这是一种旨在深度卷积神经网络(CNN)中实现通道级稀疏性的简单方案。该技术利用批量归一化中的放缩层来有效识别并修剪网络中不重要的通道。本文将详细介绍…

【Linux】进程状态、进程优先级和进程切换

> 作者简介:დ旧言~,目前大二,现在学习Java,c,c,Python等 > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:了解冯诺依曼体系结构与操作系统,掌握…

C : DS二叉排序树之删除(详细思路解答)

Description 给出一个数据序列,建立二叉排序树,并实现删除功能 对二叉排序树进行中序遍历,可以得到有序的数据序列 Input 第一行输入t,表示有t个数据序列 第二行输入n,表示首个序列包含n个数据 第三行输入n个数据…

机器学习:增强式学习Reinforcement learning

收集有标签数据比较困难的时候同时也不知道什么答案是比较好的时候可以考虑使用强化学习通过互动,机器可以自己知道什么结果是好的,什么结果是坏的 Outline 什么是RL Action就是一个functionEnvironment就是告诉这个Action是好的还是坏的 例子 Space i…

01-从JDK源码级别彻底剖析JVM类加载机制

文章目录 类加载运行全过程类加载器和双亲委派机制类加载器初始化过程双亲委派机制为什么要设计双亲委派机制?全盘负责委托机制自定义类加载器 打破双亲委派机制Tomcat打破双亲委派机制Tomcat自定义加载器详解模拟实现Tomcat的JasperLoader热加载 补充:H…

二进制枚举算法

二进制 : 也就是只有0和1的进制表示 ; 二进制枚举算法 一个二进制数 x 可以表示 S 的一个子集,某个二进制位i上为0表示没有选i元素,为1表示选了该元素放入子集,比如13为1101就表示选了0,2,3号元素;对于一个长度为N的序列(也就是包含N个元素)有2^N个子…

建筑模板怎么选?

在建筑领域,选择合适的模板材料对于确保工程质量、提高施工效率和控制成本至关重要。目前,常见的建筑模板主要有钢模板、塑料模板和木模板三种类型,每种都有其独特的优势和局限性。本文将对这些模板类型进行分析,并特别推荐广西生…

沉浸式数字文旅黑科技!用AI数字人升级景区体验

这年头文旅界也太卷了! 在国家文化数字化战略的深入实施下,各地方文旅纷纷打造新型消费场景,以数字文旅提升消费产品的互动性和社交性,增强用户沉浸式体验。 其中,数字人乘着AI大语言模型的东风,被文旅品牌…