DFA算法实现敏感词过滤

DFA算法实现敏感词过滤

需求:检测一段文本中是否含有敏感词。

比如检测一段文本中是否含有:“滚蛋”,“滚蛋吧你”,“有病”,

可使用的方法有:

  • 遍历敏感词,判断文本中是否含有这个敏感词。
for (keyword in [“滚蛋”、“滚蛋吧你”、“有病”]) {
    if (text.indexOf(keyword) != -1) {
        return true;
    }
}
return false;
  • 使用正则表达式
Pattern pattern = Pattern.compile("滚蛋|滚蛋吧你|有病"); // 编写正则表达式
Matcher matcher = pattern.matcher(text); // 编写正则表达式
return matcher.matches(); 

以上两个方法,随着敏感词的增加,效率会越来越低。

而我们使用DFA算法只需遍历一遍文本,就可以找出文本中所有敏感词。

DFA算法

我先大致讲讲DFA算法是怎么做到敏感词过滤的。

DFA查找过程

  • DFA算法会维护一个map结构的敏感词库

    map结构就是一个个key、value。在一个key,value中,【key里装的是敏感词的首个字符】,【value又是一个map结构】,这个value里一般存储两对key,value:一对key,value的key是isEnd变量,value为0表示这个字符不是这个敏感词的最后一个字符;value为1表示这个字符是这个敏感词的最后一个字符。另一对key,value的key里装的则是下一个字符,value则又是一个map结构……;

    也就是说对于每个敏感词的一个字符中,都记录着这个字符是否为最后一个,如果不是最后一个的话还记录下一个字符的信息。

    在这里插入图片描述

    画成树的结构就是这样:
    在这里插入图片描述

  • 遍历文本中的每个字符,【此时的map的key都是敏感词的第一个字符】。

  • 如果map.get(这个字符)不为空,表示这个字符可能是敏感词的第一个字符

  • 获取这个敏感词字符的下一个字符信息,和isEnd信息。【此时的map的key是下一个字符】。判断isEnd是否为1,为1表示匹配到敏感词,结束。

  • 不为1,继续遍历文本的下一个字符,判断map.get(这个字符)是否为空。

  • 如果不为空,获取这个敏感词字符的下一个字符信息,和isEnd信息。【此时的map的key是下一个字符】。判断isEnd是否为1,为1表示匹配到敏感词,结束。

  • 不为1,……

  • 直到isEnd为1

上面的步骤归纳起来,一个循环主要做的就是

  • map.get(这个字符)
  • 是否为空,不为空,获取这个敏感词字符的下一个字符信息和isEnd信息。如果isEnd为1,结束
  • 继续循环遍历。

经过上述步骤,就可以匹配到一个敏感词,如果文本中有多个敏感词炸糕?将文本中的每个字符作为初始字符,都经过上面步骤的匹配,最终都可以找到文本中包含的所有敏感词。

敏感词库初始化

知道了大致匹配的过程后,就是要构建一个敏感词库,也就是给你一堆敏感词,构建一个map结构。如下图:

在这里插入图片描述

与匹配差不多思路:

  • 遍历敏感词的每一个字符

  • curMap一开始就是表示敏感词一个字符的map结构

  • Map<String, Object> wordMap = (Map<String, Object>) curMap.get(key);

  • 如果wordMap 为空,则建一个wordMap ,这个wordMap 涵盖两个信息:下一个字符、isEnd

  • 不管wordMap 为不为空,curMap被赋值为wordMap ,表示下一个字符的map结构。

  • ……循环

/**
 * 生成敏感词库
 * @param words
 * @return
 */
private Map<String, Object> handleToMap(Collection<String> words) {
    if (words == null) {
        return null;
    }

    // map初始长度words.size(),整个字典库的入口字数(小于words.size(),因为不同的词可能会有相同的首字)
    Map<String, Object> map = new HashMap<>(words.size());
    // 遍历过程中当前层次的数据
    Map<String, Object> curMap = null;
    Iterator<String> iterator = words.iterator();

    while (iterator.hasNext()) {
        String word = iterator.next();
        curMap = map;
        int len = word.length();
        for (int i =0; i < len; i++) {
            // 遍历每个词的字
            String key = String.valueOf(word.charAt(i));
            // 当前字在当前层是否存在, 不存在则新建, 当前层数据指向下一个节点, 继续判断是否存在数据
            Map<String, Object> wordMap = (Map<String, Object>) curMap.get(key);
            if (wordMap == null) {
                // 每个节点存在两个数据: 下一个节点和isEnd(是否结束标志)
                wordMap = new HashMap<>(2);
                wordMap.put("isEnd", "0");
                curMap.put(key, wordMap);
            }
            curMap = wordMap;
            // 如果当前字是词的最后一个字,则将isEnd标志置1
            if (i == len -1) {
                curMap.put("isEnd", "1");
            }
        }
    }

    return map;
}
/**
 * 文本中是否含有敏感词
 * @param text
 * @param beginIndex
 * @return
 */
private int checkWord(String text, int beginIndex) {
    if (dictionaryMap == null) {
        throw new RuntimeException("字典不能为空");
    }
    boolean isEnd = false;
    int wordLength = 0;
    Map<String, Object> curMap = dictionaryMap;
    int len = text.length();
    // 从文本的第beginIndex开始匹配
    for (int i = beginIndex; i < len; i++) {
        String key = String.valueOf(text.charAt(i));
        // 获取当前key的下一个节点
        curMap = (Map<String, Object>) curMap.get(key);
        if (curMap == null) {
            break;
        } else {
            wordLength ++;
            if ("1".equals(curMap.get("isEnd"))) {
                isEnd = true;
            }
        }
    }
    if (!isEnd) {
        wordLength = 0;
    }
    return wordLength;
}

/**
 * 获取匹配到的敏感词和命中次数
 * @param text
 * @return
 */
public Map<String, Integer> matchWords(String text) {
    Map<String, Integer> wordMap = new HashMap<>();
    int len = text.length();
    for (int i = 0; i < len; i++) {
        int wordLength = checkWord(text, i);
        if (wordLength > 0) {
            String word = text.substring(i, i + wordLength);
            // 添加敏感词匹配次数
            if (wordMap.containsKey(word)) {
                wordMap.put(word, wordMap.get(word) + 1);
            } else {
                wordMap.put(word, 1);
            }

            i += wordLength - 1;
        }
    }
    return wordMap;
}
put(word, wordMap.get(word) + 1);
            } else {
                wordMap.put(word, 1);
            }

            i += wordLength - 1;
        }
    }
    return wordMap;
}

参考:
https://www.zhihu.com/collection/922374522
https://www.jianshu.com/p/e58a148eecc5

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/910718.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

索引基础篇

前言 通过本篇博客的学习&#xff0c;我希望大家可以了解到 “索引” 是为了提高数据的查询效率。 索引的介绍 索引是为了提高查询数据效率的数据结构 索引&#xff08;index&#xff09;是帮助MySQL高效获取数据的数据结构(有序)。在数据之外&#xff0c;数据库系统还维护着…

【设计模式系列】外观模式(十四)

一、什么是外观模式 外观模式&#xff08;Facade Pattern&#xff09;是一种结构型设计模式&#xff0c;其核心目的是为一个复杂的子系统提供一个简化的接口。这种模式通过定义一个外观类来封装子系统内复杂的操作&#xff0c;隐藏系统内部的复杂性&#xff0c;并向客户端提供…

哪些因素会影响 DC/DC 转换电路快速测试的性能?-纳米软件

DC/DC 转换电路在现代电子设备中起着至关重要的作用&#xff0c;其性能的快速准确测试对于确保电子系统的可靠性和稳定性至关重要。然而&#xff0c;有许多因素会影响 DC/DC 转换电路快速测试的性能。 电路复杂性和参数多样性 单片 DC/DC 转换器由于功能模块和参数复杂性&…

从0开始深度学习(25)——多输入多输出通道

之前我们都只研究了一个通道的情况&#xff08;二值图、灰度图&#xff09;&#xff0c;但实际情况中很多是彩色图像&#xff0c;即有标准的RGB三通道图片&#xff0c;本节将更深入地研究具有多输入和多输出通道的卷积核。 1 多输入通道 当输入包含多个通道时&#xff0c;需要…

2025天津市考8日报名,建议收藏好报名流程

天津市2025年招考2043名公务员公告 35周岁以下&#xff08;1988年11月至2006年11月期间出生&#xff09;&#xff0c;2025年应届硕士、博士研究生报考的&#xff0c;年龄可放宽到40周岁&#xff08;1983年11月以后出生&#xff09;&#xff1b; 报名时间&#xff1a;2024年11月…

25中海油笔试测评春招秋招校招暑期实习社招笔试入职测评行测题型微测网题型分享

中海油笔试一般采用线上机考的形式。考试时间为 120 分钟&#xff0c;满分 100 分。笔试内容主要包括思想素质测评和通用能力测评两个科目。以下是具体介绍&#xff1a; 1. 思想素质测评&#xff1a; ✅价值观&#xff1a;考察考生对工作、职业、企业等方面的价值观念和态度&…

使用Docker Compose构建多容器应用

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 使用Docker Compose构建多容器应用 引言 Docker Compose 简介 安装 Docker Compose 创建基本配置 运行多容器应用 查看服务状态 …

【STM32】项目实战——OV7725/OV2604摄像头颜色识别检测(开源)

本篇文章分享关于如何使用STM32单片机对彩色摄像头&#xff08;OV7725/OV2604&#xff09;采集的图像数据进行分析处理&#xff0c;最后实现颜色的识别和检测。 目录 一、什么是颜色识别 1、图像采集识别的一些基本概念 1. 像素&#xff08;Pixel&#xff09; 2. 分辨率&am…

精心整理教育研究专题数据资源大全-最新出炉_附下载链接

教育研究专题数据资源大全V1.0 下载链接-点它&#x1f449;&#x1f449;&#x1f449;&#xff1a;教育研究专题数据资源大全-最新出炉.zip 资源介绍 一、中国教育统计年鉴面板数据 简介&#xff1a;《中国教育统计年鉴》是由教育部发展规划司根据全国各省、自治区、直辖市…

【论文速读】| PathSeeker:使用基于强化学习的越狱攻击方法探索大语言模型的安全漏洞

基本信息 原文标题: PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach 原文作者: Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li 作者单位: Beihang University, Nany…

越权访问漏洞

V2Board Admin.php 越权访问漏洞 ## 漏洞描述 V2board面板 Admin.php 存在越权访问漏洞&#xff0c;由于部分鉴权代码于v1.6.1版本进行了修改&#xff0c;鉴权方式变为从Redis中获取缓存判定是否存在可以调用… V2Board Admin.php 越权访问漏洞 漏洞描述 V2board面板 Admin.ph…

27.旅游推荐管理系统(基于springboot和vue)

目录 1.系统的受众说明 2. 系统需求分析 2.1 任务概述 2.2 功能性需求 2.3 非功能性需求 2.3.1正确性需求 2.3.2安全性需求 2.3.3界面需求 2.3.4时间特殊性需求 2.3.5稳定性需求 2.3.6故障处理能力需求 2.4 开发技术简介 2.4.1 开发工具简介 2.4.2 开发技术…

CCS下载安装(以12.3.0版本为例)

Code Composer Studio 是一个集成开发环境 (IDE)&#xff0c;简称CCS软件。支持 TI 的微控制器和嵌入式处理器产品的开发。Code Composer Studio 包含一整套用于开发和调试嵌入式应用程序的工具。 CCS9.3.0及以上版本不需要License文件&#xff0c;但是CCS旧版本比如CCS5.5.0需…

基于单片机的变频空调系统设计(论文+源码)

1系统总体方案设计 本次基于单片机的变频空调系统设计&#xff0c;选用STC89C52单片机作为系统的主控核心&#xff0c;结合DHT11温湿度传感器实现家居环境中温湿度数据的检测&#xff0c;并设有自动和手动两种模式&#xff0c;在自动模式下&#xff0c;系统会根据按键设定的温…

Visual Studio Code从安装到正常使用

Visual Studio Code的汉化 下载的Visual Studio Code的话可以去应用商店也可以去官网下载。 Visual Studio Code只是一个编译器&#xff0c;不具备编译器功能。因此需要下载一个编译器MinGW MinGW的安装 官网链接MinGW官网链接 一步到位的链接 添加环境变量 进入cmd界面…

图神经网络初步实验

实验复现来源 https://zhuanlan.zhihu.com/p/603486955 该文章主要解决问题&#xff1a; 1.加深对图神经网络数据集的理解 2.加深对图神经网络模型中喂数据中维度变化的理解 原理问题在另一篇文章分析&#xff1a; 介绍数据集&#xff1a;cora数据集 其中的主要内容表示为…

雪花算法生成的ID在返回给前端之后和生成的不一样,到底是什么原因?

一、背景&#xff1a; 最近在做项目的时候发现用雪花算法生成的id传给前端以后跟生成的不一样&#xff0c;就纳闷&#xff0c;在想为什么会出现这样的问题&#xff1f; 二、问题分析&#xff1a; 最开始以为是序列化的问题导致的仔细对比以后发现前端是后几位不一样都是0&…

【大数据学习 | kafka高级部分】kafka中的选举机制

controller的选举 首先第一个选举就是借助于zookeeper的controller的选举 第一个就是controller的选举&#xff0c;这个选举是借助于zookeeper的独享锁实现的&#xff0c;先启动的broker会在zookeeper的/contoller节点上面增加一个broker信息&#xff0c;谁创建成功了谁就是主…

js例轮播图定时器版

要求 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta http-equiv"X-UA-Compatible" content"IEedge" /><meta name"viewport" content"widthdevice-width, ini…

jvm学习笔记-轻量级锁内存模型

一&#xff0c;轻量级锁 LockRecord的那个第一个成员变量是拷贝对应锁定了的java对象资源的MarkWord&#xff0c;Lock Record有一个Ptr指针刚开始指向自己&#xff0c;后面这个指针存储在锁定资源的java对象的markword中&#xff0c;后续可以通过java对象的MarkWord快速定位到…