「字符串」详解AC自动机并实现对应的功能 / 手撕数据结构(C++)

目录

前置知识

概述

核心概念:fail指针

作用

构建

图示

Code

成员变量

创建销毁

添加词库

文本扫描

复杂度 

Code


前置知识

在此前,你应该首先了解trie树(字典树)的概念:

「字符串」详解Trie(字典树|前缀树)并实现对应的功能 / 手撕数据结构(C++)

我们建议你先阅读这篇文章,以了解我们实现字典树所用的一些结构,比如trie_node,以及词尾节点存储了整个字符串这些概念。


概述

AC自动机是能以线性时间复杂度对整个文本进行黑名单词汇统计的数据结构。

我们先将黑名单语句词库逐条插入这棵字典树。当我们扫描文本时,就能以一次遍历实现对文本中所有出现的黑名单库中的语句进行统计。

你应该这样认识AC自动机:它首先是一颗字典树,其次是它还有一个成员:fail指针数组

就如同他的名字一样,这个自动机结构会根据输入的内容自动地调整内部的行为,这就是它能以单次扫描就匹配全部文本的奥妙之处。


核心概念:fail指针

作为一颗独特的字典树,AC自动机还有fail指针数组。

作用

它的定义是:trie_node* fail[i];

fail指针,顾名思议,它会在匹配失败时指向另一个可行的节点。

这个数组是干什么的?你可以认为如果我们的匹配失败,那么fail指针就会启动,并跳转到一个具有和当前节点相同字符的节点上,例如fail[5]存储了与5号节点具有相同字符的节点地址。

这样讲似乎很让人不能理解,我们来看这张图:

预先插入了以上敏感词字符串。如果我们要匹配的是“sher”,如果进行朴素匹配那么我们只能得到“she”,但我们知道有三个字符串“she”“he”“her”都在其中,我们怎么才能只扫描一次就得到这些字符串呢?fail指针做了这件事。

当我们匹配到字符'r'时,发现无法继续,此时fail指针发力了,由于位于5号节点,而fail[5]->8号节点的地址,所以我们可以跳转到8号节点继续匹配。

这样一来“she”“he”“her”就全部匹配上了。

下面我们来说说fail指针是怎么构建的。

构建

有三条原则:

1.root节点的fail指针指向自己,此后按层遍历,进行各个层次的fail指针的构建。

2.如果某节点A的fail指针指向另一非root节点B,那么A的字符与B的字符是相同的。如fail[5]->8号节点。

3.如果当前节点child1的父节点father1的fail指针指向另一节点father2,而father2名下恰好有与child1同字符的child2,那么fail[child1]->child2,如果没有同字符的child2,那么fail[child1]->root。

我们重点解释第三条:这是为了保证我们的匹配是有效的:

如果fail[father1]->father2,那么father1与father2是相同字符节点,那么可以保证从child1通过fail指针跳转到child2时,他们前面匹配过得一部分字符串(即father1和father2)是相同的,这样一来,可以保证在我们进行文本匹配时,不会出现3号节点跳转到6号节点(看上图)的现象。

*注意*:也有child1跳转到child2时不存在前面匹配过的一部分字符串,即child1的字符可能是某个敏感词的首字符,这时候跳转到root进行匹配(即第三条规则的最后一句话)。

图示

我们希望你结合以上三条规则在图上画出全部fail指针,在此我们给出答案:

Code

node->idx代表节点编号,它同时担任了fail指针数组下标的功能。

std::vector <trie_node*> fail;
void bulid_fail() {
	fail.resize(val_size,root);
	std::queue<trie_node*>que;que.push(root);
	while (!que.empty()) {
		int len = que.size();
		while (len--) {
			trie_node* node = que.front(); que.pop();
			for (int i = 0; i < branches; i++) {
				trie_node*& father= node;
				trie_node*& child = node->next[i];
				if (child != nullptr) {
					que.push(child);
					if (fail[father->idx]->next[i] != nullptr&&fail[father->idx]->next[i]!=child)
						fail[child->idx] = fail[father->idx]->next[i];
				}
			}
		}
	}
	//int i = 0;
	//for (const trie_node* node : fail)std::cout << i++ << "->" << node->idx << std::endl;
}

接下来,我们封装AC_automaton类,实现AC自动机的基本功能。(Code和测试案例附后)


成员变量

ac自动机以私有方式继承trie树,并封装std::vector <trie_node*> fail指针。

class AC_automaton:private trie{
private:
	std::vector <trie_node*> fail;
    ...
public:
    ...
	}
};

创建销毁

提供三种构造,一种析构函数,。

这些内容均于「字符串」详解Trie(字典树|前缀树)并实现对应的功能 / 手撕数据结构(C++)中提及。

我们删除了复制构造和复制赋值等于号,以防止两份AC自动机的fail指针指向同一组地址。

AC_automaton(int branch = 128) :trie(branch), fail(1, root) {};
AC_automaton(const trie& data) :trie(data), fail(1,root) {
	bulid_fail();
};
AC_automaton(const AC_automaton& another) = delete;
AC_automaton(const std::initializer_list<std::string> ini_list) :trie(ini_list), fail(1, root) {
	bulid_fail();
}
~AC_automaton() {};
AC_automaton& operator=(const AC_automaton& another) = delete;

添加词库

提供insert_blackedlist与它的重载,支持单条语句和多语句插入。

随后调用build_fail重建fail指针。

void insert_blacklist(const std::string str) {
	trie::insert(str);
	bulid_fail();
}
void insert_blacklist(const std::vector<std::string> strs) {
	trie::insert(strs);
	bulid_fail();
}

文本扫描

文本扫描是AC自动机的另一个核心部分,它是fail指针的具体应用。

初始化指针p指向根节点。text为待扫描文本。

对于这个流程,我们总结为以下几点:

1.当p指向根节点并且黑名单字符串库不存在当前text[i]开头的字符,那么跳过当前字符。

2.当p指针指向的节点储存了str黑名单字符串,将其加入统计结果。

3.当p指针无法继续向下匹配,启动fail指针,前往fail[p->idx](p->idx表示当前节点的序号,fail[p->idx]存储当前节点的跳转位置)

*注意*:因为跳转后的节点字符与跳转前的节点字符相同,此时请不要向后移动text文本字符,即不要进行i++操作,这会导致匹配错位。

4.脱离循环后将p位置可能存在的字符串加入统计结果,以及p位置的fail指针指向的节点也可能有字符串,他们都需要加入统计结果。这是由于p抵达最后一个字符时循环已经结束,并且fail指针有着p的相同前缀以及相同字符,他们都有可能成为统计结果。

std::vector<std::string> query(std::string text) {
	std::vector<std::string> ans;
	trie_node* p = root;
	const int len = text.size();
	for (int i = 0; i < len;) {
		if (p == root && p->next[text[i]] == nullptr)i++;
		if (p->str.empty()==false)ans.push_back(p->str);
		if (p->next[text[i]] != nullptr)p = p->next[text[i++]];
		else p = fail[p->idx];
	}
	if (p->str.empty() == false)ans.push_back(p->str);
	if(fail[p->idx]->str.empty()==false); ans.push_back(fail[p->idx]->str);
	return ans;
}

复杂度 

时间复杂度:插入:O(n*m) 扫描:O(m)

空间复杂度:插入:O(n*m) 扫描:O(1)

n:插入字符串数目

m:插入/待扫描字符串长度


Code

#include <queue>
#include "trie.h"
#ifndef AC_AUTOMATON
#define AC_AUTOMATON
class AC_automaton:private trie{
private:
	std::vector <trie_node*> fail;
	void bulid_fail() {
		fail.resize(val_size,root);
		std::queue<trie_node*>que;que.push(root);
		while (!que.empty()) {
			int len = que.size();
			while (len--) {
				trie_node* node = que.front(); que.pop();
				for (int i = 0; i < branches; i++) {
					trie_node*& father= node;
					trie_node*& child = node->next[i];
					if (child != nullptr) {
						que.push(child);
						if (fail[father->idx]->next[i] != nullptr&&fail[father->idx]->next[i]!=child)
							fail[child->idx] = fail[father->idx]->next[i];
					}
				}
			}
		}
		//int i = 0;
		//for (const trie_node* node : fail)std::cout << i++ << "->" << node->idx << std::endl;
	}
public:
	AC_automaton(int branch = 128) :trie(branch), fail(1, root) {};
	AC_automaton(const trie& data) :trie(data), fail(1,root) {
		bulid_fail();
	};
	AC_automaton(const AC_automaton& another) = delete;
	AC_automaton(const std::initializer_list<std::string> ini_list) :trie(ini_list), fail(1, root) {
		bulid_fail();
	}
	~AC_automaton() {};
	AC_automaton& operator=(const AC_automaton& another) = delete;
	void insert_blacklist(const std::string str) {
		trie::insert(str);
		bulid_fail();
	}
	void insert_blacklist(const std::vector<std::string> strs) {
		trie::insert(strs);
		bulid_fail();
	}
	std::vector<std::string> query(std::string text) {
		std::vector<std::string> ans;
		trie_node* p = root;
		const int len = text.size();
		for (int i = 0; i < len;) {
			if (p == root && p->next[text[i]] == nullptr)i++;
			if (p->str.empty()==false)ans.push_back(p->str);
			if (p->next[text[i]] != nullptr)p = p->next[text[i++]];
			else p = fail[p->idx];
		}
		if (p->str.empty() == false)ans.push_back(p->str);
		if(fail[p->idx]->str.empty()==false); ans.push_back(fail[p->idx]->str);
		return ans;
	}
};
#endif

测试 

#include <iostream>
#include "AC_automaton.h"
using namespace std;
int AC_automaton_test() {
	AC_automaton ACA = { "say","she","shy","he","her","hee","ee"};
	vector<string>&& ans = ACA.query("sherhee");

	cout << "-----------------test-----------------" << endl;
	for (const string& str : ans)cout << str << endl;;
	return 0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/871919.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言贪吃蛇之BUG满天飞

C语言贪吃蛇之BUG满天飞 今天无意间翻到了大一用C语言写的贪吃蛇&#xff0c;竟然还标注着BUG满天飞&#xff0c;留存一下做个纪念&#xff0c;可能以后就找不到了 /* 此程序 --> 贪吃蛇3.0 Sur_流沐 当前版本&#xff1a; Bug满天飞 */ #include<stdio.h> #includ…

Chat App 项目之解析(二)

Chat App 项目介绍与解析&#xff08;一&#xff09;-CSDN博客文章浏览阅读76次。Chat App 是一个实时聊天应用程序&#xff0c;旨在为用户提供一个简单、直观的聊天平台。该应用程序不仅支持普通用户的注册和登录&#xff0c;还提供了管理员登录功能&#xff0c;以便管理员可以…

xlsx表格-A列的值需要从C列中匹配到然后输出C列旁边D列的值,怎么写公式?

公式&#xff1a; IFERROR(VLOOKUP(A1, C:D, 2, FALSE), "") 解释&#xff1a; 在VLOOKUP函数中&#xff0c;2表示要返回的列的索引。具体来说&#xff0c;VLOOKUP函数的语法如下&#xff1a; VLOOKUP(lookup_value, table_array, col_index_num, [range_lookup])…

微服务的保护

一、雪崩问题及解决方案 1.雪崩问题 微服务之间&#xff0c;一个微服务依赖多个其他的微服务。当一个微服务A依赖的一个微服务B出错时&#xff0c;微服务A会被阻塞&#xff0c;但其他不依赖于B的微服务不会受影响。 当有多个微服务依赖于B时&#xff0c;服务器支持的线程和并…

入门 - Vue中使用axios原理分析及解决前端跨域问题

1. 什么是Axios&#xff1f; Axios&#xff08;ajax i/o system&#xff09;&#xff0c;是Vue创建者主推的请求发送方式&#xff0c;因其简单的配置与良好的性能被前端爱好者所喜爱。众所周知&#xff0c;在进行网页设计时经常需要从后端拿数据&#xff0c;在Web应用初期会将…

python之matplotlib (1 介绍及基本用法)

介绍 matplotlib是Python中的一个绘图库&#xff0c;它提供了一个类似于 MATLAB 的绘图系统。使用matplotlib你可以生成图表、直方图、功率谱、条形图、错误图、散点图等。matplotlib广泛用于数据可视化领域&#xff0c;是 Python 中最著名的绘图库之一。 同样matplotlib的安…

golang实现一个简单的rpc框架

前言 RPC在分布式系统中经常使用&#xff0c;这里写一个简单的demo实践一下。 code 先生成 go.mod 文件 go mod init rpc-try01定义方法 package model// Args 是 RPC 方法的参数结构体 type Args struct {A, B int }// Arith 定义了一个简单的算术服务 type Arith struct{…

:class的用法及应用

参考小满视频 在同一个标签中&#xff0c;class只能有一个&#xff0c;:class也只能有一个 :class的用法 1. :class “非响应式的变量”&#xff08;一般不使用&#xff0c;和写死了一样&#xff09; const a "style1" <span :class"a"></spa…

python-逆序数(赛氪OJ)

[题目描述] 在一个排列中&#xff0c;如果一对数的前后位置与大小顺序相反&#xff0c;即前面的数大于后面的数&#xff0c;那么它们就称为一个逆序。一个排列中逆序的总数就称为这个排列的逆序数。比如一个元素个数为 4 的数列&#xff0c;其元素为 2,4,3,1&#xff0c;则 (2,…

Stable Diffusion 使用详解(8)--- layer diffsuion

背景 layer diffusion 重点在 layer&#xff0c;顾名思义&#xff0c;就是分图层的概念&#xff0c;用过ps 的朋友再熟悉不过了。没使用过的&#xff0c;也没关系&#xff0c;其实很简单&#xff0c;本质就是各图层自身的编辑不会影响其他图层&#xff0c;这好比OS中运行了很多…

使用 Python构建 Windows 进程管理器应用程序

在这篇博客中&#xff0c;我们将探讨如何使用 wxPython 构建一个简单的 Windows 进程管理器应用程序。这个应用程序允许用户列出当前系统上的所有进程&#xff0c;选择和终止进程&#xff0c;并将特定进程保存到文件中以供将来加载。 C:\pythoncode\new\manageprocess.py 全部…

RabbitMQ实现多线程处理接收消息

前言&#xff1a;在使用RabbitListener注解来指定消费方法的时候&#xff0c;默认情况是单线程去监听队列&#xff0c;但是这个如果在高并发的场景中会出现很多个任务&#xff0c;但是每次只消费一个消息&#xff0c;就会很缓慢。单线程处理消息容易引起消息处理缓慢&#xff0…

推荐算法实战-五-召回(上)

一、传统召回算法 &#xff08;一&#xff09;基于物料属性的倒排索引 在离线时&#xff0c;将具有相同属性的物料集合起来&#xff0c;根据一些后验统计指标将物料排序。 当一个用户在线交互发出请求后&#xff0c;提取用户的兴趣标签&#xff0c;根据标签检索相应物料集合…

直方图均衡化

概念 直方图均衡化是图像处理领域中利用图像直方图对对比度进行调整的方法&#xff0c;通过拉伸像素强度分布范围来增强图像对比度。 原理 均衡化指的是把一个分布 (给定的直方图) 映射 到另一个分布 (一个更宽更统一的强度值分布)&#xff0c;从而令强度值分布会在整个范围内…

CSS知识点详解:div盒子模型

盒子模型&#xff1a; 边框&#xff1a; border-color&#xff1a;边框颜色 border-width&#xff1a;边框粗细 1.thin 2.medium 3.thick 4.像素值 border-width:5px ; border-width:20px 2px; border-width:5px 1px 6px; border-width:1px 3px 5px 2px; 这个简写属性…

Java二十三种设计模式-责任链模式(17/23)

责任链模式&#xff1a;实现请求处理的灵活流转 引言 在这篇博客中&#xff0c;我们深入探讨了责任链模式的精髓&#xff0c;从其定义和用途到实现方法&#xff0c;再到使用场景、优缺点、与其他模式的比较&#xff0c;以及最佳实践和替代方案&#xff0c;旨在指导开发者如何…

基于springboot框架的电影订票系统_wqc3k

TOC springboot611基于springboot框架的电影订票系统_wqc3k--论文 绪 论 1.1研究背景和意义 随着科学技术的不断发展&#xff0c;计算机现在已经成为了社会的必需品&#xff0c;人们通过网络可以获得海量的信息&#xff0c;这些信息可以和各行各业进行关联&#xff0c;电影…

Selenium + Python 自动化测试22(PO+数据驱动)

我们的目标是&#xff1a;按照这一套资料学习下来&#xff0c;大家可以独立完成自动化测试的任务。 上一篇我们讨论了PO模式和unittest框架结合起来使用。 本篇文章我们综合一下之前学习的内容&#xff0c;如先将PO模式、数据驱动思想和我们生成HTML报告融合起来&#xff0c;综…

如何应对突发技术故障和危机:开发团队的应急策略

开发团队如何应对突发的技术故障和危机&#xff1f; 在数字化时代&#xff0c;软件服务的稳定性对于企业至关重要。然而&#xff0c;即使是大型平台&#xff0c;如网易云音乐&#xff0c;也可能遇到突发的技术故障。网页端出现502 Bad Gateway 报错&#xff0c;且App也无法正常…

如何生成随机数(通过rand函数,srand函数,time函数深入讲解)

目录 1. 随机数的生成 2. srand函数 3. time函数 4. 设置随机数的范围 1. 随机数的生成 既然是猜数字游戏&#xff0c;那么最终的数字答案肯定是重要的&#xff0c;我们要如何实现这个随机数的生成呢&#xff1f; 在这个功能上&#xff0c;C语言提供了一个函数叫rand&…