【题目来源】
https://www.acwing.com/problem/content/837/
【题目描述】
维护一个字符串集合,支持两种操作:
● I x 向集合中插入一个字符串 x;
● Q x 询问一个字符串在集合中出现了多少次。
共有 N 个操作,所有输入的字符串总长度不超过 10^5,字符串仅包含小写英文字母。
【输入格式】
第一行包含整数 N,表示操作数。
接下来 N 行,每行包含一个操作指令,指令为 I x 或 Q x 中的一种。
【输出格式】
对于每个询问指令 Q x,都要输出一个整数作为结果,表示 x 在集合中出现的次数。
每个结果占一行。
【数据范围】
1≤N≤2∗10^4
【输入样例】
5
I abc
Q abc
Q ab
I ab
Q ab
【输出样例】
1
0
1
【算法分析】
● 大家都有查英文单词的经验。例如查单词“cat”,需先翻到字典的 c 部分,再依次找到第 2 个字母 a、第 3 个字母 t。一共查找 3 次便可。易知,在字典中查单词,查找次数最多为单词中的字母个数。字典树(Trie 树)就是模拟这个操作的数据结构。
● 字典树(Trie 树)是一种用于快速检索的多叉树结构。在检索过程中,充分利用字符串的公共前缀降低查询的时间开销,最大限度地减少无谓的字符串比较,从而达到快速检索的目的。
● 除根结点外,字典树的每个结点只包含一个字符。
● 字典树中每个结点都有一个序号。字典树的根结点为空结点,序号为 0。
从代码层面来讲,本例中的 sn[p][u] 表示序号为 p 的结点的子结点的序号。cnt[p] 表示以序号为 p 的结点结尾的字符串个数。由于本例规定“字符串仅包含小写英文字母”,故任意结点最多有 26 个分支,进而可以理解代码 sn[p][u] 中的 u 为由字符 a~z 映射而得的 0~25。
● 字典树在实现时,会对每个字符串的结尾设置标记。
字符串“big、do、dog、dob、date、fat”的字典树(Trie 树)如下所示:
图中绿底儿的结点,表示字符串的末尾。
● 字典树常用于词频统计、前缀匹配、字符串检索、字符串排序等。
【算法代码】
#include <bits/stdc++.h>
using namespace std;
const int maxn=1e5+5;
int sn[maxn][26]; //sn[p][u] indicates the serial number
int cnt[maxn]; //number of words ending in the current node
string s;
int idx;
void insert(string s) {
int p=0; //root=0
for(int i=0; i<s.size(); i++) {
int u=s[i]-'a'; //a~z are mapped to 0~25
if(!sn[p][u]) sn[p][u]=++idx;
p=sn[p][u];
}
cnt[p]++;
}
int query(string s) {
int p=0; //root=0
for(int i=0; i<s.size(); i++) {
int u=s[i]-'a'; //a~z are mapped to 0~25
if(!sn[p][u]) return 0;
p=sn[p][u];
}
return cnt[p];
}
int main() {
int n;
cin>>n;
char c;
while(n--) {
cin>>c>>s;
if(c=='I') insert(s);
else cout<<query(s)<<endl;
}
return 0;
}
/*
in:
5
I abc
Q abc
Q ab
I ab
Q ab
out:
1
0
1
*/
【参考文献】
https://blog.csdn.net/hnjzsyjyj/article/details/121345317
https://www.acwing.com/file_system/file/content/whole/index/content/7378828/
https://www.acwing.com/video/260/
https://www.acwing.com/solution/content/27771/