Python - 深夜数据结构与算法之 Trie

目录

一.引言

二.Tire 树简介

1.基本结构

2.额外信息

3.节点实现

4.存储与查找

5.应用场景

6.基础实现

三.经典算法实战

1.Trie-Tree [208]

2.Word-Search [79]

3.Word-Search-ii [212]

四.总结


一.引言

Trie 树即字典树,又称为单词查找树或键树,是一种树形结构,常用于统计,排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计。

◆ 优点 - 利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

◆ 思想 - 其核心思想是空间换时间,通过拆分字符串并存储换取查询的高效率

二.Tire 树简介

1.基本结构

注意这里 Trie 树不是二叉树,而是一颗多叉树,具体分多少叉要根据我们的实际场景来定。例如我们 Trie 树要存储所有英文单词,那理论上每一个父结点 Parent Node 要分 26 个子节点 Child Node,因为英文有 26 个英文字母。Trie 树具备如下基本性质:

结构本身不存储完整单词,而是存储每个细粒度的拆分项,例如单词搜索则存储字母

结从根结点到某一结点,将路径上的字符相连,为该结点对应的字符串

每个结点的所有子结点路径代表的字符都不相同,这里其实代表没有重复字符串结点

2.额外信息

每个 Node 结点除了存储对应的字符外,其还可以具备其自己的属性,最简单的,上面的示例中给出了对应字符串的出现频次,这可以作为搜索推荐的参考依据,如果是代码,其额外信息可以作为一个 Class 存在,内部包含该节点多个属性,例如字符串对应的领域、频率、长度、适用范围等等。 说到词频,也让我们想起来 Word2vec 里用到的霍夫曼树,其在构造编码时也考虑了词频的因素,使得词频高的词可以尽可能快的找到。

3.节点实现

 这里对于每个 Node 而言,结点就不存在 Left 和 Right 的概念了,而是直接对应下一个可能的字符串,选定哪个字符串,就到下一个字符串对应的 Node 上。如果我们认为是简单单词且不区分大小写,我们可以认为每个 Node 最多有 26 个分叉结点,但如果有更多字符或特殊符号的加入,那么多叉树会有更多的分叉。如果一个结点指向 null 代表其没有儿子结点,此时连接其路径上的字符即可得到该结点对应的字符串表示。

4.存储与查找

◆ 存储

假设是上面提到的英文单词查找,且不区分大小写,此时最坏的情况为 26 叉树,每分叉一次,一个结点就多 26 个叉,这样的指数分叉对于存储空间还是有很大的消耗。

◆ 查找

相比于存储的消耗,查找的速度会快很多,因为查找的次数是和单词的字符量匹配的,常见的英文单词字符量在 10 左右,那我们只需要 10 次的常数时间就可以查到,以 you 为例,只需要 3 步就可以找到。但如果是用二分查找等方法,由于整个字典集的数量 n 特别大,即使排好序也是 Log(n) 的查找效率,会比 Trie 树查找次数多很多。这也体现了我们开头说的 Trie 树的核心思想: 空间换时间。其实这个概念不光是 Trie 树,很多算法都会用到这个思想,将时间复杂度降低,空见复杂度提升。

5.应用场景

因为 Trie 树公共前缀的使用, 所以它十分适合搜索与输入法拓展等领域,当我们输入了前面的公共前缀,其可以根据词频很容易的给出后面的候选。 实际场景中应用较多的是 Aho-Corasick 算法,其适用于确定性的、完全匹配的字符串搜索场景,它能够高效地检测出预定义的关键词是否在给定文本中出现。针对每一次输入,算法都能找出所有存在的关键词匹配。

6.基础实现

 根据 word 的第一个字母,for 循环判断后面的字母也是否存在。

三.经典算法实战

1.Trie-Tree [208]

实现 Tire 树: https://leetcode.cn/problems/implement-trie-prefix-tree/

◆ 题目分析

根据上面基础实现的伪代码实现即可。注意题目要求,search 要求完整的包含这个单词,即 is_end = True,startswitg 则不需要,主要这里有一个不同的点。

◆ Trie 实现

class Trie(object):

    def __init__(self):
        self.children = {}  # 存储子节点
        self.is_end = False  # 是否结尾

    def insert(self, word):
        """
        :type word: str
        :rtype: None
        """
        node = self
        for char in word:
            if char not in node.children:
                node.children[char] = Trie()
            node = node.children[char]
        node.is_end = True

    def search(self, word):
        """
        :type word: str
        :rtype: bool
        """
        node = self
        for char in word:
            if char in node.children:
                node = node.children[char]
            else:
                return False
        return node.is_end

    def startsWith(self, prefix):
        """
        :type prefix: str
        :rtype: bool
        """
        node = self
        for char in prefix:
            if char in node.children:
                node = node.children[char]
            else:
                return False
        return True


if __name__ == '__main__':
    tire = Trie()
    tire.insert("hello")
    print(tire.search("hel"))
    print(tire.startsWith("hel"))

2.Word-Search [79]

单词搜索: https://leetcode.cn/problems/word-search/

◆ 题目分析

通过回朔,遍历 board 中的每个点 i、j,为了防止重复访问,对于访问过的节点要增加 # 标记,这里什么标记都可以,只要能够区分即可,注意在回朔的时候恢复原有状态。

◆ 回朔实现

class Solution(object):
    def exist(self, board, word):
        """
        :type board: List[List[str]]
        :type word: str
        :rtype: bool
        """

        M, N = len(board), len(board[0])

        def dfs(row, col, cur):
            # 匹配到最后一个元素了,找到了
            if cur == "":
                return True

            # 四通遍历
            for r, c in ((row - 1, col), (row + 1, col), (row, col - 1), (row, col + 1)):
                # 边界条件
                if not (0 <= r < M and 0 <= c < N) or board[r][c] == "#":
                    continue

                # Process
                char = board[r][c]
                if char == cur[0]:
                    board[r][c] = "#"
                    if dfs(r, c, cur[1:]):
                        return True
                    else:
                        board[r][c] = char
            return False

        for i in range(M):
            for j in range(N):
                char = board[i][j]
                if char == word[0]:
                    board[i][j] = "#"
                    if dfs(i, j, word[1:]):
                        return True
                    else:
                        board[i][j] = char
        return False

3.Word-Search-ii [212]

单词搜索: https://leetcode.cn/problems/word-search-ii/description/

◆ 题目分析

基于字典树的思想,我们可以基于 words 里的多个 word 构建 Trie 树,随后 DFS 遍历网格 Board,每次的退出条件是找到 word.is_end = True,不过这里还有一个细节,就是找到一个单词后不立即退出,还需要在判断其后面是否还有扩展。例如寻找 visit 和 visited 两个单词,如果在第一个单词处 return,会少找一个单词。

◆ Trie 树实现 

class TrieNode:
    def __init__(self):
        # 存储 TrieNode 的子节点
        self.children = {}
        # 是否单词结尾
        self.is_end_of_word = False


class Solution(object):

    def findWords(self, board, words):
        """
        :type board: List[List[str]]
        :type words: List[str]
        :rtype: List[str]
        """

        M, N = len(board), len(board[0])
        # 存储搜索到的单词
        result = set()

        def dfs(row, col, node, path):
            # 检查边界条件和当前字符是否为已访问字符(用 "#" 标记)
            if not (0 <= row < M and 0 <= col < N) or board[row][col] == "#":
                return

            char = board[row][col]
            # 如果当前字符不在 TrieNode 的子节点中,直接返回
            if char not in node.children:
                return

            # 获取当前字符对应的子 TrieNode
            child = node.children[char]
            # 如果子 TrieNode 是单词结尾,将单词加入结果集
            if child.is_end_of_word:
                result.add(path + char)
                # 剪枝条件:如果子 TrieNode 没有子节点,直接返回
                if not child.children:
                    return

            # 标记当前字符为已访问字符
            board[row][col] = "#"
            # 遍历上下左右相邻的字符,递归进行 DFS
            for r, c in ((row - 1, col), (row + 1, col), (row, col - 1), (row, col + 1)):
                dfs(r, c, child, path + char)
            # 恢复当前字符,以便其他路径搜索
            board[row][col] = char

        # 创建 Trie 树
        trie = TrieNode()
        for word in words:
            node = trie
            for char in word:
                if char not in node.children:
                    node.children[char] = TrieNode()
                node = node.children[char]
            node.is_end_of_word = True

        # DFS 遍历
        for row in range(M):
            for col in range(N):
                dfs(row, col, trie, "")

        return list(result)

这里构建 Trie 树就是一个循环调用的结构,不断向下拓展 Dict,构建完毕后使用 DFS 进行四通遍历,注意遍历过后的节点进行 # 标记,避免节点重复使用。

四.总结

这里 Trie 树相关的算法题目并不多,我们主要掌握的就是 Trie 树的构建方法以及使用 Trie 树的思想,通过多级 Map 缓存,我们可以在 o(N) 的时间复杂度内找到字符串是否存在。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/301279.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Docker】数据卷容器

多个容器进行数据交换 这里引入一个数据卷容器的概念 以下介绍容器A与容器B进行数据交换的原理 假如容器A要与容器 B 进行数据交换&#xff0c; 首先创建一个容器C&#xff0c;将他挂载到数据卷&#xff0c;然后再将容器A与容器B挂载到容器C&#xff0c;这样做相当于容器A与…

vue权限管理详解(如果控制到按钮级别的权限怎么做)

文章目录 一、是什么二、如何做接口权限路由权限控制方案一方案二 菜单权限方案一方案二 按钮权限方案一方案二 小结 一、是什么 权限是对特定资源的访问许可&#xff0c;所谓权限控制&#xff0c;也就是确保用户只能访问到被分配的资源 而前端权限归根结底是请求的发起权&am…

【AI视野·今日Robot 机器人论文速览 第七十期】Thu, 4 Jan 2024

AI视野今日CS.Robotics 机器人学论文速览 Thu, 4 Jan 2024 Totally 17 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Robotics Papers Many-Objective-Optimized Semi-Automated Robotic Disassembly Sequences Authors Takuya Kiyokawa, Kensuke Harada, Weiwei …

研究称:ChatGPT临床决策中取得显著成绩,准确率高达71.7%

美国最大非营利医疗机构之一&#xff0c;麻省布里格姆医院&#xff0c;近日发布了一份关于ChatGPT在临床医疗决策中应用的研究论文。该研究显示&#xff0c;ChatGPT在整个临床决策中的准确率达到了惊人的71.7%。 研究人员通过细致的评估&#xff0c;涵盖了从提出诊断、推荐诊断…

Pinia处学习

修改数据的三种方式: mutate本次变化的数据,state时store中的数据

关于谷歌浏览器如何将背景换为黑色,字体换为白色

一.关于chorme浏览器如何换色 #跟着我一起来看一下吧 操作步骤 步骤 1.在谷歌的搜索框里搜索此网址——chrome://flags/ 如图 2.访问此网址 如图 3.我们在搜索框搜索:Auto Dark Mode for Web Contents 如图 4.开启Web内容的自动暗模式 选择enbled 5.确认重新启动 选择…

记录一下甲骨文云下载 HuggingFace 模型的速度

记录一下甲骨文云下载 HuggingFace 模型的速度

Talk | EMNLP 2023 最佳长论文:以标签为锚-从信息流动的视角分析上下文学习

本期为TechBeat人工智能社区第561期线上Talk。 北京时间1月4日(周四)20:00&#xff0c;北京大学博士生—王乐安的Talk已准时在TechBeat人工智能社区开播&#xff01; 他与大家分享的主题是: “以标签为锚-从信息流动的视角分析上下文学习”&#xff0c;介绍了他的团队在上下文学…

基于FPGA的RLC测试仪

1. 系统设计 以FPGA为控制器&#xff0c;实现RLC(电阻、电容、电感)的检测&#xff0c;其测量电路如下&#xff1a;

基于Echarts的大数据可视化模板:厅店营业效能分析

目录 引言厅店营业效能分析的重要性大数据时代下的零售业基于Echarts的厅店营业效能分析案例分析目标和数据准备图表类型的选择和参数设置图表样式和交互功能的优化Echarts与大数据可视化Echarts库以及其在大数据可视化领域的应用优势开发过程和所选设计方案模板如何满足管理的…

Linux内核--网络协议栈(一)Socket通信原理和实例讲解

目录 一、引言 二、Socket ------>2.1、socket编程 ------>2.2、Socket的创建 三、收发数据 四、断开连接 五、删除套接字 六、网络 IO 一、引言 本章开始进入linux内核中网络部分的学习,先简单介绍一下socket套接字 二、Socket 一个数据包经由应用程序产生…

UDS诊断(ISO14229-1) 2F服务

文章目录 功能简介对信号进行控制&#xff0c;但是怎么知道软件内部有没有真正的起作用应用场景请求和响应1、请求2、子功能3、肯定响应4、否定响应 控制参数(IOCP)报文示例UDS中常用 NRC参考 功能简介 2F服务&#xff0c;即 InputOutputControlByIdentifier&#xff08;按标识…

雾天条件下 SLS 融合网络的三维目标检测

论文地址&#xff1a;3D Object Detection with SLS-Fusion Network in Foggy Weather Conditions 论文代码&#xff1a;https://github.com/maiminh1996/SLS-Fusion 论文摘要 摄像头或激光雷达&#xff08;光检测和测距&#xff09;等传感器的作用对于自动驾驶汽车的环境意识…

基于web3+solidity的众筹项目

基本配置&#xff1a;node、npm、yarn&#xff0c;安装ganache&#xff0c;chrome&#xff0c;chrome安装插件MetaMask&#xff0c; 主要功能&#xff1a;目的是实现一个简单的众筹平台&#xff0c;允许用户发起筹款项目、捐款、提出使用资金请求以及证明人证明。 部分合约&…

机器学习中常用的概念:ROC曲线和AUC值,到底是什么?

1.关于ROC曲线的概念 ROC曲线和AUC值是评价分类监督学习性能的重要量度指标。ROC曲线又被称为“接受者操作特征曲线”“等感受性曲线”&#xff0c;主要用于预测准确率情况。最初ROC曲线运用在军事上&#xff0c;现在广泛应用在各个领域&#xff0c;比如判断某种因素对于某种疾…

[SpringBoot]如何在一个普通类中获取一个Bean

最近在项目中出现了一个这种情况&#xff1a;我一顿操作猛如虎的写了好几个设计模式&#xff0c;然后在设计模式中的类中想将数据插入数据库&#xff0c;因此调用Mapper持久层&#xff0c;但是数据怎么都写不进去&#xff0c;在我一顿操作猛如虎的查找下&#xff0c;发现在普通…

JVM工作原理与实战(六):类的生命周期-连接阶段

专栏导航 JVM工作原理与实战 RabbitMQ入门指南 从零开始了解大数据 目录 专栏导航 前言 一、类的生命周期 1.加载&#xff08;Loading&#xff09; 2.连接&#xff08;Linking&#xff09; 3.初始化&#xff08;Initialization&#xff09; 4.使用&#xff08;Using&…

目标检测开源数据集——海底垃圾识别

随着全球经济的快速发展&#xff0c;海洋垃圾问题日益严重。海洋垃圾不仅对海洋生态系统造成严重破坏&#xff0c;还威胁到人类的健康和生存。因此&#xff0c;海上垃圾识别变得至关重要。本文将详细介绍海上垃圾识别的重要性&#xff0c;从生态、经济、健康和社会四个方面进行…

机器学习原理到Python代码实现之LinearRegression

Linear Regression 线性回归模型 该文章作为机器学习的第一篇文章&#xff0c;主要介绍线性回归模型的原理和实现方法。 更多相关工作请参考&#xff1a;Github 算法介绍 线性回归模型是一种常见的机器学习模型&#xff0c;用于预测一个连续的目标变量&#xff08;也称为响应变…

matlab如何标定相机内外参和畸变参数

关于内外参矩阵和畸变矩阵可以学习 https://blog.csdn.net/qq_30815237/article/details/87530011?spm1001.2014.3001.5506 在APP中找到 camera Calibrator 点击 Add Images&#xff0c;导入拍照图片。标定20张左右就够了&#xff0c;然后角度变一下&#xff0c;但不需要变太…