数据结构——跳表

简单介绍跳表

  跳表(Skip List)是一种可以进行对数级别查找的数据结构,它通过在数据中构建多级索引来提高查询效率。跳表是一种基于链表的随机化数据结构,其本质是由多个链表组成,每个链表中的元素都是原始链表中的元素。

  我们知道链表的查找时间复杂度是O(N),如果这个链表数据是有序的,还是O(N),我们如何利用有序这一点,来进行优化呢?接下来就是我们的主角跳表登场。

  跳表在实际应用中有许多用途,例如作为Redis等数据库的有序数据结构实现,以及作为平衡树等数据结构的替代方案。与其他数据结构相比,跳表具有实现简单、空间复杂度低、查询效率高等优点。

  skiplist是由William Pugh发明的,最早出现于他在1990年发表的论文《Skip Lists: A
Probabilistic Alternative to Balanced Trees》。
William Pugh开始的优化思路:
1. 假如我们每相邻两个节点升高一层,增加一个指针,让指针指向下下个节点,如下图b所
示。这样所有新增加的指针连成了一个新的链表,但它包含的节点个数只有原来的一半。由
于新增加的指针,我们不再需要与链表中每个节点逐个进行比较了,需要比较的节点数大概
只有原来的一半。
2. 以此类推,我们可以在第二层新产生的链表上,继续为每相邻的两个节点升高一层,增加一
个指针,从而产生第三层链表。如下图c,这样搜索效率就进一步提高了。
3. skiplist正是受这种多层链表的想法的启发而设计出来的。实际上,按照上面生成链表的方
式,上面每一层链表的节点个数,是下面一层的节点个数的一半,这样查找过程就非常类似
二分查找,使得查找的时间复杂度可以降低到O(log n)。但是这个结构在插入删除数据的时
候有很大的问题,插入或者删除一个节点之后,就会打乱上下相邻两层链表上节点个数严格
的2:1的对应关系。如果要维持这种对应关系,就必须把新插入的节点后面的所有节点(也
包括新插入的节点)重新进行调整,这会让时间复杂度重新蜕化成O(n)。
理想状态的跳表大概长这样:
但是一旦我们进行了插入和删除操作,就会很难维护这个2:1的关系。因此
4. skiplist的设计为了避免这种问题,做了一个大胆的处理,不再严格要求对应比例关系,而是
插入一个节点的时候随机出一个层数。这样每次插入和删除都不需要考虑其他节点的层数,
这样就好处理多了。细节过程入下图:

 

注意重点,在这种处理下,我们插入的结点的层数是随机的!如此一来,插入删除操作就简化了很多。

skiplist的效率 

  首先要分析,这个随机层数是怎么来的。一般跳表会设置一个最大的层数限制maxLevel。其次会设计一个概率p。这个p就是指 最开始从第一层开始,每多一层的概率为p。

  最大层数限制很好理解,这个p就是每次插入的时候,由它来决定这个结点有多少层。每多一层其实就是多一个指针。

在Redis中,这两个参数的取值为

p = 1/4
maxLevel = 32

 

再简单分析这个p就是:

节点层数至少为1。而大于1的节点层数,满足一个概率分布。
节点层数恰好等于1的概率为1-p。
节点层数大于等于2的概率为p,而节点层数恰好等于2的概率为p(1-p)。
节点层数大于等于3的概率为p^2,而节点层数恰好等于3的概率为p^2*(1-p)。
节点层数大于等于4的概率为p^3,而节点层数恰好等于4的概率为p^3*(1-p)。
……

平均计算如下:

 

 skiplist的简单实现

  其实skiplist只要理解了思想,实现起来还是比较简单了,我们可以参考力扣上的一道题

1206. 设计跳表 - 力扣(LeetCode) 

 代码:

#pragma once

#include <iostream>
#include <vector>
#include <time.h>
#include <random>
#include <chrono>

using namespace std;

struct SkiplistNode
{
	int _val;
	vector<SkiplistNode*> _nextV;  // 层数也就是指针,用数组存起来

	SkiplistNode(int val, int level)
		:_val(val)
		, _nextV(level, nullptr)
	{}
};

class Skiplist
{
	typedef SkiplistNode Node;
public:
	Skiplist()
	{
		srand(time(0));

		// 头结点的层数设置为1
		_head = new SkiplistNode(-1, 1);
	}

	bool search(int target)
	{
		Node* cur = _head;
		int level = _head->_nextV.size() - 1;
		while (level >= 0)
		{
			// 目标值比下一个结点的值要大的话,就往右走
			// 如果下一个结点是空(尾),或者目标值比下一个结点要小,就向下走
			if (cur->_nextV[level] && cur->_nextV[level]->_val < target)
			{
				// 往右走
				cur = cur->_nextV[level];
			}
			else if (cur->_nextV[level] == nullptr || cur->_nextV[level]->_val > target)
			{
				// 往下走
				--level;
			}
			else
			{
				// 找到了
				return true;
			}
		}

		return false;
	}

	vector<Node*> FindPrevNode(int num)
	{
		Node* cur = _head;
		int level = _head->_nextV.size() - 1;

		// 记录 被改动的位置的每一层的前一个结点指针
		vector<Node*> prevV(level + 1, _head);

		while (level >= 0)
		{
			// 同理 比下一个结点大就往右走
			// 下一个结点是空,或者目标值比下一个结点要小,就往下走
			if (cur->_nextV[level] && cur->_nextV[level]->_val < num)
			{
				cur = cur->_nextV[level]; // 向右走
			}
			else if (cur->_nextV[level] == nullptr || cur->_nextV[level]->_val >= num) 
			{
				// 注意 这里num等于也是要进来的
				// 更新level层的前一个
				prevV[level] = cur;
				
				--level; // 向下走
			}
		}

		return prevV;
	}

	void add(int num)
	{
		vector<Node*> prevV = FindPrevNode(num);

		int n = RandomLevel();
		Node* newnode = new Node(num, n);

		// 注意:如果n超过了当前的最大层,那么就要相应的提高_head的层数
		if (n > _head->_nextV.size())
		{
			_head->_nextV.resize(n, nullptr);
			prevV.resize(n, _head);
		}

		// 链接前后结点
		for (size_t i = 0; i < n; ++i)
		{
			// 注意顺序,先设置好目标结点的指针指向
			newnode->_nextV[i] = prevV[i]->_nextV[i];
			prevV[i]->_nextV[i] = newnode;
		}
	}

	bool erase(int num)
	{
		vector<Node*> prevV = FindPrevNode(num);

		// 如果第一层的下一个不是val,则val不在表中
		if (prevV[0]->_nextV[0] == nullptr || prevV[0]->_nextV[0]->_val != num)
		{
			return false;
		}
		else
		{
			Node* del = prevV[0]->_nextV[0];
			// 先将del结点的前后结点链接起来
			for (size_t i = 0; i < del->_nextV.size(); ++i)
			{
				prevV[i]->_nextV[i] = del->_nextV[i];
			}
			delete del;

			// 如果删除的这个结点改变了跳表结点的当前最高层数,
			// 那么应该将头结点的层数降到第二高的层数
			int i = _head->_nextV.size() - 1;
			while (i >= 0)
			{
				if (_head->_nextV[i] == nullptr)
					--i;
				else
					break;
			}
			_head->_nextV.resize(i + 1);

			return true;
		}

		return false;
	}

	int RandomLevel()
	{
		size_t level = 1;
		// rand() 的取值范围在 [0,RAND_MAX] 之间
		// 这里就转换成了 如果区间在 [0,_p]就加一层
		while (rand() <= RAND_MAX * _p && level < _maxLevel)
		{
			++level;
		}

		return level;
	}
private:
	Node* _head;
	size_t _maxLevel = 32;
	double _p = 0.25;
};

void Test()
{
	Skiplist sl;
	//int a[] = { 5, 2, 3, 8, 9, 6, 5, 2, 3, 8, 9, 6, 5, 2, 3, 8, 9, 6 };
	int a[] = { 1, 2, 3, 4 };
	for (auto e : a)
	{
		sl.add(e);
	}

	/*int x;
	cin >> x;
	sl.erase(x);*/
	sl.erase(1);
	//cout << sl.erase(0) << " " << sl.erase(1) << endl;
}

  跳表稍复杂一点的地方就是插入和删除了。因为我们还要需要找到目标结点的每一层前一个结点,将它们放入数组中,然后才能处理好目标结点的前后结点之间的关系。

  另外就是它的查找逻辑,设cur来遍历结点,那么cur的移动就有两种情况,一种是目标值大于cur下一个结点的值的话,cur就向右走;另一种就是小于,那么cur就向下走(--level)。再然后就是等于了。

跳表跟平衡搜索树及哈希表的对比

跟平衡搜索树 

  二者都可以做到遍历数据有序,并且时间复杂度都差不多。

  跳表跟平衡搜索树(AVL树和RB树)的优势就是:

1. 跳表实现简单,且容易控制。不像AVL树和RB树非常复杂,跳表这里我们删除操作都很容易就实现了。

2.跳表的空间消耗相对较低,不像平衡搜索树,不仅每个结点都有三叉链(指针),而且还要存平衡因子或者颜色。当跳表中的p = 1/2时,每个结点所包含的指针个数为2;p = 1/4时,每个结点所包含的指针个数为1.33。

因此,跟平衡搜索树比起来,还有是有优势的。

跟哈希表

跳表跟哈希表比起来,各有优缺点。

跳表的优点:

1.空间消耗还是略低哈希表。哈希表存在链表指针和表空间的消耗。

2.跳表遍历数据能有序。

3.哈希表扩容时有性能损耗。跳表就没有。

4.在极端场景下,哈希表哈希冲突高,效率下降的厉害,还需要红黑树来接力,增加了算法复杂度。

哈希表的优点:

时间复杂度是O(1),比跳表要快。

所以这样看来,跳表跟哈希表比起来,有些还是有优势的,但是没有跟平衡搜索树比起来那么大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/421445.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

图神经网络导论 - 刘知远

一、神经网络基础 近年来&#xff0c;机器学习领域的发展迅速&#xff0c;主要表现在多种神经网络架构的出现。尽管不同的神经网络架构相差甚远&#xff0c;但现有的神经网络架构可以分为几个类别&#xff1a; 卷积神经网路是前馈神经网路的特殊形式&#xff0c;FNN通常是全…

RISC-V特权架构 - 中断与异常概述

RISC-V特权架构 - 中断与异常概述 1 中断概述2 异常概述3 广义上的异常3.1 同步异常3.2 异步异常3.3 常见同步异常和异步异常 本文属于《 RISC-V指令集基础系列教程》之一&#xff0c;欢迎查看其它文章。 1 中断概述 中断&#xff08;Interrupt&#xff09;机制&#xff0c;即…

java实现图片转pdf,并通过流的方式进行下载(前后端分离)

首先需要导入相关依赖&#xff0c;由于具体依赖本人也不是记得很清楚了&#xff0c;所以简短的说一下。 iText&#xff1a;PDF 操作库&#xff0c;用于创建和操作 PDF 文件。可通过 Maven 或 Gradle 引入 iText 依赖。 MultipartFile&#xff1a;Spring 框架中处理文件上传的类…

MyBatis 学习(四)之 SQL 映射文件

目录 1 SQL 映射文件介绍 2 select 元素 3 insert 元素 4 update 和 delete 元素 5 sql 元素 6 parameterType 元素 7 resultType 元素 8 resultMap 元素&#xff08;重要&#xff09; 9 参考文档 1 SQL 映射文件介绍 映射器是 MyBatis 中最复杂并且是最重要的…

机器学习 -- 梯度下降算法加深

梯度下降算法 在机器学习中&#xff0c;梯度下降算法常用于最小化代价函数&#xff08;或损失函数&#xff09;&#xff0c;以此来优化模型的参数。代价函数衡量的是模型预测值与实际值之间的差异。通过最小化这个函数&#xff0c;我们可以找到模型预测最准确的参数。 代价函…

蓝桥杯-单片机组基础6——定时计数器与外部中断混合使用(附小蜜蜂课程代码)

蓝桥杯单片机组备赛指南请查看这篇文章&#xff1a;戳此跳转蓝桥杯备赛指南文章 本文章针对蓝桥杯-单片机组比赛开发板所写&#xff0c;代码可直接在比赛开发板上使用。 型号&#xff1a;国信天长4T开发板&#xff08;绿板&#xff09;&#xff0c;芯片&#xff1a;IAP15F2K6…

Android 混淆是啥玩意儿?

什么是混淆 Android混淆&#xff0c;是伴随着Android系统的流行而产生的一种Android APP保护技术&#xff0c;用于保护APP不被破解和逆向分析。简单的说&#xff0c;就是将原本正常的项目文件&#xff0c;对其类、方法、字段&#xff0c;重新命名a,b,c…之类的字母&#xff0c…

[AutoSar]BSW_Com07 CAN报文接收流程的函数调用

目录 关键词平台说明一、背景二、顺序总览三、函数说明3.1 Com_RxIndication&#xff08;&#xff09; 关键词 嵌入式、C语言、autosar、OS、BSW 平台说明 项目ValueOSautosar OSautosar厂商vector &#xff0c;芯片厂商TI 英飞凌编程语言C&#xff0c;C编译器HighTec (GCC)…

win11安装nodejs

一、下载安装包 链接: https://pan.baidu.com/s/1_df8s1UlgNNaewWrWgI59A?pwdpsjm 提取码: psjm 二、安装步骤 1.双击安装包 2.Next> 3.勾选之后&#xff0c;Next> 4.点击Change&#xff0c;选择你要安装的路径&#xff0c;然后Next> 5.点击Install安装 二、…

MySQL 存储过程批量插入总结

功能需求背景&#xff1a;今天接到产品经理核心业务表的数据压测功能&#xff0c;让我向核心业务表插入百万级的业务量数据&#xff0c;我首先想到的办法就是存储过程实现数据的批量 。 由于无法提供核心业务表&#xff0c;本文仅仅提供我刚刚自己创建的表bds_base_user 表做相…

【Vue3】深入理解Vue中的ref属性

&#x1f497;&#x1f497;&#x1f497;欢迎来到我的博客&#xff0c;你将找到有关如何使用技术解决问题的文章&#xff0c;也会找到某个技术的学习路线。无论你是何种职业&#xff0c;我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章&#xff0c;也欢…

VSCode通过SSH连接Docker环境进行开发

文章目录 VSCode 插件Docker 镜像构建镜像部署环境 VSCode 连接本地Docker容器VSCode SSH连接Docker容器VSCode 打开容器内目录文件 VSCode 插件 Remote - SSH Docker 镜像 https://hub.docker.com/_/golang # Golang 镜像 docker pull golang:1.22构建镜像 Dockerfile F…

Shell条件判断

一、文件类型判断 示例&#xff1a; # 判断文件是否存在&#xff0c;存在为0&#xff0c; 不存在为1 [rootlocalhost ~]# test -e person.txt [rootlocalhost ~]# echo $? 0 [rootlocalhost ~]# [rootlocalhost ~]# test -e aba [rootlocalhost ~]# echo $? 1 # 出test外&am…

SaaS 电商设计 (九) 动态化且易扩展的实现购物车底部弹层(附:一套普适的线上功能切量的发布方案)

目录 一.背景1.1 业务背景1.2 技术负债 二.技术目标三.方案设计3.1 解决移动端频繁发版3.1.1 场景分析3.1.2 技术方案 3.2 减少后端坏味道代码&无法灵活扩展问题3.2.1 通过抽象接口完成各自单独楼层渲染逻辑3.2.2 通过配置能力做到部分字段可配 四.升级上线(普适于高并发大…

小程序实现定位城市切换且城市根据首字母A-Z排序后端数据实现逻辑

场景&#xff1a; 话不多说后端提供数据实现步骤&#xff1a; 1.controller层 Api(tags {"[地区]-城市相关接口"}) RestController RequestMapping("region") Slf4j public class RegionController extends BaseController {Resourceprivate RegionServ…

盲人出行:科技创造美好的未来

在繁忙的都市中&#xff0c;我每天都要面对许多挑战&#xff0c;盲人出行安全保障一直难以得到落实。我看不见这个世界&#xff0c;只能依靠触觉和听觉来感知周围的一切。然而&#xff0c;我从未放弃过对生活的热爱和对未来的憧憬。在一次机缘巧合下&#xff0c;我认识了一款名…

信息系统项目管理师--项目管理概述

开展项⽬是为了通过可交付成果达成⽬标。⽬标是所指向的结果、要取得的战略地位、要达到的⽬的、要获得的成果、要⽣产的产品或者要提供的服务。 可交付成果形成的独特并可验证的产品、成果或服务。可交付成果可能是有形的&#xff0c;也可能是⽆形的。产⽣⼀个或多个可交付成…

【ArcGIS】渔网分割提取栅格图+网格化分析图绘制

ArcGIS按渔网分割提取栅格图并绘制网格化分析图 准备数据操作步骤步骤1&#xff1a;创建渔网&#xff08;Create Fishnet&#xff09;步骤2&#xff1a;栅格数据处理步骤3&#xff1a;栅格插值步骤4&#xff1a;数据关联 参考 网格化的目的是让各个数据更加标准化的进行统计。因…

C语言-指针(上)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据总结 前言 本篇文章将为大家介绍C语言中的核心内容-指针&#xff0c;指针在C语言的中知识内容比…

全新挑战:微软 AI 奥德赛邀您全方位 Get AI 应用技能!

点击蓝字 关注我们 AI 风暴的火速席卷&#xff0c;大语言模型的不断迭代&#xff0c;在企业面临着机遇与挑战并存的新形势下&#xff0c;许许多多的个人也在经历着职业生涯的巨大压力与变革。在这场人工智能的浪潮之中&#xff0c;AI 技能无疑是我们破局焕新的关键利器。 为助力…