pg事务:隔离级别历史与SSI

事务隔离级别的历史

ANSI SQL-92定义的隔离级别和异常现象确实对数据库行业影响深远,甚至30年后的今天,绝大部分工程师对事务隔离级别的概念还停留在此,甚至很多真实的数据库隔离级别实现也停留在此。但后ANSI92时代对事物隔离有许多讨论甚至批评,针对隔离级别和异常现象的论文、博客、文章、讨论非常多,这里概况一下事务的比较重要发展历史:

  • 1992年,由于数据库行业处于混沌的事务状态,美国国家标准学会定义ANSI SQL-92标准。也就是广泛流传的4种隔离级别和4种异常现象

  • 1995年,snapshot isolation等隔离级别提出和更多的异常现象。微软工程师等提出snapshot isolation隔离级别,并对ANSI SQL-92做出批判,92标准定义模糊,而且有许多隔离级别和异常现象未定义。参考《对ANSI SQL隔离级别的批判》.

    此时隔离级别已不止4个,异常现象也更多,其中也包括写偏序异常。

  • 1999年 ,由于锁模式的不同发展出过多的隔离级别,Atul Adya的论文整理了这些现象,并根据异常现象和功能将众多隔离级别回溯到ANSI SQL92标准进行对应。

  • 2005年 ,由于绝大部分数据库声称他们是可串行化的,但他们实际上是快照隔离, Alan Fekete et al 提出“使快照隔离可序列化”。在snapshot isolation级别基础上实现可序列化,消除快照隔离的异象。

  • 2008年 ,Fekete 扩展了可序列化,并提出数据库层面实现“使快照隔离可序列化”,称之为快照隔离可序列化SSI (Serializable Snapshot Isolation)

  • 2012年 ,postgresql第一个在数据库中实现SSI ,参考postgresql数据库实现SSI的论文

其中,95年《对ANSI SQL隔离级别的批判》中的隔离级别和异常现象
在这里插入图片描述

各种数据库支持的隔离级别

很多数据库的声称他们”完全支持ACID“特性,但是没有可串行化是不能完全实现ACID的(特别是一致性)。然而许多数据库在不支持可串行化级别下声称他们支持ACID。其实他们绝大部分都没有完全实现,包括数据库老大哥oracle。

在这里插入图片描述

可串行化

人们对可串行化存在许多误解。

可串行化的含义:如果每个事务本身是正确的,即满足某些完整性条件,那么包括这些事务的任何串行执行的时间表是正确的(其事务仍然满足其条件):“串行”意味着事务在时间上不重叠,并且不能相互干扰,即彼此之间存在完全隔离。

1970年代可串行化(serializable)通过严格两阶段锁(SS2PL)实现,读写相互阻塞,直到事务结束。SS2PL丢失高可用性但消除了异常现象。

除了SS2PL实现可串行化,还有其他方式,比如可串行化快照隔离(SSI)。

为了保证没有异常,可串行化会丢失一些并发性(不同实现方式有所不同),但可以真正保证数据的一致性(ACID中的consistency)。也就是说没有实现串行化的数据库,其实没有完全支持ACID特性

可串行化在数学上已经证明可以实现,但是真实的数据库世界有点”不正常“。实际上,可串行化是事务隔离级别中最高级的,也是所有学者和大佬强力推荐的隔离级别,不过绝大部分数据库在RC或快照隔离级别上运行

为什么弱隔离级别在学术上有问题,实际上没出现严重问题?

1.非可串行化隔离级别的异常现象,一般都需要再高并发情况下才会发生,一般低并发数据库不太会出现问题

2.异常现象真的发生的时候,有些应用可能没发现异常现象或没检查到异常对他们不重要。

3.有可能数据异常了,但应用只是返回报错,并进入数据异常处理程序。

4.成本过高。不仅是数据库序列化隔离级别开发成本高,应用对可序列化也需要适应成本。光是理解这部分复杂的理论就不是一件容易的事

5.高级别的隔离会丢失一些性能。大量的改造工作可能是吃力不讨好的,应用需要在“高并发”和“无异常现象”间做抉择

6.业务基于机制开发,而不是规则开发。业务多少有点适应弱隔离级别的异常现象,特别是RC或快照隔离级别

快照隔离

ANSI SQL92并未定义快照隔离snapshot isolation(SI),这个隔离级别随着数据库行业发展才出现。

引自wiki定义:在快照隔离下执行的事务是在事务开始时拍摄的数据库的快照上操作的。当事务结束时,只有当事务更新的值自快照拍摄以来没有外部更改时,它才会成功提交。这样写冲突将导致事务中止。

快照隔离级别顾名思义就是就是使用了快照,存在于使用了MVCC的数据库中,多版本并发机制支持用户并发执行事务。

1992年 ANSI SQL92标准基于数据库的锁而定义,所以没有快照隔离级别这个定义。直到1995年《批判》的出现才被提出。

快照隔离串行化

由于快照隔离的广泛应用,而可序列化是学术上的数据库需要达到的隔离级别目标,可序列化快照隔离Serializable Snapshot Isolation (SSI) 随即产生。顾名思义,在快照隔离的基础上实现可序列化。

由于ANSI92标准的模糊性,虽然没有定义快照隔离,但许多数据库实际上就是使用的快照隔离。而快照隔离同样存在一些异常现象(包括写偏序),SSI的出现就是为了解决这些异常现象。

主流数据库通过基于S2PL或MVCC实现并发控制。在S2PL下写操作会阻塞其他事务读写,因此不会有写偏序异常问题。而MVCC实现了读写互不阻塞,只有写写冲突。在并发RW模式模式下会导致写偏序问题。SSI在pg9.1开始已经嵌入快照隔离SI中(pg只有快照隔离,哪怕是在可序列化级别下),解决了写偏序等异常。

写偏序

由于某些冲突构成环,会出现串行化异常**。**其中比较容易理解的一个就是写偏序(write skew)。

写偏序只发生在rw模型,ww、wr均不会发生写偏序,并且事务必须在并发条件下才会出现。前一个事务写入依赖后一个事务写入才会形成依赖环。

在这里插入图片描述

有许多现实案例可以出现写偏序异常,我们用一个经典的黑白球问题来理解写偏序

袋中有10个球,5个白球和5个黑球。此时有两个事务,P和Q。P将所有黑球改成白球,Q将所有白球改成黑球。此时可以有两个串行执行,P,Q或Q,P。在这两种情况下,最终结果是袋中有10个白球或者10个黑球。但是,快照隔离允许另一种结果:

  • 事务 P 拿出5个黑球
  • 事务 Q 拿出5个白球
  • 事务 P 将手中所有黑球改成白球,放回袋中
  • 事务 Q 将手中所有白球改成黑球,放回袋中

此时袋中还是5个黑球和5个白球,这在任何一个串行执行中都是不可能的。但这在快照隔离中是有效:每个事务都维护数据库的一致视图,并且其写集不与任何并发事务的写集重叠,如此白球黑球发生交换。

黑白球问题说明:快照隔离执行结果与串行化执行结果不一致,快照隔离下发生写偏序异常,数据结果与预期不一致。

pg中的SSI

postgresql数据库是首个在数据库中实现SSI的数据库。

引用wiki的黑白球代码示例

create table dots
  (
   id int not null primary key,
   color text not null
  );
 insert into dots
  with x(id) as (select generate_series(1,10))
  select id, case when id % 2 = 1 then 'black'
   else 'white' end from x;
set default_transaction_isolation = ‘serializable’;set default_transaction_isolation = ‘serializable’;
begin;
update dots set color = ‘black’ where color = ‘white’;
begin;
update dots set color = ‘white’ where color = ‘black’;
commit
commit
(pg SSI先提交者成功提交,后提交者抛出报错 )ERROR: could not serialize access due to read/write dependencies among transactions DETAIL: Reason code: Canceled on identification as a pivot, during commit attempt. HINT: The transaction might succeed if retried.

(已提交读和可重复读级别,均不会出现报错,黑白球颜色交换,不再展示测试结果)

严格两阶段提交(S2PL)也可以实现可串行化,但S2PL需要很重的读写锁,直到事务提交为止。S2PL会极大的影响并发性能,而且用户一般不会接受读写互相阻塞的情况,所以pg没有采用S2PL。

SSI是可序列化的另一种方案。它仍然会使用快照隔离,只是会额外检查是否有异常现象发生。

两个方案的处理方式也不同:在异常现象发生时,S2PL会阻塞事务,而SSI会中断事务以打破循环。

人们没有使用可串行化,原因之一有可串行化会降低数据库性能。这其实可以理解,因为有”检查异常现象“的SSI必定比什么检查都没有的弱隔离级别性能低。不过经过SSI实现理论的发展和pg本身对只读事务的优化,SSI的性能已于SI相差无几。

在这里插入图片描述

可序列化能极大的简化应用对一致性的担心,而pg9.1已实现ssi并加以优化。期待应用有一天真的能使用可串行化隔离级别。

事务隔离级别参考

https://wiki.postgresql.org/wiki/SSI

https://en.wikipedia.org/wiki/Serializability

https://en.wikipedia.org/wiki/Snapshot_isolation

https://justinjaffray.com/what-does-write-skew-look-like/

http://www.bailis.org/blog/when-is-acid-acid-rarely/

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-95-51.pdf 95年SI隔离级别以及对SQL92标准的批评

https://www.cse.iitb.ac.in/infolab/Data/Courses/CS632/2009/Papers/p492-fekete.pdf SSI论文

https://drkp.net/papers/ssi-vldb12.pdf postgresql实现SSI

https://ristret.com/s/f643zk/history_transaction_histories 事务隔离级别的历史

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/22290.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Everypixel: AI图片搜索引擎

【产品介绍】 Everypixel是一个基于人工智能的图片搜索引擎。可以搜索超过 50 个图片来源的优质的授权图库版权素材图片,还可以使用免费图案功能,找到适合自己需求的可定制无缝图案。 Everypixel利用深度学习和计算机视觉技术,为客户提供先进…

黑客入门指南,学习黑客必须掌握的技术

黑客一词,原指热心于计算机技术,水平高超的电脑专家,尤其是程序设计人员。是一个喜欢用智力通过创造性方法来挑战脑力极限的人,特别是他们所感兴趣的领域,例如电脑编程等等。 提起黑客,总是那么神秘莫测。…

VONR排查指导分享

不能注册或呼叫到SIP服务器端30秒挂断呼叫的黄金法则咬线或摘机状态单通或无语音收到400 bad request收到413,513 Request Entity Too Large或Message Too Large消息收到408, 480或者487 消息483 - Too Many Hops488 – Not Acceptable Here语音质量和思…

iptables 防火墙(一)

目录 一:iptables概述 二:netfilter/iptables关系 三:四表五链 1.规则表和规则链的作用 2. 四表 3.五链 ​4.规则链之间的匹配顺序 (1)主机型防火墙 (2)网络型防火墙 5.规则链内的匹配…

【JVM】5. 本地方法接口和本地方法栈

文章目录 5.1. 什么是本地方法?5.2. 为什么使用Native Method?5.3. 本地方法栈 5.1. 什么是本地方法? 简单地讲,一个Native Method是一个Java调用非Java代码的接囗。一个Native Method是这样一个Java方法:该方法的实现…

UE Http Server 插件说明

1. Create Http Server 创建Http服务器。 Port : 监听端口,范围 1 - 65535,要保证系统唯一,不然会监听失败。 2. Bind 绑定网页路由回调。 Target :HttpServer 对象 Http Path: 绑定路径,如 ”/index“ Http Verbs…

与vCenter无法通讯时更改虚拟机的网络配置

客户的VCSA由于虚拟机的配置问题导致无法启动,需要通过重新创建VCSA的虚拟机配置的方式来恢复。但是,由于ESXi主机上的所有物理网口都已分配给了分布式网络交换机,在重建虚拟机配置时不能指定标准交换机的端口组来配置网络。而如果将虚拟机的…

【C++进阶之路】模板

前言 假如需要你写一个交换函数,交换两个相同类型的值,这时如果交换的是int 类型的值,你可能会写一个Swap函数,其中参数是两个int类型的,假如再让你写一个double类型的呢?你可能又要写一个Swap的函数重载&…

GD32F4x 加密(开启读保护功能)

参考链接1:(设置读保护) GD32F4x 如何开启读保护功能(芯片加密)?_EmbeddedOsprey的博客-CSDN博客 参考链接2:读取芯片ID进行加密 《嵌入式 – GD32开发实战指南》第19章 程序加密_gd32大小端…

训练/测试、过拟合问题

在机器学习中,我们创建模型来预测某些事件的结果,比如之前使用重量和发动机排量,预测了汽车的二氧化碳排放量 要衡量模型是否足够好,我们可以使用一种称为训练/测试的方法 训练/测试是一种测量模型准确性的方法 之所以称为训练…

黑客最常用的10款黑客工具

以下所有这些工具都是捆绑在一起的Linux发行版,如Kali Linux或BackBox,所以我们一定会建议您安装一个合适的Linux黑客系统,使您的生活更轻松 - 尤其是因为这些黑客工具可以(自动)更新。 1、Nikto(网站漏洞…

lwIP更新记01:全局互斥锁替代消息机制

从 lwIP-2.0.0 开始,在 opt.h 中多了一个宏开关 LWIP_TCPIP_CORE_LOCKING,默认使能。这个宏用于启用 内核锁定 功能,使用 全局互斥锁 实现。在之前,lwIP 使用 消息机制 解决 lwIP 内核线程安全问题。消息机制易于实现,…

winpcap 发包工具

本工具主要用来进行网络协议的调试,主要方法是,对现场数据抓包,然后将数据包带回交给开发人员,开发人员将该数据包重新发送和处理,模拟现场环境以便于调试和分析。 (一)使用方法 命令行下输入s…

Visual Studio插件DevExpress CodeRush v22.1- 支持C# 10

DevExpress CodeRush是一个强大的Visual Studio .NET 插件,它利用整合技术,通过促进开发者和团队效率来提升开发者体验。为Visual Studio IDE增压、消除重复的代码并提高代码质量,可以快速思考、自动化测试、可视化调试和重构。 CodeRush v2…

有了 IP 地址,为什么还要用 MAC 地址?

MAC地址等价于快递包裹上的收件人姓名。 MAC地址更多是用于确认对方信息而存在的。就如同快递跨越几个城市来到你面前,快递员需要和你确认一下收件人是否正确,才会把包裹交给你一样。 IP66在线查IP地址位置:https://www.ip66.net/?utm-sour…

软件设计师 数据库刷题项并包含知识点总结

**两级映像 有概念模式和内模式跟物理独立性相关,有外模式和概念模式跟逻辑独立性相关 ** 属性列就是RS共同拥有的ABC,一般去除后面的,所以就只有前面三个ABC,元组就是有没有自然连接成功的,就是R.AS.A R.BS.B… 选项里…

希望所有计算机专业同学都知道这些老师

C语言教程——翁凯老师、赫斌 翁恺老师是土生土长的浙大码农,从本科到博士都毕业于浙大计算机系,后来留校教书,一教就是20多年。 翁恺老师的c语言课程非常好,讲解特别有趣,很适合初学者学习。 郝斌老师的思路是以初学…

Linux-初学者系列6_kvm虚拟机

速通配置kvm虚拟机 通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。 在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可以运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行互不影响,提高计算机的工作效率。 一、 配置…

【STM32】STM32使用RFID读卡器

STM32使用RFID读卡器 RFID卡片 ID卡(身份标识):作用就是比如你要输入学号,你刷卡直接就相当于输入学号,省去了输入的过程 IC卡:集成电路卡,是将一种微电子芯片嵌入卡片之中 RFID的操作 1、…

设计模式之代理模式

文章目录 1、代理模式基本介绍2、Jdk中的动态代理2.1、场景推导2.2、Jdk动态代理 3、静态代理4、代理模式的关键点5、代理模式和适配器模式的比较6、代理模式UML图 1、代理模式基本介绍 代理模式的定义: 为其他对象提供一种代理以控制对这个对象的访问。在某些情况下&#xf…