线上问题——学习记录幂等判断失效问题分析

一、业务流程

image.png
上图是对save和saveScore两个接口的流程抽象,save是上传答题数据,saveScore则是上传答题分数,为保证幂等和防止并发调用,这两个接口都加了分布式锁(还是两层哦)。第一层使用的是不同的锁,因为处理的是不同的表,第二层处理的是相同的表,为了保证数据在某个维度上的唯一,所以使用了相同的锁。本篇文章则主要记录下表C中的逻辑唯一键出现重复数据的问题排查过程,该问题包含了对锁、事务及Mybatis框架的综合运用和理解。

二、问题分析

ROUND 1

问题分析

最开始只看到了第二层锁的逻辑,始终无法想通,两个接口获取的同一把锁,且加锁后都做了幂等判断,查询缓存和数据库,没有再插入,有则更新,C表的重复数据是怎么来的呢?从链路上分析,save先获取到第二层锁,插入了数据;释放锁后,saveScore开始执行,这时候查询数据库返回的结果居然是null!
这时候首先想到的是save的事务没有提交,但查看代码,事务是在获取锁3后才开启的,因此save释放锁3前,事务必定也是提交了的,而saveScore也是在获取锁3后才开启的事务。
image.png
image.png
我想大部分同学到这里会定义为玄学问题,但作为一个资深码农,要相信一切问题必有根因(除非真的是玄学)。最终,终于在saveScore的入口找到了罪魁祸首。
image.png
问题很简单,在锁3的调用入口处已经开启了事务,当save执行第二层逻辑提交事务之前,saveScore已经开启了事务,由于事务的隔离性(可重复读),在获取到锁3时,查询的是事务开始时的快照,即使save的事务已经提交,对于saveScore来说也是不可见的。

解决方案

这里修改方法目前想到以下几种:

  • 让save和saveScore串行化,但这两个接口是主链路上的核心接口,并发量很高,这样会导致性能降低,除非必要不会考虑。
  • 去掉saveScore第一层逻辑的事务,但这样无法保证这几个表的一致性。
  • 将saveScore第二层逻辑也改为异步,那每次调用时都会新启一个事务,同时还能提高接口的并发度,但是这要取决于业务,改动影响较大。
  • 设置saveScore的第二层事务传播级别为REQUIRED_NEW,这样也是每次会开启一个新的事务,也就能读取到save提交的数据了。

综合考虑,设置传播级别是影响最小的(有其它想法的欢迎补充),如果业务方能接受saveScore异步处理,那么这种方法则是最优的。
问题分析到这就结束了?当然没有。

ROUND 2

从流程图上可以看到,表C、D、E是在一个事务里的,那为什么只有表C有重复,表D、E数据却是正常的呢?
先说表E,这个比较简单,首先该表有唯一索引,不像前两个表只有普通索引,其次,业务上该表存放的数据粒度更粗,也就是前面两个表多次插入,这个表只会插入一次,其余都是更新,所以就算没有唯一索引,出现重复记录的概率也远比前两个表小很多。
再看表D,这个表可真的是让我一度以为是自己对事务理解没到位,经过反复验证,证明自己理解是没有问题的。那真的是玄学?于是请教了大佬。
经过大佬分析,事实证明我想的太简单了,最后得到一个推翻上面所有分析的结论。首先我们数据库事务隔离级别设置的read committed,不是repeatable read(是我太想当然,先入为主了)。那么表D、E没有重复数据就能解释了(事实上表D还是有重复数据存在,只是不是当前分析的链路,不过那又是另外一个问题,稍后分析);但是为啥表C的幂等判断失效了呢?
image.png
对表C采用的是双重校验,从链路上看两次查询C都是没有查到数据的,所以才会新增一条,但能获取到锁3说明另一个事务已经提交,当前事务由于是read committed一定也能查询到数据才对,那说明只有一种可能,锁内的查询C是从缓存查的,不是从数据库查的l。
image.png
从阿里云的sql洞察上也能验证这个猜想,按照代码逻辑,saveScore应该有两次查询才对,但实际上只有一条,说明有一次查询(结合skywalking分析得到是第二次没有查数据库)没有到达数据库。我们这个链路上的表都是做了redis缓存的,但是如果是第一次查询是null值,根本不会缓存到redis,那还有什么缓存会拦截到查询SQL呢?还有一个我们平时可能都忽略了的,那就是Mybatis的一二级缓存,一级缓存是默认开启的。先来复习一下Mybatis的一级缓存:
image.png
我们这里的两次查询是完全一样的,且是在同一个sqlSesson极短时间内重复查询,中间没有更新,完全符合一级缓存的使用条件,就是这玩意儿搞得鬼,我以前也没遇到过这个问题,所以也忽略了Mybatis的这个机制,还一直认为这玩意儿就是个摆设,这次算是给我上了一课。

ROUND 3

最后再回头来看看为啥D表也有重复的数据,下图是统计的部分重复数据:
image.png
这个其实很简单,上文细心的朋友可以发现我的分析都是按照save先执行,saveScore后执行的逻辑来分析的,但这两个接口执行时序其实不是固定的,当saveScore先执行,再获取到锁二时就已经开启了事务,即使锁3释放了,内层事务2也不会提交,因为和外层事务是同一个事务,那么save获取到锁3开始执行时也查不到数据,就会重复插入了。这里要解决的话也可以把内层事务传播级别声明为REQUIRED_NEW即可,对业务也没有影响。

三、总结

这次的问题好在对业务没有什么影响,但代码确实写的有问题,考验了对锁、事务以及框架的总和运用和理解。另外在分析问题时不要想当然,先入为主,一定要大胆猜想、亲手验证,只要有发现一点疑点就不应该发放过,因为很有可能就这一个疑点就推翻之前所有的分析。
最后附上链路:F947DF6DC8C94E339ED1BAC5AF5E9812(edu-study、edu-study-async),感兴趣的看官可自行分析验证,有问题欢迎指出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/431074.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】STL简介 | STL六大组件 | string类 | string类对象操作

目录 1. 什么是STL 2. STL的版本 3. STL的六大组件 4. STL的缺陷 5. 引出string类 6. 标准库中的string类 6.1 string类简介 6.2 string类对象的构造 6.3. string类对象的容量 6.4. string类对象的遍历 6.5. string类对象的修改 6.6. string类非成员函数 6.7. vs…

品优购首页制作

一,常用模块类名命名 二,快捷导航shortcut制作 三,header制作 3.1LOGO SEO优化 3.2 搜索模块定位 四, nav导航制作 五,footer底部制作 六,main主体模块制作 以前书写是模块化中的公共部分 main主体模块是…

GEE入门篇|图像分类(一):监督分类

在遥感中,图像分类是尝试将图像中的所有像素分类为有限数量的标记土地覆盖和/或土地利用类别。 生成的分类图像是从原始图像导出的简化专题图(图 1), 土地覆盖和土地利用信息对于许多环境和社会经济应用至关重要,包括自…

鸿蒙开发,对于前端开发来说,究竟是福是祸呢?

提前声明: 先说好哈,不要一上来就开喷,好吧,不感兴趣的话你可以不用看下文直接划走,直接喷俺有点承受不住,心脏不好。如果你感兴趣,你可以先把这篇文章看完,看完后感觉俺讲的还挺有道…

堆和二叉树的动态实现(C语言实现)

✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅ ✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨ 🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿&#x1…

Linux - 基础IO

1、回顾 1.1、来段代码回顾C文件接口 hello.c写文件 #include <stdio.h> #include <string.h> int main() {FILE *fp fopen("myfile", "w");if(!fp){printf("fopen error!\n");}const char *msg "hello bit!\n";int …

xss.haozi.me:0x03及04

这里有一个正则所以&#xff08;&#xff09;要用到实体编码 <a href"javascript:alert1">cc</a> 03 04都一样

在线客服系统部署ssl开启https无法自动获取提示消息解决办法

▇ 增加https无法收发消息&#xff1a; 严格按照教程修改 1./站点目录/public目录下,修改index.php define(whost,wss://kf.tpym.cn); define(wport,443); 2./站点目录/service 目录下,修改config.php // websocket 端口&#xff0c;客服系统网页会连这个端口 $websocket_…

防患未然,OceanBase巡检工具应用实践——《OceanBase诊断系列》之五

1. OceanBase为什么要做巡检功能 尽管OceanBase拥有很好的MySQL兼容性&#xff0c;但在长期的生产环境中&#xff0c;部署不符合标准规范、硬件支持异常&#xff0c;或配置项错误等问题&#xff0c;这些短期不会出现的问题&#xff0c;仍会对数据库集群构成潜在的巨大风险。为…

1999-2022年30省平均受教育年限(含原始数据和具体计算过程+计算结果)

1999-2022年30省平均受教育年限&#xff08;含原始数据和具体计算过程&#xff09; 1、时间&#xff1a;1999-2022年 2、范围&#xff1a;30省&#xff08;剔除西藏&#xff09; 3、计算方式&#xff1a;平均受教育年限&#xff08;未上学人数*0小学人数*6初中人数*9高中人数…

AI大模型的预训练、迁移和中间件编程

大家好&#xff0c;我是爱编程的喵喵。双985硕士毕业&#xff0c;现担任全栈工程师一职&#xff0c;热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。…

python.模块与包

1.模块是什么 本质上是一种python文件&#xff0c;以.py结尾&#xff0c;里面有类&#xff0c;函数&#xff0c;变量等&#xff0c;认为这是一个工具包&#xff0c;每个模块有不同的功能&#xff0c;导入后可以直接使用 2.模块的导入 方法1 import 模块名 使用&#xff1a…

展示模型展台的高度一般为多少---模大狮模型网

展示模型展台的高度一般取决于多个因素&#xff0c;包括展示物品的大小、展台的设计风格、展览场地的限制等。一般来说&#xff0c;展示模型展台的高度可以根据以下几点考虑&#xff1a; 展示物品的大小&#xff1a;如果展示物品比较大或需要竖立展示&#xff0c;展台的高度可能…

GraphGeo参文19:Auto-Encoding Variational Bayes

https://arxiv.org/abs/1312.6114 [19] Diederik P Kingma and Max Welling. 2014. Auto-encoding variational bayes. In ICLR. 【前言】:VAE模型是Kingma(也是Adam的作者)大神在2014年发表的文章,是一篇非常非常经典,且实现非常优雅的生成模型,同时它还为bayes概率图模型…

LVS负载均衡集群——NAT地址转换模式与DR直接路由

目录 一、LVS集群基本介绍 1、集群是什么&#xff1f; 2、集群的类型 ①负载均衡集群 ②高可用群集 ③高性能运算群集 3、负载均衡集群的结构 第一层&#xff0c;负载调度器 第二层&#xff0c;服务器池 第三层&#xff0c;共享存储 4、LVS负载均衡集群的三种工作模…

学习计算天数

学习计算天数 题目描述&#xff1a;解法思路&#xff1a;解法代码&#xff1a;运行结果&#xff1a; 题目描述&#xff1a; 输入y和m两个整数&#xff0c;y表示年份&#xff0c;m表示月份&#xff0c;计算y年m月有多少天&#xff0c;并输出天数。 测试1&#xff1a; 输⼊&…

Redis常见的15个【坑】,避坑指南

一、常见命令 1.1 过期时间意外丢失 原因&#xff1a; SET命令如果不设置过期时间&#xff0c;那么Redis会自动【擦除】这个key的过期时间 1.2 DEL命令阻塞redis key是String类型时&#xff0c;DEL时间复杂度是O(1)key是List/Hash/Set/ZSet类型&#xff0c;DEL时间复杂度是…

FRM模型十五:净值归因之Fama_French三因子模型

文章目录 一、起源二、构建因子三、投资组合的净值归因1. 市场因子2. 规模因子3.价值因子4. 基于净值的归因方法 三、代码实现 一、起源 在多因子模型推出之前&#xff0c;CAPM模型被视为资产定价的第一标准。随着市场不断发展&#xff0c;发现了越来越多CAPM模型无法解释的现…

Microsoft@ppt@快速掌握核心功能@常用功能培训

文章目录 refs动画动画的用途逐部分显示内容实现问答效果部分地修改页面内容动画效果 常用窗口对象选择窗口&#x1f47a;批量选择对象 如何为重叠的对象高效的命名重命名方式方案1方案2对象重命名原则重命名后如何使用tips 动画窗口&#x1f47a; 幻灯片管理幻灯片母版幻灯片母…

【软件测试】一个扫码支付的二维码怎么测(测试点分析)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 面试的时候&#…