记一次 .NET某企业数字化平台 崩溃分析

一:背景

1. 讲故事

前些天群里有一个朋友说他们软件会偶发崩溃,想分析看看是怎么回事,所幸的是自己会抓dump文件,有了dump就比较好分析了,接下来我们开始吧。

二:WinDbg 分析

1. 程序为什么会崩溃

windbg 还是非常强大的,当你双击打开的时候会自动帮你定位过去展示崩溃时刻的寄存器和线程栈上下文,都省了 !analyze -v 命令分析了,输出如下:


Loading unloaded module list
...............
This dump file has an exception of interest stored in it.
The stored exception information can be accessed via .ecxr.
(1dc.774): Stack overflow - code c00000fd (first/second chance not available)
For analysis of this file, run !analyze -v
000007f8`93111989 837c243000      cmp     dword ptr [rsp+30h],0 ss:0000007b`e7894160=00000000

从卦中可以看到有一个 Stack overflow 异常,说明当前栈溢出了,有点意思。

2. 栈溢出了吗

如果你想探究下栈溢出也是可以的,用 rsp 比较下 !teb 中的 StackLimit 值。


0:019> r rsp
rsp=0000007be7894130

0:019> !teb
TEB at 000007f6cd664000
    ExceptionList:        0000000000000000
    StackBase:            0000007be7a10000
    StackLimit:           0000007be7891000
    SubSystemTib:         0000000000000000
    FiberData:            0000000000001e00
    ArbitraryUserPointer: 0000000000000000
    Self:                 000007f6cd664000
    EnvironmentPointer:   0000000000000000
    ClientId:             00000000000001dc . 0000000000000774
    RpcHandle:            0000000000000000
    Tls Storage:          0000007be84b5b90
    PEB Address:          000007f6cd7af000
    LastErrorValue:       0
    LastStatusValue:      c0000302
    Count Owned Locks:    0
    HardErrorMode:        0

0:019> !address -f:Stack

        BaseAddress      EndAddress+1        RegionSize     Type       State                 Protect             Usage
--------------------------------------------------------------------------------------------------------------------------
      7b`e7890000       7b`e7891000        0`00001000 MEM_PRIVATE MEM_RESERVE                                    Stack      [~19; 1dc.774]
      7b`e7891000       7b`e7a10000        0`0017f000 MEM_PRIVATE MEM_COMMIT  PAGE_READWRITE                     Stack      [~19; 1dc.774]

从卦中看 PAGE_GUARD 页已经抹掉了,这就表示当前的 rsp 已经进入到这个 0x3000 大小的 PAGE_GUARD 页面里去了。

有些朋友可能会有一个疑问,这个异常是怎么被界定为 StackOverflowException 的呢? 如果你了解哨兵页就比较简单了,一旦rsp进了这个哨兵页,在这里抛出的异常会被界定为 c00000fd,最后这个异常会被 coreclr 的 MapWin32FaultToCOMPlusException 方法强制转为托管的 StackOverflowException 异常,这个都是有源码支撑的。


EXCEPTION_RECORD:  (.exr -1)
ExceptionAddress: 000007f8ed571a90 (coreclr!MetaDataImport::Enum+0x0000000000000030)
   ExceptionCode: c00000fd (Stack overflow)
  ExceptionFlags: 00000001
NumberParameters: 2
   Parameter[0]: 0000000000000001
   Parameter[1]: 0000007be7893f38

DWORD MapWin32FaultToCOMPlusException(EXCEPTION_RECORD *pExceptionRecord)
{
    switch (pExceptionRecord->ExceptionCode)
    {
		...
        case STATUS_STACK_OVERFLOW:
            return (DWORD) kStackOverflowException;
        ....

		default:
            return kSEHException;
    }
}

3. 到底谁给弄溢出了

现在我们定位到的线程就是栈溢出线程,使用 kc 观察调用栈,输出如下:


0:019> kc
 # Call Site
00 System_Private_CoreLib!System.Reflection.RuntimeCustomAttributeData.GetCustomAttributeRecords
01 System_Private_CoreLib!System.Reflection.CustomAttribute.AddCustomAttributes
02 System_Private_CoreLib!System.Reflection.CustomAttribute.GetCustomAttributes
03 System_Private_CoreLib!System.Attribute.GetCustomAttributes
...
0c SqlSugar!SqlSugar.MemberExpressionResolve..ctor
0d SqlSugar!SqlSugar.BaseResolve.Start
0e SqlSugar!SqlSugar.BinaryExpressionResolve.Right
0f SqlSugar!SqlSugar.BinaryExpressionResolve.DefaultBinary
10 SqlSugar!SqlSugar.BinaryExpressionResolve.Other
11 SqlSugar!SqlSugar.BinaryExpressionResolve..ctor
12 SqlSugar!SqlSugar.BaseResolve.Start
13 SqlSugar!SqlSugar.BinaryExpressionResolve.Right
14 SqlSugar!SqlSugar.BinaryExpressionResolve.DefaultBinary
15 SqlSugar!SqlSugar.BinaryExpressionResolve.Other
16 SqlSugar!SqlSugar.BinaryExpressionResolve..ctor
17 SqlSugar!SqlSugar.BaseResolve.Start
...

默认的 kc 只能显示 255 个线程栈,在栈溢出场景下没办法完全展开,不管怎么样从栈看貌似是 SqlSugar 导致的栈溢出,那它是这次灾难的罪魁祸首吗?

4. SqlSugar 是祸首吗

要想找到这个答案,需要看下 SqlSugar 是被怎样的用户代码调用的,有两种办法,要么在 k 上设置 StackPtr,要么设置最大的栈个数 0xffff ,这里选择后者。


0:019> kc 0xffff
 # Call Site
....
145b SqlSugar!SqlSugar.ExpressionContext.Resolve
145c SqlSugar!SqlSugar.QueryBuilder.GetExpressionValue
145d SqlSugar!SqlSugar.QueryableProvider<xxx>._Where
145e SqlSugar!SqlSugar.QueryableProvider<xxxx>.Where
145f SqlSugar!SqlSugar.SimpleClient<xxx>.GetListAsync
1460 xxx!xxx.TSqlSugar.xxx<xxx.Entities.Quality.xxxSummaryEntity>.<QueryAsync>d__37.MoveNext
1461 System_Private_CoreLib!System.Runtime.CompilerServices.AsyncMethodBuilderCore.Start<<QueryAsync>d__37>
1462 xxx!xxx.TSqlSugar.BaseRepository<xxx.xxxSummaryEntity>.QueryAsync
1463 xxx!xxxxCalculateService.<xxxnRate>d__26.MoveNext
...

从卦中可以看到有一个 xxxxCalculateService 用户类调用了 QueryAsync 方法,接下来直接到源码定位,截图如下:

这段代码乍一看貌似没有问题,但仔细看还是有一些端倪的,对,就是当 diffMonth 很大时, expressionable 就会累计出很多的 And 条件,在QueryAsync的时候底层的 SqlSugar 在拆解 expressionable 的过程中抛出了异常。

5. SqlSugar 真的在拆解中异常了吗

拆解表达式树的代码太难了,我真的看不懂,在这种情况下如何寻找突破口呢?这里可以逆向的想一想,既然是拆解,自然就会产生很多小段sql,所以直接到 托管堆中看下当前的 string 情况即可。


0:019> !strings
Address            Gen    Length   Value
---------------------------------------
...
0000007bc15a0240   LOH     97005   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
0000007bc15cf850   LOH     97005   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
0000007bc15fee60   LOH     97009   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
0000007bc162e478   LOH     97009   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
0000007bc165da90   LOH     97074   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
0000007bc168d130   LOH     97099   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
0000007bc16bc800   LOH     97099   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
0000007bc16ebed0   LOH     97103   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
0000007bc171b5a8   LOH     97103   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
0000007bc174ac80   LOH     97113   ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((((...
....
---------------------------------------
39498 strings

从卦中看真厉害,有很多 近10w 左右的 string,拆开 string 看正是And中的表达式树里的字段,这里就不展示了。

三:总结

这次程序崩溃主要是朋友的奇葩写法导致 SqlSugar 在拆解表达式树的时候抛了异常,个人觉得底层最好把 递归 改成 循环 之类的避免栈溢出,看了下SqlSugar版本 File version: 5.1.4.143 还是比较新的,所以先建议朋友换写法观察看看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/648924.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从0开始回顾ElasticSearch

1 elasticsearch概述 1.1 elasticsearch简介 官网: https://www.elastic.co/ ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎&#xff0c;基于RESTful web接口。Elasticsearch是用Java开发的&#xff0c;并作为Apache许可条款下的…

芯课堂 | 芯片抗干扰测试方案

MCU芯片对所在环境中存在的电磁干扰须具有一定程度的抗扰度&#xff0c;确保使用该芯片的设备能正常运行。国际电工委员会&#xff08;IEC&#xff09;制定了多项国际标准&#xff0c;其中与MCU芯片相关的有IEC61000-4-2 &#xff08;静电&#xff09;&#xff0c; IEC61000-4-…

RK3568笔记二十六:音频应用

若该文为原创文章&#xff0c;转载请注明原文出处。 一、介绍 音频是我们最常用到的功能&#xff0c;音频也是 linux 和安卓的重点应用场合。 测试使用的是ATK-DLR3568板子&#xff0c;板载外挂RK809 CODEC芯片&#xff0c;RK官方驱动是写好的&#xff0c;不用在自己重新写。…

家居的3D交互展示用什么工具比较专业?

家居的3D交互展示可以使用多种专业工具来实现&#xff0c;这些工具不仅能够在手机和电脑上查看&#xff0c;还能在手机上进行交互操作&#xff0c;如放缩、旋转等&#xff0c;并且支持高清流畅的画面展示。以下是一些推荐的3D交互展示工具&#xff1a; 1、在线3D展示软件&…

牛客热题:寻找第K大

&#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;力扣刷题日记 &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 文章目录 牛客热题&#xff1a;寻找第K大题目链接方法一&#…

Docker基础篇之Docker入门介绍

文章目录 1. 为什么要有Docker&#xff1f;2. Docker简介3. 容器和虚拟机的区别4. Docker下载 1. 为什么要有Docker&#xff1f; 假设我们现在正在开发一个项目&#xff0c;使用的是一台笔记本电脑而且开发环境具有特定的配置&#xff0c;其他开发人员身处的环境配置也各不相同…

ZeroTier+Nomachine远程

目录 前述&#xff1a;一、Zero二、Nomachine 前述&#xff1a; 需要远程控制时&#xff0c;服务端与客户端都必须下载这两个软件&#xff01;远程主机&#xff08;被控制的主机&#xff09;和远程客户端&#xff08;控制主机的用户&#xff09;都必须具有网络连接&#xff0c;…

地铁判官:啥时候B端系统界面,也出个“判官”,讲好不准打脸。

小编所在的城市——山东青岛&#xff0c;出了个地铁判官&#xff0c;我看了视频&#xff0c;哈哈哈&#xff0c;俗世的判断标准就是那么简单直接&#xff0c;而放到B端系统那就难说啦。 如何判断B端系统的优劣&#xff0c;各位看官&#xff0c;各抒己见吧。 判断B端系统界面的…

如何深入理解、应用及扩展 Twemproxy?no.15

Twemproxy 架构及应用 Twemproxy 是 Twitter 的一个开源架构&#xff0c;它是一个分片资源访问的代理组件。如下图所示&#xff0c;它可以封装资源池的分布及 hash 规则&#xff0c;解决后端部分节点异常后的探测和重连问题&#xff0c;让 client 访问尽可能简单&#xff0c;同…

揭秘:如何使用Python统计女友生日还剩几天?

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、引言&#xff1a;为何需要统计生日天数&#xff1f; 二、需求分析与准备 1. 用户输入格…

为什么我们会固执己见、为什么我们总认为自己是对的?

人为什么固执己见&#xff0c;是其所是&#xff0c;而非其所非&#xff1f;我们要有什么样的思维模式才能使自己有良好的判断力&#xff0c;才能作出恰当的预测和良好的决定呢&#xff1f;作者Julia Galef对TED发表演讲时提出自己的观点。以下是演讲的文字实录。 我想让你们想象…

spring boot 之 结合aop整合日志

AOP 该切面仅用于请求日志记录&#xff0c;若有其他需求&#xff0c;在此基础上扩展即可&#xff0c;不多逼逼&#xff0c;直接上代码。 引入切面依赖 <!-- 切面 --> <dependency><groupId>org.springframework.boot</groupId><artifactId>sp…

如果查看svn的账号和密码

一、找到svn存放目录&#xff08;本地默认存放SVN用户信息的目录为&#xff1a;C:\Users\Administrator\AppData\Roaming\Subversion\auth\svn.simple&#xff09;每个人的电脑环境不一样&#xff0c;因人而异。 如果找不到直接搜索svn.simple 二、下载密码查看工具 链接: 百…

面试被问到不懂的东西,是直接说不懂还是坚持狡辩一下?

大家好&#xff0c;我是瑶琴呀。 面试被问到不懂的东西&#xff0c;是直接说不懂还是坚持狡辩一下&#xff1f;这个问题可以转变一下&#xff0c;如果你顺利拿到 offer&#xff0c;公司安排的工作跟你之前的技术和经验不匹配&#xff0c;你还愿意干下去吗&#xff1f; 转变一…

条款7:千万不要重载,||和,操作符

&&和|| 和C一样&#xff0c;C对于“真假值表达式”采用所谓的“骤死式”评估方式。意思是一旦该表达式的真假值确定&#xff0c;即使表达式中还有部分尚未检验&#xff0c;整个评估工作仍告结束。 举个例子&#xff0c;在下面情况中: char *p; ... if ((p!0)&&a…

单片机超声波测距+WTD588D语音播报的设计

第一章 绪论 1.1 课题设计目的及意义 1.1.1设计的目的 随着科学技术的快速发展&#xff0c;超声波在测距中的应用越来越广。但就目前的急速水平来说&#xff0c;人们可以具体利用的测距技术还十分有限&#xff0c;因此&#xff0c;这是一个正在蓬勃发展而又有无限前景的技术…

基于51单片机多功能太阳能充电器设计

1 绪论1.1 本课题研究背景及现状 当代社会随着一些不可再生资源如煤炭&#xff0c;石油等日益减少&#xff0c;使得各国社会经济越来越受能源问题的约制&#xff0c;因此许多国家开始逐渐的实行“阳光计划”&#xff0c;开发洁净的能源如太阳能&#xff0c;用以成为本国经济发…

C++多态总结与原理、菱形继承问题

文章目录 多态什么是多态 多态的定义及实现多态的构成条件虚函数 虚函数的重写虚函数重写的两个例外协变 重写C11 override 和 final重载、覆盖(重写)、隐藏(重定义)的对比 抽象类概念接口继承和实现继承小结 多态的原理虚函数表多态的原理动态绑定与静态绑定 单继承和多继承关…

数据结构之二叉树的超详细讲解(2)--(堆的概念和结构的实现,堆排序和堆排序的应用)

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 数据结构之二叉树的超详细讲解(2)--(堆的概念和结构的实现,堆排序和堆排序的应用) 收录于专栏【数据结构初阶】 本专栏旨在分享学习数据结构学习的一点学习笔记…

IC解析之TPS1HB08-Q1

目录 1.主要参数2. 接口定义3. 工作原理分析高低边驱动的作用TPS1HB08-Q1架构TPS1HB08-Q1典型应用电路参数设置 4.总结 1.主要参数 2. 接口定义 其中&#xff0c;不同的IC版本在故障反馈引脚有所差异&#xff0c;A/B版本则为ILIM功能&#xff0c;F版本则为FLT功能&#xff0c;两…