每日10亿数据的日志分析系统OOM

背景

一个每日10亿数据的日志清洗系统,主要工作就是从消息队列中消费各种各样的日志,然后对日志进行清洗,例如:用户敏感信息(姓名、手机号、身份证)进行脱敏处理,然后把清理完的数据交付给其他系统使用。
我们项目中,推荐系统、营销系统,大数据分析系统,都会使用清洗好的数据。

在这里插入图片描述

现场

收到线上的报警,发现日志清洗系统发生了OOM
查看日志发现是java.lang.OutOfMemoryError: java heap space
通过异常日志,能看到如下信息:

xx.xx.xx.log.clean.XXClass.process()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.process()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.process()
xx.xx.xx.log.clean.XXClass.xx()
xx.xx.xx.log.clean.XXClass.xx()

这里能够发现,同一个方法XXClass.process() 被反复调用了,最终导致了堆内存溢出的问题。
初步定位是,某处有不合理的递归调用,接下来使用MAT分析内存快照。

分析

  1. 通过MAT去分析的时候,我们就发现了一个问题,因为有大量的XXClass.process()方法的递归执行,每个XXClass.process()中都创建了大量的char数组!导致大量的char[] 数组,耗尽了内存。
  2. 此时,我们发现了一个问题,递归的次数不是很多,也就十几次到几十次递归。我们也观察了一下,所有创建的char[],占用的内存也就1G,这就有一个问题了,这次oom不全是代码的问题,可能是我们的jvm参数设置的不对,分配的堆内存空间太小了。
  3. 因为我们要分析是不是堆内存设置的太小了,就要分析jvm运行时的内存使用模型,只能去看jvm启动参数中加入的自动记录GC日志,在日志中,我们发现JVM启动时的核心参数:
    -Xmx1024m -Xms1024m -XX:+PrintGCDetails -XX:+PrintGC() -XX:+HeapDumpOnOutOfMemoryError -
    Xloggc:/opt/logs/gc.log -XX:HeapDumpPath=/opt/logs/dump
  4. 观察日志可以发现,jvm参数里指定了gc的日志路径,以及内存溢出时要导出的内存快照地址,还有给堆分配的内存-Xmx1024m -Xms1024m,这台机器是4 core 8G的,只分配1G内存太小了
  5. 接下来详细看下gc.log:
    [Full GC (Allocation Failure) 866M->654M(1024M)]
    [Full GC (Allocation Failure) 843M->633M(1024M)]
    [Full GC (Allocation Failure) 855M->621M(1024M)]
    [Full GC (Allocation Failure) 878M->612M(1024M)]
    在日志中发现,allocation failure触发的Full GC很多,也就是堆内存无法分配内存给新的对象了,然后触发GC,根据数据发现,每次full gc只能回收一点对象,而且日志中显示,是每秒full gc一次,很可怕。导致一直full gc的原因有两个,一个是老年代内存满了,每秒钟执行young gc之前,会发现老年代可用空间不够,就会提前触发full gc;另外一个可能是young gc之后,存活的对象无法放入到survivor区,都要进入老年代,放不下,就会触发full gc;
  6. 我们重启了系统,利用jstat分析了一下当时jvm运行时的内存模型,发现如下情况:
    S0 S1 E O YGC FGC
    0 100 57 69 36 0
    0 100 57 69 36 0
    0 100 65 69 37 0
    0 100 0 99 37 0
    0 100 0 87 37 1

jstat解析
YGC 从36 -> 37 表示发生一次young gc,但是我们发现old区从69 -> 99 ,表示young gc之后,survivor区放不下,直接进入lod区,紧接着发生了一次FGC,但是发现old区并没有回收掉多少内存,几次循环之后,内存就堆满了,直接触发oom。

优化

  1. 增加堆内存大小
    给堆内存加大空间,直接给了堆内存5G的内存。
  2. 改代码
    改写代码,让他不要占用过多的内存。当时代码之所以递归,就是因为在一条日志中,可能会出现很多用户的信息,一条日志也许会合并包含了十几个到几十个用户的信息。
    这个时候代码中就是会递归十几次到几十次去处理这个日志,每次递归都会产生大量的char[]数组,是切割了日志用来处理的。
    其实这个代码写的完全没有必要,因为对每一条日志,如果发现包含了多个用户的信息,其实就对这一条日志切割出来进行处理就可以
    了,完全没有必要递归调用,每次调用都切割一次日志,生成大量的char[]数组。
    所以把这一步代码优化了之后,一下子发现线上系统的内存使用情况降低了10倍以上。

总结

今天这个案例,大家会发现,我们先是通过OOM的排查方法去分析,发现主要是内存太小导致的问题。然后用gc日志和jstat分析,明显发现是内存不够用了,最后加大系统内存,并且优化代码就可以了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/615449.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

设计模式2——原则篇:依赖倒转原则、单一职责原则、合成|聚合复用原则、开放-封闭原则、迪米特法则、里氏代换原则

设计模式2——设计原则篇 目录 一、依赖倒转原则 二、单一职责原则(SRP) 三、合成|聚合复用原则(CARP) 四、开放-封闭原则 五、迪米特法则(LoD) 六、里氏代换原则 七、接口隔离原则 八、总结 一、依赖…

《2024年AI安全报告》:AIML工具使用量飙升594.82%

人工智能(AI)不仅仅是一种开拓性的创新技术,甚至已经成为一种常态,企业正在工程、IT营销、财务、客户服务等领域迅速采用AI和机器学习(ML)工具。但与此同时,他们必须平衡AI工具带来的诸多风险&a…

JWT深入浅出

文章目录 JWT深入浅出1.JWT是什么2.为什么选JWT2.1 传统Session认证2.2 JWT认证 3.JWT怎么用4. jwt绝对安全吗? JWT深入浅出 1.JWT是什么 JWT(JSON Web Token)是一种用于在网络应用间传递信息的开放标准,通常用于身份认证和非敏…

24寸2K显示器 - HKC G24H2

🔥🖥️ 嘿,大家好!今天,我要给大家介绍一款超棒的显示器——HKCG24H2!这款显示器可是个全能选手,无论你是工作狂人还是游戏迷,它都能满足你的需求! 😎&#x…

传输层之 UDP 协议

UDP协议端格式 教科书上的: 16位UDP长度,表示整个数据报(UDP首部UDP数据)的最大长度,描述了这个数据报多长; 实际上的: UDP 会把载荷数据,就是通过 UDP Socket,即 sen…

PyQt5批量生成Checkbox及批量检查Checkbox的勾选状态

批量生成Checkbox并添加到TableWidget中 for i in range(10):checkbox_i QCheckBox(fCheckbox_{i}) # 生成Checkbox并命名为Checkbox_iself.ui_1.tableWidget_1.setCellWidget(i,1,checkbox_i) 批量检查勾选状态 # 批量生成Checkbox并存入列表 list_Checkbox_1 [] for …

vue3专栏项目 -- 三、使用vue-router 和 vuex(下)

一、添加columnDetail 页面 首页有专栏列表(ColumnList组件),专栏列表中有很多专栏,然后点击某个专栏就进入专栏详情页(ColumnDetail组件),专栏详情页中有很多文章,点击某个文章就进…

uni-segmented-control插件使用

dcloud插件市场 前端/uniapp 1.HBuildX打开目标项目 2.进入dcloud插件市场下载目标插件 3.看到如下提示(已经可以在目标项目中使用插件啦) 4.项目正式使用

物联网平台之单体架构

介绍本文主要介绍平台的单体架构,包括各个组件之间的数据流描述以及所做的一些架构选择。在单体架构模式下,所有 ThingsKit 组件都在单个 Java 虚拟机 (JVM) 中启动,并共享相同的操作系统资源。由于 ThingsKit 是用 Java 编写的,因…

springcloud alibaba微服务框架涉及的技术

一、微服务架构中核心模块及其使用技术总览 二、各模块详细说明 1、注册中心 该模块主要功能为 自动提供服务的注册与发现,集中式管理服务,让 服务调用端发现服务,让服务提供端注册服务,倘若没有注册中心,那客户端就…

JUC下的BlockingQueue详解

BlockingQueue是Java并发包(java.util.concurrent)中提供的一个接口,它扩展了Queue接口,增加了阻塞功能。这意味着当队列满时尝试入队操作,或者队列空时尝试出队操作,线程会进入等待状态,直到队列状态允许操作继续。这…

记录使用极空间NAS通过Docker部署小皮面板(PhpStydy)运行 八图片当面付支付宝接口 PHP项目的遭遇

事件的起因还得从我用八图片的图片加密支付跳转功能,实现打赏金额发案例源码下载链接挣个烟钱的事。八图片的支付接口是PHP web项目的。正好我有个极空间的NAS,搭建到NAS上省去了买主机的费用。 导读 八图片是什么?极空间NAS 部署 PHP网站安装…

eNSP中小型园区网络拓扑搭建(上)

→b站直通车,感谢大佬← →eNSP中小型园区网络拓扑搭建(下)← 不带配置命令的拓扑图已上传~ 项目背景: 某公司准备新建一张网络供企业办公使用。写字楼共3层,一层会客大厅、二层行政部及市场部、三层研发部。一层设…

探讨 vs2019 c++ 里函数指针与函数类型在使用上的语法区别

(1)咱们可以用 decltype () 来判断函数的类型。但以这个类型定义有用的可指向已存在函数的变量,却行不通。测试如下: 如果把上面的注释去掉会报错: 所以函数类型只有语法意义。但在使用上没有函…

InputStream,OutputStream的用法以及相应的案例

1. 文件系统的操作:File类。 2. 文件内容的操作:Stream流。 字符流:IntputStream , OutputStream。 字节流:read , write。 InputStream,OutputStream InputStream和OutputStream都不能被实例…

论文笔记:DeepMove: Predicting Human Mobility with Attentional Recurrent Networks

WWW 2018 1 Intro 根据对百万级用户群的研究,93%的人类移动是可预测的。 早期的mobility预测方法大多基于模式的。 首先从轨迹中发现预定义的移动模式(顺序模式、周期模式)然后基于这些提取的模式预测未来位置。最近的发展转向基于模型的方法进行流动性预测。 利用…

Django性能之道:缓存应用与优化实战

title: Django性能之道:缓存应用与优化实战 date: 2024/5/11 18:34:22 updated: 2024/5/11 18:34:22 categories: 后端开发 tags: 缓存系统Redis优点Memcached优缺点Django缓存数据库优化性能监控安全实践 引言 在当今的互联网时代,用户对网站和应用…

阿里云Redis创建使用

说明:本文介绍如何使用阿里云Redis,包括开通、连接、使用; 开通 进入官网Redis产品页,点击免费试用(白嫖); 选择中间这个,云数据库Redis版; 开通完成后,可在…

应对【核弹级风险】,中小企业如何构建【轻量级】开源治理策略?

开源 三句半 开源治理建团队 制度工具要完善 积极参与开源事 深度实践! 4月份曝光的“XZ后门事件”是一起历时两年半的“开源供应链投毒”典型案例,被定义为“核弹级漏洞事件”,其揭示了开源技术的安全短板,引发了众多企业的紧急…

C++青少年简明教程:基础知识

C青少年简明教程:基础知识 电脑程序设计(Computer programming),或称程序设计(programming),是给出解决特定问题程序的过程,程序设计往往以某种程序设计语言为工具,给出这…