Flashduty 案例分享 - 途游游戏

Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者。

本次有幸在邹老板支持下访谈到途游资深运维工程师高工,聊一下“途游游戏”在 Flashduty 的实践经验。另外,也欢迎大家下载途游的游戏放松一下,哈哈。

除了途游,莉莉丝、悠星等游戏用户也是Flashduty的用户,场景大抵是类似的,废话不多说,让我们一起来揭开游戏公司 OnCall 的面纱。

1. 辛苦高工先简要介绍一下您所在的团队以及贵司的业务领域特点。

我们主要是游戏项目平台服务,以非容器环境为主,部分平台类业务有使用K8s; 游戏项目大多是 go、python、java、c# 类后端,部署运行于虚拟机或者物理机上,通过运用开源的中间件、数据库构建起来游戏业务后端环境,整体资源以多云+机房IDC构成,部分项目资源使用云服务+虚拟机,部分为自建服务;整体监控场景和需求面涉及相对较为复杂。

2. 在使用 FlashDuty 之前,贵司是通过什么方式发告警的?主要痛点是什么?

我们一直是 Falcon、夜莺系 用户,之前没有 Flashduty 之前,我们通过自研的告警发送代理服务来对接 Falcon、夜莺 进行告警发送,最开始因为无任何收敛处理,有遇到 P0 电话告警把手机打爆只能关机的情况(抖动导致的大面积告警),也有把钉钉机器人发死的情况,短信发的无法正常接收短信,后来经过一些判断收敛处理,有一定的缓解,但自已改造的收敛逻辑仍是无法更高效的收敛,且处理逻辑相对较为复杂,同时也怕逻辑处理 BUG 掩盖掉正常的有效告警;还有一点是我们自己的告警发送服务没有值班机制,所有告警所有运维人接收,对短信、电话成本也是一种浪费,更为严重的问题是全组发送严重干扰大家的休息时间

3. 贵司应该也用了多个监控系统吧,云上的、云下的,现在都对接了 Flashduty 么?效果如何?

现在我们夜莺 V6 通过对接 Flashduty,有效帮助我们落地监控 Oncall 值班机制,同时在告警收敛上,更为便捷有效;同时我们在云平台侧的云告警也对接到 Flashduty 后就也解决了告警无法有效触达以及无法值班处理的机制。

4. 在对接 Flashduty 过程中是否遇到一些问题呢?请问是如何解决的呢?

在对接 Flashduty 的过程倒是很顺利,使用较为便捷,只是告警模板上花了点时间进行定制修改,另外在 Flashduty平 台上的告警统计分析中,我们开始查看不太方便,后来通过告警事件的不同维度聚合(告警级别、告警标题等)展示更方便我们进行值班告警事件回顾闭环,使用起来很方便。

5. 您对 Flashduty 中哪几个功能设计最为认可?哪些功能切实解决了您的痛点?
  1. 多平台对接,把不同平台的告警统一一个地方进行告警发送、OnCall值班,开箱即用;
  2. 告警收敛效果很好,在默认收敛配置下降噪比平均在 80% 以上;
6. 对于未来有计划采用 Flashduty 的客户,您这边有什么实践经验分享么?

利用好值班功能及对应的升级,做好告警的责任分权,谁是第一负责人谁接收谁处理谁跟进,让用户自服务使用监控,运维做好指导培训;

小编注:途游的运维工程师在和研发工程师的协作过程中,扮演的是教练和 Platform 提供方的角色,这应该是一种典型的组织架构,让研发自助服务可以大幅提升人效,当然,前提是得有好 Platform 做支撑。

7. 这段时间下来,你使用 Flashduty 感受如何?对我们是否有一些建议?

当前很好用了,后面可以加一些智能的告警分析,比如哪些告警策略需要什么样的优化,在数据运营层面给我们做一些赋能。

另外目前其实已经能接入事件源,是否能把事件墙功能集成一下在 Flashduty 中,毕竟生产环境的故障 70% 都来自变更,如果能把变更事件统一化到一个地方呈现,对于故障定位是一个极大的助力。

小编注:这个功能其实已经提供了,可能高工不清楚,回头需要单独介绍一下这个功能啦,哈哈。

关于Flashduty

🛎️ Flashduty 中心化告警处理,在正确的时间通知正确的人

20231123151522

20231123151528

💸 每一分钟都很关键,降低故障时间,就是赚钱

20231123151540

20231123151546

20231123151554

🖇️ 您常用的监控系统,我们都可以集成

20231123151607

告警事件的及时处理,对于线上稳定性保障至关重要。一款中心式的告警事件 OnCall 中心,去除告警风暴,确保告警不遗漏,还能分析故障处理的MTTA、MTTR等效率指标,先进的团队需要拥有,快来免费体验吧:FlashDuty - 快猫星云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/311139.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第一个动态结构:链表

王有志,一个分享硬核Java技术的互金摸鱼侠加入Java人的提桶跑路群:共同富裕的Java人 今天我们一起学习线性表中的第二种数据结构:链表,也是真正意义上的第一个动态数据结构。今天的内容分为3个部分:认识链表&#xff0…

IIS+SDK+VS2010+SP1+SQL server2012全套工具包及安装教程

前言 今天花了两个半小时安装这一整套配置,这个文章的目标是将安装时间缩短到1个小时 正文 安装步骤如下: VS2010 —> service pack 1 —>SQL server2012 —> IIS —> SDK 工具包链接如下: https://pan.baidu.com/s/1WQD-KfiUW…

微软开源时空预测Fost的使用和解读

一、引言 时空预测是指对未知系统状态在时间和空间上的预测,它是地球系统科学、交通运输、智慧城市等领域的重要技术和工具。时空预测的目的是利用历史数据和当前信息,通过建立时空依赖关系,来推断未来的变化趋势和可能的情景。时空预测的应…

Hive数据库:嵌入、本地、远程全攻略(上)

Hive分布式数据仓库工具 关系型数据库 建立在关系模型之上的数据库称为关系型数据库(关系模型是由埃德加科德于1970年提出的),关系型数据库借助集合代数等数学概念处理数据库中的数据。数据查询语言SOL是基于关系型数据库的语言,能够对关系型数据库中的数据进行检…

单摆波运动

1、简介 单摆波运动通常由15个单摆小球完成,每个小球的线长不一致,线长从一端至另一端依次增长。线长不一致会导致运动周期不一致,故而单摆波运动中的每个小球运动都不同,且能在规则与不规则运动间转换。单摆波运动如下所示&…

Qt QComboBox组合框控件

文章目录 1 属性和方法1.1 文本1.2 图标1.3 插入和删除1.4 信号和槽 2 实例2.1 布局2.2 代码实现 Qt中的组合框是集按钮和下拉列表体的控件,,它占用的屏幕空间很小,对应的类是QComboBox 1 属性和方法 QComboBox有很多属性,完整的…

力扣hot100 路径总和Ⅲ dfs 前缀和 一题双解 超全注释

Problem: 437. 路径总和 III 思路 树的遍历 DFS 一个朴素的做法是搜索以每个节点为根的(往下的)所有路径,并对路径总和为 targetSumtargetSumtargetSum 的路径进行累加统计。 使用 dfs1 来搜索所有节点,复杂度为 O(n)O(n)O(n)&am…

【计算机网络】TCP原理 | 可靠性机制分析(三)

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【网络编程】【Java系列】 本专栏旨在分享学习网络编程、计算机网络的一点学习心得,欢迎大家在评论区交流讨论💌 目…

数据结构第十二弹---堆的应用

堆的应用 1、堆排序2、TopK问题3、堆的相关习题总结 1、堆排序 要学习堆排序,首先要学习堆的向下调整算法,因为要用堆排序,你首先得建堆,而建堆需要执行多次堆的向下调整算法。 但是,使用向下调整算法需要满足一个前提…

全网最细RocketMQ源码一:NameSrv

一、入口 NameServer的启动源码在NameStartup,现在开始debug之旅 二、createNamesrcController public static NamesrvController createNamesrvController(String[] args) throws IOException, JoranException {System.setProperty(RemotingCommand.REMOTING_VER…

Java中多线程二

抢占调度模型 概述:优先让优先级高的线程使用 CPU ,如果线程的优先级相同,那么随机会选择一个,优先级高的线程获取的 CPU 时间片相对多一些 Thread 类中一些关于线程的方法 方法简述public final int getPriority()返回此线程的优…

五、Java中SpringBoot组件集成接入【slf4j日志文档】

五、Java中SpringBoot组件集成接入【slf4j日志文档】 1.slf4j简介2.maven依赖3.配置4.使用5.展示6.参考文章 1.slf4j简介 SLF4J(Simple Logging Facade for Java)是一个为Java应用程序提供统一日志接口的日志门面框架。它旨在解决Java应用程序中日志系统…

居中面试问题

前端常问居中面试问题 css文本居中 文本水平居中 <div class"father"><div class"child"><div> <div>子类元素为行内元素&#xff0c;则给父类元素定义text-align:center 如果子元素是块元素&#xff0c;则给子元素定义margin&…

Vue3快速入门

文章目录 1. Vue3简介1.1. 【性能的提升】1.2. 源码的升级】1.3. 【拥抱TypeScript】1.4. 【新的特性】 2. 创建Vue3工程2.1. 【基于 vue-cli 创建】2.2. 【基于 vite 创建】(推荐)2.3. 【一个简单的效果】 3. Vue3核心语法3.1. 【OptionsAPI 与 CompositionAPI】Options API 的…

Linux系统——测试端口连通性方法

目录 一、TCP端口连通性测试 1、ssh 2、telnet&#xff08;可能需要安装&#xff09; 3、curl 4、tcping&#xff08;需要安装&#xff09; 5、nc&#xff08;需要安装&#xff09; 6、nmap&#xff08;需要安装&#xff09; 二、UDP端口连通性测试 1、nc&#xff08;…

85.乐理基础-记号篇-速度记号

内容来源于&#xff1a;三分钟音乐社 上一个内容&#xff1a;85.乐理基础-记号篇-力度记号-CSDN博客 速度记号在下方两个里面已经写过一部分了&#xff0c;这些标记总体上是属于 不变速度 的标记&#xff0c;比如一首乐谱就记了 每分钟60拍&#xff0c;那整首速度就都是不变的…

org.springframework.web.servlet.HandlerInterceptor

过期 1 配置黑名单 2 启动注册拦截 3 浏览器访问拦截

【Spring Cloud】Sentinel流量限流和熔断降级的讲解

&#x1f389;&#x1f389;欢迎来到我的CSDN主页&#xff01;&#x1f389;&#x1f389; &#x1f3c5;我是Java方文山&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;推荐给大家我的专栏《Spring Cloud》。&#x1f3af;&#x1f3af; &am…

【SAP-PP】生产订单导入问题--完成日期向前推了一天

问题描述&#xff1a; 在执行BAPI_PRODORD_CREATE生产订单导入的时候&#xff0c;发现填写入模板中的基本完成日期是12月31日&#xff0c;但是到具体工单时变成了12月30日 截图说明&#xff1a; 感觉很神奇&#xff0c;咋一看&#xff0c;真的是日期提前了一天&#xff0c;de…

线性回归实例

1、线性回归&#xff08;linear Regression&#xff09;和逻辑回归&#xff08;logistic Regression&#xff09;的区别 线性回归主要是用来拟合数据&#xff0c;逻辑回归主要是用来区分数据&#xff0c;找到决策边界。 线性回归的代价函数常用平方误差函数&#xff0c;逻辑回…