又又又崩了?盘点 23 年十大线上事故!

以下文章来源于前端充电宝 ,作者CUGGZ

2023 年,互联网世界日新月异,线上应用已成为我们生活中不可或缺的一部分。然而,在这一年里,一系列令人咋舌的线上事故频频发生。“XXX 崩了” 成为热搜常客。这些事故不仅给用户带来了不便和困扰,也暴露出线上服务在稳定性、安全性和应对突发事件的能力方面存在的问题。

本文将盘点 2023 年的十大线上事故,以期为未来的线上服务提供借鉴和警示。

哔哩哔哩

3 月 5 日晚,B 站出现服务器故障,网页端和移动端的视频均无法加载,转发的视频链接显示“资源失效”。

图片

 

受影响的主要是“番剧”和“影视”页面,用户反映“追番一直提示获取视频内容失败”、“显示页面加载失败”、“看番看一半加载不出来”。还有用户反映,首页能够加载,但全部是繁体字。

图片

 

6 月 28 日,不少用户反应“B 站崩了”,该词条随后上了热搜。用户反映“追番一直提示获取视频内容失败”“显示页面加载失败,你们也这样吗?”“看番看一半加载不出来,我以为我的网有问题”。

该问题持续了一个多小时才被解决。


腾讯

3 月 29 日凌晨,大量网友称微信、QQ 等腾讯旗下社交软件出现功能异常。微信包括语音呼叫、账号登录、朋友圈以及支付在内的多个功能无法正常使用,QQ 文件传输、QQ 空间、QQ 邮箱等也同样出现问题。

图片

 

腾讯客服对此回应称,由于系统故障,部分用户使用微信支付相关功能出现异常,目前正在紧急修复中。用户资金安全不受影响。故障修复后,相关功能使用将恢复正常。

图片

 

此次事故是由广州电信机房冷却系统故障导致,腾讯将其定义为公司一级事故。

事后,工信部通信管理局就微信“3.29 事件”约谈了腾讯相关人员,听取了情况汇报,并要求腾讯公司进一步健全安全生产管理制度、落实网络运行保障措施,坚决避免发生重大安全生产事故,切实提升公众业务安全稳定运行水平。

图片

 

12 月 3 日, 腾讯视频突然没有会员了。

图片

 

对此,腾讯视频官方微博回应:目前腾讯视频出现了短暂技术问题,我们正在加紧修复,各项功能在逐步恢复中。感谢您的耐心等待,由此给您带来的不便我们深感歉意。

图片

 


唯品会

3 月 29 日,“唯品会崩了”登上微博热搜。唯品会对此进行了回应:

图片

 

事后,唯品会发布了一份处理公告,将 329 机房宕机故障判定为 P0 级故障。官方在公告中称,此次南沙机房重大故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万。唯品会表示,决定对此次事件严肃处理,对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。


Boss 直聘

5 月 24 日,网友反映 Boss 直聘崩了。随后 Boss 直聘回应称:今日上午部分用户使用 boss 直聘 pc 端时,部分功能出现异常,经过紧急抢修,目前已恢复。

7 月 6 日,许多用户打开 BOSS 直聘,发现页面中显示“系统服务错误”,无法正确切换身份。还有网友表示,正和求职者聊着,要马上约面试了,结果就崩了。BOSS 直聘也于当天发布消息称,“7 月 6 日上午,BOSS 直聘 APP 出现短时间服务异常,经过团队抢修已恢复正常。期间为用户带来的不便我们深表歉意。我们将持续优化服务保障。感谢大家一直以来的关注与支持”。

9 月 15 日,“BOSS 直聘”突然崩溃,许多用户无法刷新页面,无法查看新的招聘信息,甚至无法进行聊天交流。

在社交媒体上,一位自称是 BOSS 直聘员工表示,金九银十是招聘旺季,2023 年 9 月 15 日 10 点 15 分 26 秒,在线统计超过 4700 万人在刷 BOSS 页面,目前服务器超荷载,正在维护,找工作的人比国庆买票的人还着急。

BOSS 直聘回应称,关注到一张网传截图。服务器崩了,是真的。技术要改进,是真的。网传的数据,是假的。请大家不信谣,不传谣。据最新数据,每月使用 BOSS 直聘的用户,4360 万人。”

图片

 


语雀

10 月 23 日,蚂蚁金服旗下的在线文档编辑与协同工具语雀发生了前所未有的 P0 级事故,导致平台无法正常访问和使用,持续了近 8 个小时(14:10 至 21:45)

图片

 

事后,语雀给出了故障原因及处理过程:

10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。具体过程如下:

  • 14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;

  • 14:15 联系硬件团队尝试将下线机器重新上线;

  • 15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。

  • 15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长

  • 19 点完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;

  • 21 点存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。

以及改进措施:

通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的“可监控,可灰度,可回滚”的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的恢复速度,并从根本上避免这类故障再次出现。为此我们制定了如下改进措施:

  1. 升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;

  2. 运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生;

  3. 缩小运维动作灰度范围,增加灰度时间,提前发现 bug;

  4. 从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

并针对语雀个人用户,赠送了 6 个月的会员服务。


阿里云

11 月 12 日 17 时左右,阿里云突然出现事故,导致阿里云、淘宝、闲鱼、钉钉等几乎阿里全系应用都出现了问题。19 时 20 分左右,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等应用已全面恢复。

图片

 

据统计,这次异常的影响范围涉及 API 网关、视频点播、运维事件中心在内的 100 多个产品,北京、硅谷、伦敦等 25 个地域受影响。

事后,阿里云并未对外公布事故原因。不过网上流传着一份事故报告,仅供参考:

图片

 


滴滴

11 月 27 日晚,滴滴出行出现系统崩溃,至 28 日修复,崩溃时间长达 12 小时。11 月 29 日,滴滴公布了此次超长时间系统故障的致歉声明。初步调查结果显示,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”。

图片

 

这次事故发生时,上海、北京、广州等多地滴滴用户反馈,滴滴出行 APP 无法使用,地图无法加载。有网友称,使用滴滴呼叫了网约车后,APP 突然无法使用,司机找不到乘客。有网约车司机在社交平台表示,正在送乘客途中,出现导航无法使用,地图无法加载等情况。

图片

 


喜马拉雅

12 月 19 日,不少网友反馈,喜马拉雅 App 出现崩溃状况,无法正常使用或聆听节目。随后,喜马拉雅官博发文致歉,称目前已紧急修复,不会影响用户的会员等权益。

图片

 


Chatgpt

11 月 8 日 22:00 开始,不少网友反馈 OpenAI 的 ChatGPT,包括 API 都无法正常使用。OpenAI 出现故障的时间大约持续了 100 分钟,

图片

 

事后,OpenAI 也已经把这回的故障,定性为了「严重停机」(Major Outage)。OpenAI 表示发现一个问题,导致 ChatGPT 和 API 错误率很高,正在努力解决。直到 23:33,OpenAI 表示确定并实施了修复方案,服务逐渐恢复正常。

图片

 

OpenAI CEO 奥特曼表示,devday(开发者大会)新功能的使用情况远远超出预期,公司原计划周一为所有订阅者启用 GPT,但仍未能实现。由于负载的原因,短期内可能会出现服务不稳定的情况。

图片

 


X

12 月 21 日,国外知名社交平台 X(原推特)遭遇突发崩溃事故。许多用户反映无法正常加载页面、浏览个人资料、查看粉丝列表等操作,该社交平台几乎处于瘫痪状态。

这已是 X 平台今年第二次大规模宕机事件。早在今年 3 月,该平台便经历了一次全球性中断。自 440 亿美元收购后,马斯克对其进行了大幅裁员,裁员幅度接近 80%,其中包括许多负责修复和防止服务中断的工程师。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/290185.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从第一步开始

从新建文件到开始写代码 新建文件 创建项目步骤 选择C++ 选择存放路径,给项目起个名字 最后选择编译器 进入写代码环节 写代码 #include <iostream>using

SSM共享汽车租赁平台----计算机毕业设计

项目介绍 本项目分为前后台&#xff0c;前台为普通用户登录&#xff0c;后台为管理员登录&#xff1b; 管理员角色包含以下功能&#xff1a; 管理员登录,修改管理员信息,用户信息管理,管理新闻公告,汽车品牌信息管理,城市信息管理,租赁点信息管理,共享汽车信息管理,汽车订单信…

SQL Server从0到1——报错注入

报错注入分为三类&#xff1a;隐式转换&#xff0c;和显示转换&#xff0c;declare函数 隐式转换&#xff1a; 原理&#xff1a;将不同数据类型的数据进行转换或对比 select * from test.dbo.users where (select user)>0 #对比 select * from test.dbo.users where ((sel…

电锯切割狂

欢迎来到程序小院 电锯切割狂 玩法&#xff1a;把木块切成等分的碎片&#xff0c;每关都会有切割次数&#xff0c;木块数&#xff0c;切割越均匀分数越搞&#xff0c; 有简单、正常、困难、专家版&#xff0c;快去解锁不同版本进行切割吧^^。开始游戏https://www.ormcc.com/pl…

c++的三大特性之关于继承

目录 继承的概念及定义 基类和派生类对象赋值转换 继承中的作用域 派生类的默认成员函数 继承与友元&#xff0c;静态成员 继承的概念及定义 概念&#xff1a; 继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段&#xff0c;它允许程序员在保持原有类…

【计算机毕业设计】SSM二手交易网站

项目介绍 该项目分为前后台&#xff0c;前台普通用户角色&#xff0c;后台管理员角色。 管理员主要功能如下&#xff1a; 登陆,商品分类管理,商品管理,商品订单管理,用户管理等功能。 用户角色主要功能如下&#xff1a; 包含以下功能&#xff1a;查看所有商品,用户登陆注册…

ctfshow——PHP特性

文章目录 web 89web 90web 91web 92web 93web 94web 95web 96web 97web 98web 99 web 89 使用人工分配 ID 键的数值型数组绕过preg_match. 两个函数&#xff1a; preg_match()&#xff1a;执行正则表达式&#xff0c;进行字符串过滤。preg_match函数用法&#xff0c;正则表达式…

springboot漫画网站源码和论文

随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理系统应运而生&#xff0c;各行各业相继进入信息管理时代&#xf…

2024美赛数学建模常用数学建模模型之——层次分析法

一、层次分析法的基本原理与步骤 人们在进行社会的、经济的以及科学管理领域问题的系统分析中&#xff0c;面临的常常是 一个由相互关联、相互制约的众多因素构成的复杂而往往缺少定量数据的系统。层次 分析法为这类问题的决策和排序提供了一种新的、简洁而实用的建模方法。 …

【C语言】程序练习(四)

大家好&#xff0c;这里是争做图书馆扫地僧的小白。非常感谢各位的支持&#xff0c;也期待着您的关注。 目前博主有着C语言、C、linux以及数据结构的专栏&#xff0c;内容正在逐步的更新。 希望对各位朋友有所帮助同时也期望可以得到各位的支持&#xff0c;有任何问题欢迎私信与…

安卓Android Studio读写FM1208CPU卡源码

本示例使用的发卡器&#xff1a;https://item.taobao.com/item.htm?spma1z10.5-c-s.w4002-21818769070.11.6c46789elLwMzv&id615391857885 <?xml version"1.0" encoding"utf-8"?> <androidx.constraintlayout.widget.ConstraintLayout x…

STL-string

目录 &#x1f4a1;介绍 &#x1f4a1;string的基本操作 &#x1f4a1;string的构造函数 &#x1f4a1;string赋值操作 &#x1f4a1;string字符串拼接 &#x1f4a1;string的查找和替换 &#x1f4a1;string字符串比较 &#x1f4a1;string字符存取 &#x1f4a1;str…

全志R128硬件设计指南②

PCB设计 叠层设计 R128采用两层板或四层板设计。 2层板设计参考 4层板设计参考 SoC Fanout R128封装采用 8x8mm QFN设计&#xff0c;0.35mm ball pitch&#xff0c;0.17mm ball size&#xff0c;可支持 2 层板方案与 4 层板方案。 两层板 Fanout 建议 尽量保证 SOC 背面 …

C#高级:Lambda表达式分组处理2(WITH ROLLUP关键字)

目录 一、问题引入 二、with rollup查询 三、去掉多余数据 四、拓展 一、问题引入 查询SQL后结果如下&#xff0c;字段分别是用户、项目、批次、工作时间&#xff1a; SELECT UserID,ProjectID,ProBatchesID,WorkHour FROM MAINTABLE GROUP BY HourFiller ,ProjectID ,…

LeetCode 热题 100——42. 接雨水

给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 示例 1&#xff1a; 输入&#xff1a;height [0,1,0,2,1,0,1,3,2,1,2,1] 输出&#xff1a;6 解释&#xff1a;上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表…

总结MySQL 的一些知识点:MySQL 排序

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

YOLOv5独家原创改进:一种新颖的自适应空间相关性金字塔注意力 ,实现小目标暴力涨点

💡💡💡本文改进:自适应空间相关性金字塔注意力 ----提取特征图的多尺度空间信息,并且进行空间相关特征重标定,最后选择性地增强有效的特征,最终在YOLOv5进行实现,在小目标检测领域上实现暴力涨点。 收录 YOLOv5原创自研 https://blog.csdn.net/m0_63774211/…

常见网络协议

1.DNS协议 &#xff08;域名系统&#xff09; DNS协议使用的端口号是53 位于OSI模型中的应用层 DNS系统的作用&#xff1a;将域名&#xff08;网址&#xff09;解析为IP地址。 DNS的基本原理是&#xff1a;将域名映射到IP地址 DNS工作流程 当用户给定一个域名&#xff0…

KVM配置桥接

1、KVM桥接作用 &#xff08;1&#xff09;KVM的NAT网络默认是Linux操作系统里面的virtbr0网卡&#xff0c;它充当的就是KVM虚拟机里面的NAT网卡&#xff08;就是192.168.122.0网段的这张网卡&#xff09;。因为KVM采用的NAT网络&#xff0c;所以KVM虚拟机能否上网&#xff0c…

利用ChatGLM3构建Prompt实现Text2SQL

之前使用ChatGLM3的自定义工具实现了查询MySQL数据库&#xff0c;但感觉功能还是比较受限。 https://blog.csdn.net/weixin_44455388/article/details/135270879?spm1001.2014.3001.5501 使用ChatGLM3实现Text2SQL 前言Text2SQL的构建第一阶段&#xff1a;SQL脚本构建&#xf…