阿里云机房火灾?盘点五大机房火灾现场

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

下午好,我的网工朋友。

不知道大家有没有看到今天有关阿里云的新闻,没错就是阿里云新加坡的网络节点出现了异常,背后的原因竟是我们多有耳闻的——机房火灾。

e8064fd0057e63e911ffea83938f730b.jpeg
不仅仅作为网工,也作为数据中心用户,每次看到类似的事情都难免感到一丝忧虑,不仅仅是因为火灾本身可能造成的物理损害,更因为这样的事件对于依赖这些数据中心运行关键服务的企业和用户来说,可能意味着服务中断、数据丢失,甚至是业务的暂时停滞。
不止阿里云这次的事件,类似的机房起火问题可谓屡见不鲜。数据中心的火灾不仅仅是一个设施的问题,更是一个警示。
今天就来聊聊阿里云这次的事情,也给大家盘点一下近几年来比较严重的数据中心火灾事件。
 

今日文章阅读福利:《 机房建设方案(详细版) 

这次事件问题又出现在机房,我准备了一份长达69页的机房建设案例送给你。私信我,发送暗号“机房建设”,即可获得资源。

01 阿里云机房火灾

今天(9月10日),阿里云官方发布《新加坡可用区 C 机房火灾》公告,表示北京时间2024年09月10日10:20,阿里云监控发现新加坡地域可用区C网络访问出现异常,部分云产品服务出现异常,阿里云工程师正在紧急处理中。

异常原因是新加坡机房发生火灾导致升温,消防人员已到达现场处置。

01 处理进度

根据披露的进度信息,云网络大部分产品及云安全产品于10:55已完成主动切换;

截至11:30,按照产品调度策略,云数据库Redis/MongoDB/RDS MySQL、对象存储OSS、表格存储OTS等云产品的高可用版本已陆续完成容灾切换;

截至12:15,按照产品调度策略,云原生大数据计算服务MaxCompute 已完成容灾切换;

14:40,受影响机房包间的火情已经基本得到控制,机房温度仍高。

部分OSS对象存储、数据库等产品的单AZ版本,需待受影响物理机柜具备重新开机条件后恢复。其余高可用版本的云产品均已完成主动迁移。

4667433b75eb699fc667e3d889ac27cd.jpeg

截止今天下午17:00,阿里云新加坡节点还有17项服务异常。

火灾原因及因机房火灾带来的影响暂未看到官方披露的信息。根据此前消息,阿里云计划在7月15日之后暂停在印度的数据中心服务,在澳大利亚的设施则将在9月30日之后停止运营,并建议客户将业务迁移至阿里云新加坡或其他地域的数据中心。

数据中心是数据存储、处理的基础设施,其安全性至关重要。近年来,数据中心火灾在全世界范围内已造成巨大的经济损失,严重威胁人身安全。

02 相似案例

01 孟加拉国数据中心火灾导致3人死亡

2023年10月27日,孟加拉国首都达卡一座14层的大楼发生火灾,造成3人死亡,十人受伤,该国互联网服务遭到严重瘫痪。

据悉,这座大楼内有多个互联网网关、交换中心和数据中心,火灾导致了大量的设备和物资损毁。

fb4a54c871fd9c9b0cb42bb44d292b1e.jpeg

据报道,孟加拉国1200万宽带互联网用户中约有40%在火灾期间遭遇了网络中断,而该国1.2亿移动互联网用户中约有20%在数据和语音服务方面遇到了问题。

02 韩国SK公司数据中心火灾导致3.2万服务器瘫痪

2022年10月15日,韩国SK公司C&C板桥数据中心发生火灾,大火在大约8小时后被扑灭。

起火后数据中心断电造成韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断。据《韩国时报》报道,本次火灾导致了约3.2万个服务器瘫痪,数千万用户服务受到影响——截止2021年,韩国人口约为5200万。

一天之后Kakao Talk等服务才开始陆续恢复。数据中心客户表示,由于损失了大量服务器,恢复过程比预期的要长。

42a6347aae6e41768c811b65aa7b02c5.jpeg

调查发现,安装在地下三层电气设备室的5个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

03 Web NX美国犹他州数据中心火灾造成超360万个网站故障

2021年4月,美国主机托管公司Web NX位于犹他州的奥格登数据中心发生火灾。

a2c3809e58b92c32596d6749232ed9d6.jpeg

该火灾导致超360万个网站出现故障,约1.5万名客户的资料受到影响,部分客户数据完全丢失且无法恢复。

04 OVH数据中心火灾致使法国政府瘫痪

当地时间2021年3月10日,欧洲云计算巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾,OVH在该区域拥有的4个数据中心全部暂停服务

4座数据中心中,一座被完全烧毁,一座的服务器损毁了三分之一。

起火后,瘫痪的法国政府、企业与公共事业网站达到约360个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25台欧洲服务器完全损毁,没有备份,数据无法被修复。

35d09bd0b0a415d2ba55d210050d612a.jpeg

尽管OVH短时间调查后解释,此次起火可能因UPS引起,但一年后法国官方事故调查机构的发布的报告显示,灾难更大可能是由电力室逆变器周围的湿气引起的。

05 谷歌数据中心电气爆炸造成3人严重烧伤

当地时间2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成3人受伤。

媒体报道,3名电工在数据中心大楼附近的变电站工作时,突然发生了电弧闪光(电气爆炸),导致三名电工被严重烧伤。事故发生后,多个地区的谷歌地图、谷歌搜索出现中断服务情况,有数据显示,该故障影响了全球40多个国家/地区的至少1338台服务器,包括美国、澳大利亚、南非、肯尼亚、以色列、南美洲部分地区、欧洲和亚洲部分地区。

谷歌证实了这场意外为电力事故,但未披露具体原因。

数字时代,数据中心的底座作用毋庸置疑,而包括火灾在内的事故严重威胁数据中心安全,将造成巨大的损失。

数据中心相关方应加强协同合作,从设计、建设、运维、监管等方面进行优化发展,提高数据中心的可靠性和可恢复性,减少数据中心的事故发生率和影响范围,为数字化、智能化的发展提供安全保证。

整理:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/874632.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【828华为云征文|如何使用华为云Flexus X实例搭建私人博客:从配置到发布全指南】

文章目录 华为云Flexus X实例介绍搭建专属私人博客准备工作具体操作指南服务器环境确认宝塔软件商店操作一键部署WordPress私人博客域名解析WordPress安装初始页数据库信息配置运行安装程序配置博客信息博客管理后台(默认为wp-login.php页面)博客前台页面…

让AI成为打光工具人(Stable Diffusion进阶篇:Imposing Consistent Light)

前言 正巧我之前一直在学习的B站up也恢复了关于Stable Diffusion的教程,今天就一起来学习一下IC-Light,这样一项可以帮助喜欢拍照的同学们打光布景的插件。 IC-Light IC-Light的全称是Imposing Consistent Light,翻译过来就是给物体施加一…

Git 修改Push后的Commit Message

向远程仓库push代码之后,在IDEA中无法直接修改Commit Message,需要在终端或控制台中输入以下命令(HEAD~1中的1表示只对最后一个提交进行修改,因此1可以自定义) git rebase -i HEAD~1执行完rebase指令后,会…

F12抓包06-4:导出metersphere脚本

课程大纲 metersphere是一站式的开源持续测试平台,我们可以将浏览器请求导出为HAR文件,导入到metersphere,生成接口测试。 metersphere有2种导入入口(方式),导入结果不同: 1.导入到“接口定义”…

白盒测试覆盖例题

答案:A D 知识点 定义 特点 语句覆盖 被测试程序中的每条语句至少测试一次 对执行逻辑覆盖很低,一般认为是很弱的逻辑覆盖 判定覆盖 被测试程序每个判定表达式至少落得一次“真”值和“假值” 判定覆盖比语句覆盖更强一些。判定可以是一个条件或…

DIC技术助力新能源汽车主机厂力学测试研发与整车性能提升

在新能源汽车研发过程中,非接触式全视场应变DIC测量方案,越来越受到汽车主机厂的信赖与认可。传统接触式传感器,在精度、灵活性和数据处理能力上存在局限。DIC技术可提供精确、高效、全视场、便捷的非接触式测量解决方案。 在汽车研发阶段&a…

Proteus 仿真设计:开启电子工程创新之门

摘要: 本文详细介绍了 Proteus 仿真软件在电子工程领域的广泛应用。从 Proteus 的功能特点、安装与使用方法入手,深入探讨了其在电路设计、单片机系统仿真、PCB 设计等方面的强大优势。通过具体的案例分析,展示了如何利用 Proteus 进行高效的…

Win10 9月更新补丁KB5043064发布:21H2/22H2用户不容错过!

系统之家于9月11日发出最新报道,微软向Win10用户推出9月最新更新补丁KB5043064,更新后,21H2用户更新后系统版本号将升至19044.4894,22H2用户更新后版本号也升至19045.4894。本次更新解决了部分内存泄露导致的问题。下面就和系统之…

哪些开放式耳机好?开放式耳机的优缺点有哪些?

现在的开放式耳机真的是非常的多了,品牌众多的情况下,我们很难的有效选择出一款开放式耳机到底适不适合自己,所以这篇文章就是来告诉大家如何才能更好的辨别一款适合自己并且还不错的开放式耳机,当然,会有人问&#xf…

Python 封装、继承和多态

在学习 Python 这门编程语言时,你会接触到一些重要的面向对象编程(OOP)概念,比如封装、继承和多态。这些概念不仅是 Python 的核心特性,也是理解和使用高级编程技巧的基础。本文将通俗易懂地解释这些概念,特…

302.AI学术论文搜索工具的智能体验

Hey朋友们, 你是否曾在学术的海洋里迷失方向,为了找到一篇论文而苦苦挣扎? 就像在茫茫大海中寻找灯塔,我们渴望一盏明灯,指引我们前行。 别担心,今天我来给你介绍一个超级给力的工具——302.AI学术论文…

9.9日记录

1.常见排序算法的复杂度 1.快速排序 1.1快速排序为什么快 从名称上就能看出,快速排序在效率方面应该具有一定的优势。尽管快速排序的平均时间复杂度与“归并排序”和“堆排序”相同,但通常快速排序的效率更高,主要有以下原因。 出现最差情况…

推荐一款开源、高效、灵活的Redis桌面管理工具:Tiny RDM!支持调试与分析功能!

1、引言 在大数据和云计算快速发展的今天,Redis作为一款高性能的内存键值存储系统,在数据缓存、实时计算、消息队列等领域发挥着重要作用。然而,随着Redis集群规模的扩大和复杂度的增加,如何高效地管理和运维Redis数据库成为了许…

操作系统 --- 线程(Threads)概念 多线程模型 线程控制与组织

零、学习路线 一、线程的引入,什么是线程,为什么要引入线程? 如果说,在OS中引入进程的目的是为了使多个程序能并发执行,以提高资源利用率和系统吞吐量,那么,在操作系统中再引入线程&#xff0c…

Request Response

1 前言 1.1 内容概要 理解Request、Response和HTTP报文之间的关系掌握通过Request能够获得的信息 请求URL、URI、请求协议请求头、客户机和主机请求参数 掌握通过Response能够完成的设置 响应中文乱码问题响应(Json)字符串、图片(文件&a…

C#使用MQTT(一):MQTT服务端

MQTT(Message Queuing Telemetry Transport) 即时通讯协议, 开发商 IBM MQTT(消息队列遥测传输)是ISO 标准(ISO/IEC PRF 20922)下基于发布/订阅范式的消息协议。它工作在 TCP/IP协议族上,是为硬件性能低下的远程设备以及网络状…

串口接收不到数据之电阻虚焊bug分析思路

单片机和EC移远通信模块进行通信,相同的代码运行在相同的硬件上,但是一个能联网,一个因为没有EC的应答连不上网。 开始分析,排除软件问题,给EC模块发为什么没应答? 1.发送失败 2.接收失败 排除情况2&#x…

005:VTK世界坐标系中的相机和物体

VTK医学图像处理---世界坐标系中的相机和物体 左侧是成像结果 右侧是世界坐标系中的相机与被观察物体 目录 VTK医学图像处理---世界坐标系中的相机和物体 简介 1 在三维空间中添加坐标系 2 世界坐标系中的相机 3 世界…

使用AMD CPU实例部署通义千问Qwen-Audio-Chat

介绍 Qwen-Audio是阿里云研发的大规模音频语言模型(Large Audio Language Model)。Qwen-Audio可以以多种音频(包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出。在Qwen-Audio的基础上&#xff0…

校篮球联赛系统小程序的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,公告管理,基础数据管理,球队管理,球员管理,赛事信息管理,用户管理,轮播图信息 微信端账号功能包括&#…