号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
下午好,我的网工朋友。
不知道大家有没有看到今天有关阿里云的新闻,没错就是阿里云新加坡的网络节点出现了异常,背后的原因竟是我们多有耳闻的——机房火灾。
不仅仅作为网工,也作为数据中心用户,每次看到类似的事情都难免感到一丝忧虑,不仅仅是因为火灾本身可能造成的物理损害,更因为这样的事件对于依赖这些数据中心运行关键服务的企业和用户来说,可能意味着服务中断、数据丢失,甚至是业务的暂时停滞。
不止阿里云这次的事件,类似的机房起火问题可谓屡见不鲜。数据中心的火灾不仅仅是一个设施的问题,更是一个警示。
今天就来聊聊阿里云这次的事情,也给大家盘点一下近几年来比较严重的数据中心火灾事件。
今日文章阅读福利:《 机房建设方案(详细版) 》
这次事件问题又出现在机房,我准备了一份长达69页的机房建设案例送给你。私信我,发送暗号“机房建设”,即可获得资源。
01 阿里云机房火灾
今天(9月10日),阿里云官方发布《新加坡可用区 C 机房火灾》公告,表示北京时间2024年09月10日10:20,阿里云监控发现新加坡地域可用区C网络访问出现异常,部分云产品服务出现异常,阿里云工程师正在紧急处理中。
异常原因是新加坡机房发生火灾导致升温,消防人员已到达现场处置。
01 处理进度
根据披露的进度信息,云网络大部分产品及云安全产品于10:55已完成主动切换;
截至11:30,按照产品调度策略,云数据库Redis/MongoDB/RDS MySQL、对象存储OSS、表格存储OTS等云产品的高可用版本已陆续完成容灾切换;
截至12:15,按照产品调度策略,云原生大数据计算服务MaxCompute 已完成容灾切换;
14:40,受影响机房包间的火情已经基本得到控制,机房温度仍高。
部分OSS对象存储、数据库等产品的单AZ版本,需待受影响物理机柜具备重新开机条件后恢复。其余高可用版本的云产品均已完成主动迁移。
截止今天下午17:00,阿里云新加坡节点还有17项服务异常。
火灾原因及因机房火灾带来的影响暂未看到官方披露的信息。根据此前消息,阿里云计划在7月15日之后暂停在印度的数据中心服务,在澳大利亚的设施则将在9月30日之后停止运营,并建议客户将业务迁移至阿里云新加坡或其他地域的数据中心。
数据中心是数据存储、处理的基础设施,其安全性至关重要。近年来,数据中心火灾在全世界范围内已造成巨大的经济损失,严重威胁人身安全。
02 相似案例
01 孟加拉国数据中心火灾导致3人死亡
2023年10月27日,孟加拉国首都达卡一座14层的大楼发生火灾,造成3人死亡,十人受伤,该国互联网服务遭到严重瘫痪。
据悉,这座大楼内有多个互联网网关、交换中心和数据中心,火灾导致了大量的设备和物资损毁。
据报道,孟加拉国1200万宽带互联网用户中约有40%在火灾期间遭遇了网络中断,而该国1.2亿移动互联网用户中约有20%在数据和语音服务方面遇到了问题。
02 韩国SK公司数据中心火灾导致3.2万服务器瘫痪
2022年10月15日,韩国SK公司C&C板桥数据中心发生火灾,大火在大约8小时后被扑灭。
起火后数据中心断电造成韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断。据《韩国时报》报道,本次火灾导致了约3.2万个服务器瘫痪,数千万用户服务受到影响——截止2021年,韩国人口约为5200万。
一天之后Kakao Talk等服务才开始陆续恢复。数据中心客户表示,由于损失了大量服务器,恢复过程比预期的要长。
调查发现,安装在地下三层电气设备室的5个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。
03 Web NX美国犹他州数据中心火灾造成超360万个网站故障
2021年4月,美国主机托管公司Web NX位于犹他州的奥格登数据中心发生火灾。
该火灾导致超360万个网站出现故障,约1.5万名客户的资料受到影响,部分客户数据完全丢失且无法恢复。
04 OVH数据中心火灾致使法国政府瘫痪
当地时间2021年3月10日,欧洲云计算巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾,OVH在该区域拥有的4个数据中心全部暂停服务。
4座数据中心中,一座被完全烧毁,一座的服务器损毁了三分之一。
起火后,瘫痪的法国政府、企业与公共事业网站达到约360个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25台欧洲服务器完全损毁,没有备份,数据无法被修复。
尽管OVH短时间调查后解释,此次起火可能因UPS引起,但一年后法国官方事故调查机构的发布的报告显示,灾难更大可能是由电力室逆变器周围的湿气引起的。
05 谷歌数据中心电气爆炸造成3人严重烧伤
当地时间2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成3人受伤。
媒体报道,3名电工在数据中心大楼附近的变电站工作时,突然发生了电弧闪光(电气爆炸),导致三名电工被严重烧伤。事故发生后,多个地区的谷歌地图、谷歌搜索出现中断服务情况,有数据显示,该故障影响了全球40多个国家/地区的至少1338台服务器,包括美国、澳大利亚、南非、肯尼亚、以色列、南美洲部分地区、欧洲和亚洲部分地区。
谷歌证实了这场意外为电力事故,但未披露具体原因。
数字时代,数据中心的底座作用毋庸置疑,而包括火灾在内的事故严重威胁数据中心安全,将造成巨大的损失。
数据中心相关方应加强协同合作,从设计、建设、运维、监管等方面进行优化发展,提高数据中心的可靠性和可恢复性,减少数据中心的事故发生率和影响范围,为数字化、智能化的发展提供安全保证。
整理:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部