对于数据中心来说,保持业务连续性是首要目标。 然而,庞大的数据中心面临着许多潜在的风险,小概率事件也可能带来灾难性的后果——机房火灾、服务器长期停机、声誉受损等。 据不完全统计,仅2020年以来,类似重大故障就发生了十几起。
梳理盘点后,列出了近三年来十大数据中心灾难事件。
事件一:韩国SK公司数据中心火灾
2022年10月15日,韩国SK公司C&C 数据中心发生火灾,约8小时后大火被扑灭。
火灾发生后,数据中心停电导致包括韩国国民级聊天软件Kakao Talk、主流电商平台NAVER在内的多项网络服务中断。 据《韩国时报》报道,火灾导致约3.2万台服务器瘫痪,数千万用户服务受到影响——截至2021年,韩国人口约为5200万。 一天后,Kakao Talk 和其他服务开始恢复。 数据中心客户表示,由于大量服务器丢失,恢复过程比预期要长。
调查发现,安装在地下室三楼电气设备间的5个电池架全部被烧毁,电池和架附近的火灾似乎是由电气因素引起的。
事件二:湖南电信荷花花园大厦起火
2022年9月16日,湖南省长沙市芙蓉区湖南电信大厦发生火灾。 数十层楼被猛烈烧毁。 消防人员赶到后,及时将火扑灭并疏散,未造成人员伤亡。 经初步勘察,现场起火点为建筑物外墙。 为防止发生危险,大楼内部分设备已断电。 据中国电信相关负责人和用户反映,部分用户手机的语音、短信功能受到影响,截至当晚12:00尚未恢复。
长沙电信大楼于2000年竣工,地上42层,地下2层。 该大楼内有荷花园电信机房,是湖南最大的干线接入点之一。 此前资料显示,该机房拥有25G光纤直连骨干网络,机架总数约1000个。
事发前的招标信息显示,该楼消防设备超支,火灾报警系统存在重大安全隐患。
事件3:谷歌数据中心电气爆炸
当地时间2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成三人受伤。
外媒报道称,三名电工在数据中心大楼附近的变电站工作时突然发生电弧闪光(电爆炸),导致三名电工严重烧伤。 事故发生后,谷歌地图和谷歌搜索在多个地区出现服务中断。 数据显示,此次故障影响了全球40多个国家/地区的至少1338台服务器,包括美国、澳大利亚、南非、肯尼亚、以色列、南美洲部分地区、欧洲和亚洲部分地区。
谷歌确认事故为电气事故,但没有透露具体原因。
事件四:英国高温导致多个数据中心宕机
2022年夏天,欧洲经历了酷暑。 当地时间7月16日,英国气温达到42℃。 伦敦的谷歌云和甲骨文数据中心均因温度过高而出现故障,导致系统停机。
报告称,数据中心内的两个冷却系统出现故障,导致数据中心内的温度越来越高。 部分系统自动采取保护措施关闭运行,导致部分用户数据使用延迟。 谷歌还表示,数据中心的冷却系统故障导致该区域部分容量故障,导致少数客户的VM(虚拟机)终止和机器丢失。 与此同时,谷歌关闭了机房内的部分机器,以防止进一步损坏。
谷歌表示,只有“一小部分用户”受到影响。
事件五:网易游戏厅大规模服务器宕机
2021年11月3日,网易多款游戏无法登录或掉线。
据《绝对推演》等游戏官方博客称,原因是机房过热,导致服务器宕机。 “机房报警,温度过高,部分服务器过热宕机,重启空调也没有解决问题……”。
事件发生约3小时后,网易游戏服务器已恢复正常登录,网易尚未对故障做出统一回应。
事件六:英国数据中心火灾
2021年8月27日,澳洲电信位于英国首都伦敦的托管数据中心发生火灾,导致停机。 消防队员表示,火灾导致半栋大楼断电,虽然三楼供电室只有一小部分被烧毁,但由于火灾导致支撑母线的断路器跳闸,工程师们不得不用发电机恢复供电。
据分析,此次火灾事故极有可能是由于UPS故障引起的。 此次事故破坏了温度保护、灭火、UPS预测性维护、UPS预防性维护等多重保障酒店楼宇自控故障,最终导致火灾。
事件七:洪水导致河南多机房停电
2021年7月,河南遭遇特大暴雨。 多个数据中心受洪水影响,机房停止服务:
河南移动枢纽机房断电,无法正常处理移动业务; 海腾郑州BGP机房、华中地区郑州BGP机房等数据中心因所在地区市电停电,停电1、2小时以上。 机房供电由柴油发电机和附近油站供电,由于道路积水,暂时无法向机房供油。 停电发生前,考虑到用户数据的安全,服务暂时停止。
西部数据郑州大区、晋江文学城、河南省产权交易中心用户发布通知称,因机房原因服务中断。
事件8:OVH数据中心火灾
当地时间2021年3月10日,欧洲云计算巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾。 OVH 在该地区拥有的四个数据中心全部暂停服务。 四个数据中心中,一个被完全烧毁,一个数据中心三分之一的服务器受损。
火灾发生后,约360个法国政府、企业和公用事业网站瘫痪。 欧洲部分游戏开发商的业务也受到影响。 位于数据中心的一些服务器被烧毁。 其中,《Rust》游戏表示,25个欧洲服务器完全被破坏,没有备份,数据无法修复。
尽管OVH在简短调查后解释称,火灾可能是由UPS引起的,但一年后法国官方事故调查机构发布的一份报告显示,这场灾难更有可能是由动力室逆变器周围潮湿引起的。
事件9:美国犹他州WebNX数据中心发生火灾
2021年4月,美国托管公司Web NX位于犹他州的奥格登数据中心起火,导致超过360万个网站出现故障。 约15000名客户的数据受到影响,部分客户数据完全丢失且无法恢复。
事件10: Azure美国东部数据中心服务中断6小时
2020年3月3日,微软Azure位于美国东部的数据中心出现了持续6个小时的服务中断,导致客户无法使用Azure云服务。
微软后来透露,冷却系统故障是造成停电的原因,楼宇自动化控制故障导致整个数据中心的气流减少,随后温度升高,影响了网络设备的性能,并使计算和存储实例无法访问。
…………
当然,2020年以来,数据中心发生的重大故障远不止上述这些。
例如,2020年8月,华为云香港机房制冷设备出现异常,导致服务器挂机3小时; 2022年10月,苏州国科数据中心屋顶因备用冷却塔起火而起火,但影响可能不大。 或者像苏州国科数据中心,机房和业务不受影响,所以不包括在内。
这里我们只盘点一下造成严重故障、影响较大的事件,以供大家认识和汲取教训。
自2020年9月我国承诺2030年前实现碳达峰、2060年前实现碳中和以来,已过去近三年时间,“双碳”目标的行动路径更加清晰。
2023年7月召开的全国生态环境保护大会明确,要妥善处理“双碳”承诺与自主行动的关系。 人们越来越明确的共识是,我国“双碳”目标坚定不移,但实现这一目标的路径和方法、节奏和强度由我们自己决定,不受他人影响。
“双碳”目标下,我国能源转型加速。 据国家能源局新和可再生能源司副司长王大鹏介绍,今年上半年,我国可再生能源装机达到13.22亿千瓦,同比增长18.2%,历史性超越煤电,约占我国总装机容量的48.8%。 。
生态环境部部长黄润秋给出的数据显示,我国在建水电、风电、太阳能、核电装机容量均居世界第一。 新能源汽车产销量连续八年位居世界第一,累计保有量达1310万辆。 全球一半以上的新能源汽车在中国行驶。
黄润秋表示,正是由于我国风能、光伏等可再生能源的技术进步和大规模应用,使得全球可再生能源的利用成本大幅降低。 2021年,全球太阳能光伏装机成本将比2010年下降约82%,风电装机成本将下降35%-40%。 这不仅促进了我国绿色低碳发展,也为全球减排做出了巨大贡献。
“双碳”战略引领的系统性变革正在显现。
党的二十大报告提出了“减污、减碳、绿色扩张、增长”的指导方针。 中国工程院院士、中国科学院生态环境研究中心研究员曲九辉表示,这意味着生态文明建设已经从单纯的污染治理,发展到协同污染减排。和碳减排,学者们的研究路径发生了重要变化。
曲九辉以流域管理为例进行分析。 他表示,未来可能有必要建立一个耦合流域生态足迹和碳足迹的系统评估方法。 在流域尺度上,温室气体排放、碳足迹和生命周期变化以不同方式和规模与人类活动密切相关,影响因素极其复杂。 在自然层面,考虑温室气体对流域生态足迹的影响,生态足迹核算方法需要完善,两者应统一,建立协同评估方法和监管机制。
“当近零排放和近零污染同时被视为环境目标时,环境科技的理念、原则、路径和底层逻辑将发生深刻的变化和重构。” 曲九辉说道。
据公众与环境研究中心主任马军介绍,我国用10年时间通过信息公开、数字技术等手段严格执法,有效治理大气、水污染。 在应对气候变化过程中,许多经验值得借鉴。
马军提到,未来可能需要构建“双碳”数据基础设施,以方便多方知情参与,进行有效的数据驱动评估,建立责任和激励机制。
在进行供应链气候行动评估时,马骏发现,一些企业不仅缺乏相关意识和能力,成本也成为行动的障碍。 他认为,因此有必要推广数字化解决方案,为中国企业开发温室气体核算平台,希望形成中国温室气体排放系数库和产品碳足迹的披露和检索平台。
马骏表示,大量企业实际上已经做了会计,但没有披露。 公众并不知道,就连投资者也很难获得这些信息。 “我们把它收集在一起,就像拼图一样,我们可以看到产品的整个生命周期。 碳足迹有利于便捷的碳足迹核算和碳数据获取。”
“与PM2.5、臭氧等污染物数据的大规模监测和发布类似,我们也需要让社会了解这些‘双碳’数据,并将‘双碳’指标放到全国范围内。” 马军透露,其他相关部门正在推动企业环境信息依法公开,目前碳市场公开量已达40亿吨。
国家气候变化战略研究和国际合作中心学术委员会主任李俊峰表示碳中和楼宇自控,应对气候变化的减缓措施中,最重要的是调动企业的积极性。 在制度安排上,要为企业可持续发展创造机会,引导企业真正融入可持续发展大局。
在李俊峰看来,ESG(环境、社会和公司治理)是企业的一面镜子。 每一件产品、每一项服务都体现了公司的竞争力、创新力和领导力。 ESG不仅不会给企业带来额外的负担,反而是企业发挥主动性和创造力的重要机会。
美国环境保护署副总裁、北京代表处首席代表秦虎认为,2035年是美丽中国建设取得成就的重要节点,也是通向碳达峰和碳中和的重要时间段。
围绕这一节点,秦虎建议尽快建立协调气候与自然治理的美丽中国指标体系。 协同推进气候变化、环境质量与健康、生态保护与修复三个维度的指标体系。 结合现代技术,构建多领域数据监控和信息共享平台。 实现美丽中国建设相关指标动态监测,提高数据透明度。