谷歌数据中心炸了

日前,谷歌谷歌数据中心又出事了 。数据

美国当地时间周一中午,中心炸位于爱荷华州康瑟尔布拉夫斯(Council Bluffs)附近的谷歌谷歌数据中心发生爆炸。据警方初步调查 ,数据3名电工在数据中心大楼附近的中心炸变电站作业时发生了电气事故,现场导致3人受伤。谷歌

事件相关电视画面 。数据图源 :互联网

在爆炸发生数小时后,中心炸谷歌的谷歌搜索、地图等服务均出现了中断报告 。数据

事实上 ,中心炸这已经是谷歌短短一个月内谷歌数据中心发生的模板下载第二起事故 。就在上个月19号 ,数据位于伦敦的中心炸谷歌云数据中心也出现了故障 。据谷歌公司发布的报告称 ,事故肇因是“多个冷却系统同时发生故障”,且适逢伦敦极端高温天气 ,外部温度异常高 ,机器无法维持安全的工作温度。这一宕机事件直到翌日早上才恢复 。

数据中心的重要性和特殊性无需赘言 ,但近年来,亿华云我们看到数据中心发生爆炸、失火、断电等事故的新闻越来越多。尤其是随着极端高温天气的频频出现 ,骄阳似火的夏天对数据中心来说逐渐变成一个“劫”。

热浪滚滚 :越来越危险的夏天

数据中心设备多、能耗高。盘点一下这些年发生的数据中心事故,可以看到 ,每次事故总会造成难以预估的香港云服务器重大损失 。

OVH机房失火。图源 :互联网

2021年3月,欧洲云计算巨头OVH位于法国斯特拉斯堡的机房发生严重火灾。据悉,火灾导致360万个网站瘫痪,部分客户数据完全丢失且无法恢复  。2018年11月 ,韩国三大电信运营商之一KT位于首尔市中心的大楼发生火灾。由于通信设备受损 ,此次事故导致韩国的警察 、医院、金融等社会基础设施被迫停转 。建站模板2018年8月,东京某建筑发生火灾,该建筑为建设中的亚马逊AWS东京数据中心 。大火燃烧了8个小时,导致5人死亡 ,50人受伤 。2017年4月,北京邮电大学网络数据中心突发火灾,起火原因系UPS蓄电池组故障 。众多北京高校校园网纷纷崩溃  。2015年10月  ,微软Azure上海数据中心由于机房着火断电发生故障,导致Azure无法提供正常服务,影响了包括金融、互联网 、高防服务器房地产在内的行业用户 。2014年7月 ,重庆农商行数据中心发生火灾 ,整个机房全部烧毁。据传,直接损失达一亿以上。

......

数据中心机房作为海量数据的关键载体,其安全性是整个计算机信息系统安全的前提,但它往往又很脆弱 ,总是牵一发而动全身。特别是云计算机房火灾,一旦发生总会造成不可挽回的损失。

在数据中心发生的各类事故中,火灾事故占比极大。常见的起火原因包括:

  1、UPS电池起火 。

  2 、负载过大 。通常来说 ,在机房加设备并不难  ,但线缆负载却不能轻易改造 。如果线缆负载过大 ,导致过热也会引发事故。

  3 、空调设备或电气设备故障 。以空调设备来说,作为机房不可缺少的设备 ,电加热器和电加湿器也常常是火灾的诱因。

  4、火焰蔓延引起的二次火灾  。

  5、高温 、多雷雨天气  。

数据中心里 ,大量计算机集中运行 ,本身就会产生巨大的热量 ,为了让服务器及时散热,冷却系统必不可少。加之近年来 ,夏天越来越热,酷暑高温天越来越多 ,外界温度的变化对数据中心的冷却压力也随之增大。

今年7月,英国出现了两天创纪录的极端高温。结果也正如我们所见,谷歌位于伦敦的数据中心冷却系统因此“中招”。业内人士表示  ,通常来说,数据中心在设计时就会考虑能否耐高温这个问题 ,但现在的极端高温天气已远远超出许多数据中心运营者的预判。

行业数据显示,数据中心设备运行时的最佳温度为22℃。在基准温度情况下,温度每升高10℃计算机的可靠性就下降25% 。不可否认,冷却系统对数据中心不可或缺  ,但过多使用冷却系统又会导致二氧化碳的大量排放 ,加剧温室效应 ,造成恶性循环。

为了应对极端天气,同时更科学合理地节能降耗 ,科技公司普遍都在探索绿色 、低碳、节能的冷却路径 。

神奇操作:潜深海,挖大山,一切为了“冷却”

面对散热难题,国内外部分厂商“脑洞大开”,在数据中心选址上就开始另辟蹊径。

阿里巴巴千岛湖数据中心于2015年正式启动 。千岛湖地区年平均气温17度,其常年恒定的深层湖水水温,足以让数据中心90%的时间都不依赖湖水之外的制冷能源,制冷能耗节省超过8成 。

微软则在2018 年将一架装有800多台服务器的数据中心原型机沉入了苏格兰奥克尼岛附近的海底深处。

微软海底数据中心 。图源:人民网人民数据

Meta将数据中心设立于接近北极圈的瑞典北部城市吕勒奥,通过巨型风扇引入室外的极地冷风实现服务器降温  。

美国国家科学基金会直接将数据中心安置在了南极  。这一数据中心拥有超过1200个计算核心和三个PB级存储 ,高性能计算集群就坐落在南极的冰川上 。

瑞典白山数据中心坐落在斯德哥尔摩白山公园地下三十米处的岩洞 。

挪威船运公司将一个数据中心安置在了山洞中,并且毗邻大海。

腾讯贵安七星数据中心设立在了贵州省贵安新区的某座山中  ,所有核心设备都藏在山洞内 。山洞隧道面积逾3万平方米 。

腾讯贵安七星数据中心一角。图源:潇湘晨报

从以上选址可以发现 ,高纬度地区(包括极地圈)、水源附近以及偏远深山都是常见选项 。数据显示,通常来说,电力成本占数据中心整体支出成本的50%~70% ,其中空调耗能电费占了近一半  。相较之下,上述地方的自然环境对于数据中心来说可谓得天独厚、天然节能 。

以深海为例,水的导热性比空气要强 ,大海可以充分吸收服务器产生的热量,从而达到降温的目的 。微软的实验也验证了这一点 。更有意思的是,微软通过评估还发现 :海底数据中心各方面性能均比传统的数据中心好 ,且在水中的故障率是在陆地的八分之一  。

选择深山的同样如此。比如贵州 ,平均海拔1100米 ,贵安平均气温14℃到16℃,夏季气温平均也不超25℃ 。凉爽的气候 ,加上厚厚的山体岩石和土壤的阻隔,在深山挖掘的山洞可以保证较为恒定的温度。这一点可以大大减少散热系统的压力 。此外 ,在深山中建设数据中心也极大地降低了人为干扰 ,有助于减少意外事故的发生 ,进一步保障用户数据安全  。

常规防护 :防微杜渐是王道

数据中心选址的门道固然很深 ,但因地制宜的条件也并非每个数据中心都有。对大部分数据中心来说  ,做好常规防护才是王道。

第一 ,做好异地容灾备份是重中之重 。因为这是避免数据完全丢失的关键 ,也是关系到系统正常运行的核心保障  。具体包括:对重要的本地数据做好异地备份;定期检测备份数据是否正常可用;提供重要数据处理系统的热冗余,保证系统的高可用性 。当然,考虑到自身的业务需求 、成本控制等因素,数据备份也需要选择适合的模式 。

第二,做好日常运维和应急预案。数据中心的日常运维主要包括日常检查 、应用变更、软硬件升级还有应对突发故障等内容。如今不少数据中心已经开始实行全自动化巡检系统 ,可自定义巡检路线,自动生成巡检任务 ,一键生成巡检报告。通过预警机制和流程规范对潜在问题做到防患于未然,做好应急预案和应急演练 ,避免宕机风险 。

第三 ,一些常见且有效的节能降耗措施 。比如数据中心没有人员工作时需要关灯;定期检查是否还有空闲设备仍在运行;机房机柜热通道背靠背,优化气流组织 ,提高制冷效率;采用双环路管道,提高空调系统安全和可靠性;尝试重新分配热负荷 ,并将其均匀分布到每个机架中,以尽量减少“热点”。

结语

就重要性而言 ,数据中心可以认为是企业的“心脏”。要维系其正常的“跳动" ,需要IT和业务领导者大胆设计,审慎预判 ,并意识到 :面对可能的灾难性事件 ,强大的IT基础设施将是维系业务连续性的有力屏障。

参考链接:

https://www.theregister.com/2022/08/09/google_outage/

http://www.360doc.com/content/19/0803/08/29585900_852701990.shtml

https://cloud.tencent.com/developer/news/486454

https://www.sohu.com/a/291251196_470046

滇ICP备2023006006号-51