一起数据中心崩溃事故
创始人
2024-07-13 09:30:44
0

在IT行业,我们对设备监控的依赖性很强,因此当监控出现问题时,我们会手足无措。在本文所提及的数据中心事故中,UPS没有给出任何性能方面的预警,这无疑会导致我们怀疑其他监控项目的准确性,这种信任风险在设备监控中总是存在的(51CTO推荐阅读:一次UPS设备烧毁的故障分析)。

IT设备崩溃

前不久,我处理了一桩IT设备崩溃事故:一个中等规模数据中心内的UPS失效了。目前先进的UPS采用ABM三阶段智能化电池管理方案,***阶段是恒流均衡充电,将电池容量充到90%;第二阶段是浮充充电,将电池容量充到100%后停止充电;第三阶段是电池利用自身的漏电流放电到电压下限。然后再重复这三个阶段。这种方式电池不再处于一天24小时的浮充状态,延长了电池的寿命。

在这次事件中,UPS只坚持了6秒钟,导致数据中心崩溃。电力在大约20秒之后就恢复了,但损失无法弥补。一个数据中心垮掉后,在没有人工备份的情况下,***恢复是不容易实现的。此外,存储阵列要在服务器尝试加载组件后才能进行初始化,而DNS服务器正在启动,某些服务器会无法访问DNS,这又导致其他问题的出现,结果是一片混乱。

幸运的是,最终数据没有损坏,所有的服务器以及各项服务也恢复了正常。下面我们来搞清,为何一个大容量UPS在44%负载的情况下只坚持了几秒钟的时间。

6秒钟

在垮掉之前,UPS除了自检失败以外,其他项目全部显示正常。之前我已经注意到了自检失败,但看上去UPS不存在任何问题,日志也没有给出任何自检失败的原因。所有的监控项目——电池、智能模块、电源供应器等状态显示正常,而且在管理状态页面中电池容量显示是100%。以当时44%的负载量来推算,UPS应该能保证19分钟的运行时间。而事实上它只坚持了6秒钟的时间。

在IT行业,我们对设备监控的依赖性很强,因此当监控出现问题时,我们会手足无措。在本次事件中,UPS没有给出任何性能方面的预警,这无疑会导致我们怀疑其他监控项目的准确性,这种信任风险在设备监控中总是存在的。

我想,唯一的方法就是像一句俗语所说的:在它出问题之前开除它(Fireitbeforeitcanquit),诸如硬盘、电池以及IT系统管理员等都适用此方法。电池的电量可能一直显示为满,但事实上它们工作三年,就应该考虑更换。确定电池载荷下降的方法,当电池进行无负载自检时电力输出若出现严重下降,就需要更换设备了。这可能是电池的问题,也可能是UPS中的监控代码的问题。无论是何种原因,所造成的结果都是一整天的混乱,以及时间和人力的浪费。因此,无论你的监控做得多到位,即使系统中最微小的部分都在监控范围内,也还是要注意,在某些情况下,为了避免问题的发生,你能够做的事情只有适时地更换那些看上去工作得很好的部件。

【编辑推荐】

  1. 知识宝典:UPS常见故障与选型标准
  2. 天上30秒 地下20年——戏说飞轮储能UPS
  3. 一次UPS设备烧毁的故障分析

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
规避非法攻击 用好路由器远程管... 单位在市区不同位置设立了科技服务点,每一个服务点的员工都通过宽带路由器进行共享上网,和单位网络保持联...
范例解读VB.NET获取环境变... VB.NET编程语言的使用范围非常广泛,可以帮助开发人员处理各种程序中的需求,而且还能对移动设备进行...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...