阿里云史诗级故障赔偿拿到了!但是业务也是影响的一片狼藉
创始人
2025-07-07 15:51:44
0

2023 年 11 月 12 日 18 时许,阿里云发布公告称,阿里云云产品控制台服务异常,阿里云立即发布公告,公告显示,北京时间2023年11月12日17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。工程师通过分批重启组件服务,绝大部分地域控制台服务已恢复访问。

业务影响

数据排查

图片图片

排查

图片图片

结果

最终结果是三分之一的直播录制视频完全丢失,其它的录制视频都是不完整,也就是说只录制了前半部分,后半部分是没有的。

赔付

PS:由于业务影响较大,所以除了代金券赔付,还有额外的现金赔付,现金数额㊙️㊙️

赔偿短信

【阿里云】尊敬的xxx:您好,非常抱歉阿里云11月12日发生的产品故障对您产生的影响。根据阿里云向您承诺的《服务等级协议》,本次您的SLA赔偿金总额应为227.24元,我们将为您实际发放总额227.24元。您可前往控制台-“SLA赔偿”查看并领取。如您有任何疑问,欢迎联系您的商务经理、拨打400-80-13260转9、或提交工单联系我们。我们再次诚挚地为此次故障道歉。

补偿发放通知

图片图片

SLA赔付

图片图片

故障报告

影响范围
  1. OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。
  2. 云产品控制台、管控 API 等功能受到影响
时间

北京时间 2023 年 11 月 12 日 17:39-19:20

问题概况

北京时间 2023 年 11 月 12 日 17:39 起,阿里云云产品控制台访问及管控 API调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务(AK)异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控API 恢复。

处理过程

2023 年 11 月 12 日

17:39 阿里云云产品控制台访问及管控 API 调用出现异常。

17:50 工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调 用异常,以及依赖 AK 服务的云产品服务运行异常。

18:01 工程师定位到根因。

18:07 开始执行恢复措施,包括修订白名单版本、重启 AK 服务。

18:35 杭州等 Region 开始恢复正常。

19:20 绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。

原因

访问密钥服务(AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

改进措施

1、增加 AK 服务白名单生成结果的校验及告警拦截能力。

2、增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。

3、增加 AK 服务白名单的快速恢复能力。

4、加强云产品侧的联动恢复能力。

总结

尽管阿里云在此次事故后进行了赔偿,但仍然引起了一些质疑。有些人认为这是阿里云裁员的结果,说了这么多,好像我们自己搭建机房不出问题似的,如同360老总说的一样死海效应,做实事的往往会最先离职,都蒸发了,最后留下的都是混日子的老油条,包括管理层也一样。

对于企业而言,多平台灾备是非常必要的。尽管阿里云在此次事故中表现出了较强的处理能力和平台安全能力,但仍然需要考虑到其他云服务提供商的可用性。企业需要制定灾备计划并保持与多个云服务提供商的合作,以确保在出现类似问题时能够快速响应并减少损失。

总之,这件事情给我们提醒,任何服务都有可能出现问题。关键在于企业如何管理和应对这些问题。通过制定灾备计划并与多个云服务提供商合作,企业可以更好地应对类似的问题并确保业务的连续性。

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
全面诠释网络负载均衡 负载均衡的出现大大缓解了服务器的压力,更是有效的利用了资源,提高了效率。那么我们现在来说一下网络负载...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...
Intel将Moblin社区控... 本周二,非营利机构Linux基金会宣布,他们将担负起Moblin社区的管理工作,而这之前,Mobli...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...