2023-11-12阿里云故障解密和反思
创始人
2025-07-08 08:31:25
0

阿里云故障过去一段时间了,目前原因基本确认了;相关原因和反思可以重新思考一下看看有哪些是值得借鉴和反思的地方。

先来看一下网上披露官方报告。

原因

访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

改进措施

  • 增加 AK 服务白名单生成结果的校验及告警拦截能力。
  • 增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。
  • 增加 AK 服务白名单的快速恢复能力。
  • 加强云产品侧的联动恢复能力。

问题回顾

2023 年 11 月 12 日 17:39 起,阿里云云产品控制台访问及管控 API 调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK) 异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。

处理过程

  • 17:39:阿里云云产品控制台访问及管控 API 调用出现异常。
  • 17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。
  • 18:01:工程师定位到根因。
  • 18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。
  • 18:35:杭州等 Region 开始恢复正常。
  • 19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。

这里的主要原因

  • 数据没有隔离虽然服务层面做了隔离。但是数据层生成白名单之后没有做隔离,做了全球的推全
  • 因为用户的权限是全球的,所有在用户层面没有做隔离,全球推全之后造成了全球故障
  • 白名单是故障时什么导致的网上没有披露

暴露出来的问题 

  • 隔离:所有用户,所有地区;服务做了隔离,但是数据没有做隔离;
  • 分级:数据上线前检查:数据直接推全,没有做提前检查,没有分级也没有做检查必然影响所有的用户。

最后

我们一定不要抱着吃瓜的态度去看这个问题,冷嘲热讽,如果事件发生在我们头上能做哪些优化 

优化点:

  • 隔离:数据层面一定要想办法做隔离;
  • 分级:数据推送线上环境之前一定要做检查和分级,比如我可以在一个小的地区和国家先推送,没问题再推送;
  • 检查:在上线前一定要做case回归。

关于稳定性的一些个人思考:

  • 我工作大概10年了一直在处理着各种各样的故障;
  • 越是重大的故障其实越是简单,越是简单的事情就越难得老板的认可;
  • 其实我觉这个也是需要老板去思考的,一味的追求高大上,很难应对简单的故障;
  • 简单的事情往往又很难得到职级和薪资待遇的提升。如何取得平衡是需要思考的。

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
全面诠释网络负载均衡 负载均衡的出现大大缓解了服务器的压力,更是有效的利用了资源,提高了效率。那么我们现在来说一下网络负载...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...
Intel将Moblin社区控... 本周二,非营利机构Linux基金会宣布,他们将担负起Moblin社区的管理工作,而这之前,Mobli...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...