阿里云崩,钉钉崩,咸鱼崩,淘宝崩...应用集群故障后自动恢复测试之进程自我拉起应该怎么做?
创始人
2025-07-06 12:00:11
0

今年的11月12日,也就是双十一的第二天,阿里云崩了!!! 使用阿里云服务的一系列阿里软件,淘宝,咸鱼,天猫,钉钉、阿里云盘等阿里软件,全都崩了,一下就上了微博热搜,我司作为阿里云使用客户也受到了影响,特别是mq等组件;

淘宝天猫自去IOE后取得巨大成功,阿里云也从蚂蚁集团的体系中独立出来给全球企业提供云服务,不久前在云栖大会上都还在分享阿里云如何如何的高效支撑业务,包括前几天的双十一阿里云也抗住了购物洪峰压力,但是没想到双十一第二天就崩了,这已经是影响全球使用阿里云的客户的严重事故;

通过阿里云推送的消息显示整个事件过程

尊敬的客户:

您好!北京时间2023年11月12日 17:44起,阿里云监控发现云产品控制台

问及API调用出现异常,阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。

--进展更新

17:50 阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中;

18:54 经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台服务逐步恢复中;

19:20 工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复;

19:43 异常管控服务组件均已完成重启,除个别云产品 (如消息队列MQ、服务MNS) 仍需处理,其余云产品控制台及API服务已恢复;

20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。

21:11 受影响云产品均已恢复,因故障影响部分云产品的数据 (如监控、账单等)可能存在延迟堆送情况,不影响业务运行。

这次非常严重的P0级事故,致使使用阿里云服务的客户的损失非常之大。

上一次阿里P0级事故是在10月24日的语雀平台故障8小时,最后恢复服务之后补偿了用户6个月的会员;

上一次阿里云大面积服务器故障的P0级事故是2022年12月,阿里云香港地域发生超过12小时的持续性故障。 通过以上故障事件,在高可用的应用集群中,出现节点故障,进程是否能够进行自我拉起从而实现恢复呢? 咱们今天聊聊应用集群故障之进程自我拉起场景。

首先是进程概念:

一个正在运行的程序或者软件就是一个进程,它是操作系统进行资源分配的基本单位,也就是说每启动一个进程,操作系统都会给其分配一定的运行资源(内存资源)保证进程的运行。

应用集群故障后自动恢复测试之进程自我拉起测试场景:

当服务的进程异常挂掉后,能够自动将进程拉起,恢复服务,实现高可用;

测试目的:

考察服务进程自我拉起有效性。

测试步骤:

1、测试场景采用混合交易模型交易配比;

2、测试执行时,采取稳定压力施压,以被测试系统最大处理能力的80%或预设压力,稳定运行5分钟;

3、通过kill -9命令 kill 掉某进程;

4、场景持续运行5分钟,通过PS -ef|grep 服务名称,命令观察被kill 的进程是否自动拉起。

预期结果:

步骤3后,进程被Kill;

步骤4后,进程自我拉起。

监控点:

TPS、交易失败率、系统资源使用率等。

测试指标:

服务进程自我拉起有效性(除了能够拉起还有时效要求,为60秒之内)为有效。

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...