千万别强制停机!我嘴都气歪了!

你知道强制停机的后果有多严重吗!

有一天,我正在愉快地写技术文章,结果电脑啪地一下就蓝屏了!

哦豁,完蛋,写了几千字,忘了保存!

我盲猜很多同学都有这种体验,可能因为一些突发意外,导致自己的电脑强制停机了,丢失了自己当前的工作。

同样,对于企业,所有的网站、应用、数据、服务都是挂在服务器上的,一旦意外发生,比如被挖断了电线、遭遇了自然灾害,会导致服务器被强制停机,使得机器上 **所有进行中的程序被强制中断**,后果不堪设想!

有同学就笑了,不就是程序被强制中断么,我们自己偶尔也会用任务管理器或者 kill -9 命令杀个进程啊,抓紧重新启动程序不就好了,有啥大不了的?

的确,我以前也是通过强杀进程来下线和升级服务的,干脆利落爽。但直到后来有一次,因为强杀进程导致了线上事故,造成了经济损失和加班,把我嘴都气歪了!我才意识到自己之前太粗暴、想法太简单了。

**其实,一个程序被强制中断,除了无法提供服务外,还有很多严重的后果!**

1. 请求丢失

对于一个 web 服务器,比如 Java Web 开发中主流的 Tomcat。当接受到请求时,会开启一个线程来处理该请求。而如果请求数较多,线程处理不过来,就会将此请求放入等待队列中,排队等待空闲线程。

但如果用户 A 已扣除 1元后,应用程序或者数据库系统突然挂了,导致事务尚未完成就被迫中断,结果用户 B 的总金额并没有变化。这时数据库就处于不一致状态。同理,即使在程序中设计了回滚,回滚过程也可能会被中断!

除了数据不一致外,事务中断还可能导致锁行、锁表,使得这部分 **数据的可用性受到影响**。

4. 文件损坏

假设程序正在向一个文件进行写操作,还未完成,就被中断了,可能会导致文件的不完整、甚至损坏。

这让我想起小时候,电脑配置不高,有时玩游戏会卡住,然后我就强制杀了进程,结果导致游戏文件损坏,只能重新下载游戏。

6. 数据丢失

有时,我们会先将数据临时放在内存中,然后定期、定时、或者分批地持久化到数据库或本地磁盘中。

比如 Redis 数据库的 RDB 机制,每隔一段时间,会将内存中的数据进行本地备份,从而降低大量数据并发写入时的负载,提升性能。

但就像上面提到的任务丢失一样,一旦程序中断,可能会导致很多 **未持久化的数据丢失**,比如缓存、分批提交数据等。

7. 消息丢失

在分布式系统中,各个节点间经常通过消息来进行交互和协作,而程序的中断可能会在不同情况下导致消息丢失。

1. 消息未发出

假设某支付业务中,已经扣除了用户的账户余额,并更新了数据库,接下来要向客户端返回应答消息。

但是消息正在发送队列中排队等待发送时,由于进程被强制退出导致消息未发出,从而导致应答消息丢失。客户端久久接收不到消息后,可能会发起重试,导致重复更新。

消息未发出
2. 消息未确认

比如说某段业务代码从消息队列中取出了一个消息,进行消费处理,代码流程如下:

// 获取下一个消息

Message msg = getNextMsg();

// 处理消息

int res = handleMsg(msg);

// 处理成功?

if(res == 0) {

    // 确认消息

  ack();

} else {

  // 拒绝确认消息

  nack();

}

无论消息处理成功与否,都必须要给消息队列一个回复!如果处理成功,要告诉他这条消息已经被我处理完成啦,请给我下一条消息;即使处理失败,也要告诉消息队列,请给我重发本条消息。

而一旦程序中断,这条消息的处理结果便无人知晓,可能导致消息队列的 **阻塞或者无限重发**(根据具体消息队列来决定)。

8. 资源占用

程序的强制中断可能会导致很多资源的占用未被释放。比如:

  1. 空间占用:如已分配的内存未回收,临时文件未被删除等。
  2. 端口占用:会导致这个端口无法被其他应用程序使用。很多同学在本地调试时,应该也会遇到因为强退导致的 3000、8080 端口未被释放的问题。
  3. 连接占用:比如和远程的服务建立了 Http 连接,由于连接未被释放,会浪费一个连接数,就像买了电影票却不去一样。

####9. 服务未下线

在微服务场景下,服务通常由集中的注册中心进行统一的服务发现和管理。

比如 Eureka 注册中心,服务生产者向注册中心注册服务,服务消费者从注册中心获取服务地址,然后远程调用:

Eureka 注册中心

而一旦某个服务进程还没有即时通知注册中心它要下线,就中断了,会导致服务消费者仍能获取到该服务的路由,从而调用失败。

此外,服务下线时如果未向上游(该服务调用方)通知,还可能导致上游的持续调用,严重时会产生雪崩效应,整条服务链路中断!

尤其是在分布式场景下,出现进程强制中断对集群的影响(比如数据一致性)非常大。正如 **FLP不可能定理** 的描述:在异步通信场景,即使只有一个进程失败,也没有任何算法能保证非失败进程达到一致性。


其实,相比起这些问题,更可怕的是,如果没有完善的数据监控和检测机制,你甚至完全不知道在强制停机后有没有出现问题?出现了哪些问题?哪些数据丢失?哪些数据不一致?哪些任务需要补偿?看不见的危险才最可怕啊!

因此,预防大于治疗。一方面要养成良好习惯,无论是对自己的电脑还是服务器,都千万不要再主动强制停机了;另一方面,也要在程序设计时,做好应对意外停机的防控措施。不要等到失去了,才追悔莫及。

本站文章资源均来源自网络,除非特别声明,否则均不代表站方观点,并仅供查阅,不作为任何参考依据!
如有侵权请及时跟我们联系,本站将及时删除!
如遇版权问题,请查看 本站版权声明
THE END
分享
二维码
海报
千万别强制停机!我嘴都气歪了!
我盲猜很多同学都有这种体验,可能因为一些突发意外,导致自己的电脑强制停机了,丢失了自己当前的工作。
<<上一篇
下一篇>>