起因及症状
最近,我们的一台服务器随着运行时间的增加,逐渐出现了压力过大的问题。具体表现为数据库连接数飙升至 4000+,Redis 频繁超时,系统报错文件打开数过多等。针对这些问题,我们逐一检查了数据库连接池、Redis 连接池以及系统的 ulimit 配置,但都未能找到问题的根源。
一次意外的服务器死机重启后,系统性能短暂恢复正常,但随着时间的推移,问题又再次出现。通过 ps 命令查看进程状态,发现一个 crontab 任务的进程堆积如山。这个任务的执行间隔是 1 分钟,正常情况下是可以在 1 分钟内执行完毕的。然而,随着业务的快速扩展,该任务的执行时间逐渐延长,导致原本的防止堆积措施失效。
问题分析
crontab 是一种简单且有效的任务调度工具,但如果使用不当,尤其是对执行时间较长的任务,可能会导致严重的系统性能问题。此次事件的根本原因在于任务的执行时间超过了预设的间隔时间,导致新任务不断启动,而旧任务还未完成,进而造成进程堆积,系统资源耗尽。
解决方案
针对这个问题,我们提出了以下两种解决方案:
方案 1:任务执行时设置 PID 标志,避免重复启动
通过在任务开始执行时创建一个 PID 文件,记录当前任务的进程 ID。下一次任务启动时,先检查该 PID 文件是否存