当你的生产环境中的某个服务突然不可用时，你会如何排查这个问题？

场景题与系统设计_系统故障排查 1 453

本题考察大家对于生产环境的线上突发情况如何处理的，如果某个服务实例挂了，我们会先看哪一步，这代表了真实性，你是否干过活。

以下是通常采取的排查步骤：

1. 确认问题现象

检查服务不可用的表现：首先需要确认该服务是否真的不可用，例如，服务完全无法访问，还是响应非常慢。可以通过健康检查接口或者外部监控系统确认服务状态。
用户报告或错误日志：查看是否有用户报告相关的错误，或者系统是否生成了相关的错误日志。可以检查用户反馈或错误码来定位问题。

2. 检查监控和报警信息

查看监控系统：查看系统监控（如Prometheus、Grafana）或日志平台（如ELK stack）提供的相关指标。关键监控项包括：
- CPU/内存使用率：是否出现资源瓶颈。
- 请求量：检查请求量是否过大，是否存在流量突增的情况。
- 服务响应时间：是否由于性能下降导致服务变慢。
- 异常指标：检查是否有异常的错误率、超时、失败请求等。
报警信息：查看是否有异常报警（如服务器宕机、请求超时等），有时报警信息能够提供初步的故障线索。

3. 分析日志

查看服务日志：检查该服务的日志文件，尤其是错误日志和异常堆栈信息。通常日志中会包含：
- 服务启动失败的日志。
- 异常堆栈信息，如数据库连接失败、服务依赖不可用等。
- 任何超时或异常错误码（如500、502等）。
分析日志时间线：通过对日志进行时间线分析，可以确定服务不可用的开始时间，从而缩小排查范围，查找是否是最近的部署、配置更改或者流量激增导致的故障。

4. 检查依赖服务

外部依赖服务：如果该服务依赖其他外部服务（如数据库、缓存、消息队列等），需要确认这些外部服务是否正常运行。例如：
- 数据库连接池是否已耗尽。
- 缓存服务（如Redis）是否出现故障。
- 依赖的第三方API或外部服务是否出现故障。
微服务间通信：如果是分布式系统，检查服务间调用是否正常，是否存在超时、网络延迟或API不响应等问题。

5. 检查系统资源

CPU和内存：检查服务器的CPU和内存使用情况，看看是否有过高的资源占用或内存泄漏问题。如果资源耗尽，可能会导致服务无法启动或响应变慢。
- 使用命令如top、htop（Linux）、Task Manager（Windows）来查看资源占用情况。
- 如果是内存泄漏问题，可能需要使用jvm工具（如JVisualVM、JProfiler）等进行详细分析。
磁盘空间：确认磁盘空间是否充足，是否有日志文件过大或磁盘已满的情况。

6. 检查服务配置

配置更改：确认是否最近进行了配置变更（如数据库连接池的配置、API限流设置等），这些更改是否导致服务不可用。
负载均衡配置：如果服务是通过负载均衡进行访问的，检查负载均衡器配置是否正确，是否有某些节点不可用。

7. 检查网络问题

网络连接：确认该服务是否受到网络问题影响，检查是否有网络延迟、包丢失、DNS解析问题等。例如：
- 使用ping命令测试服务的网络连通性。
- 使用traceroute检查网络中可能存在的延迟和瓶颈。
- 检查是否有防火墙、代理等网络中间件的配置导致服务访问受限。
外部API调用失败：如果服务依赖外部API，检查这些API是否正常，是否由于外部依赖的故障导致当前服务不可用。

8. 数据库排查

数据库连接：检查该服务是否能够成功连接到数据库，是否出现数据库连接池耗尽或连接超时的问题。
数据库性能问题：确认数据库查询是否正常，是否存在锁竞争、查询慢、死锁等问题。可以查看数据库日志，或者使用工具（如MySQL的慢查询日志、Oracle AWR报告）分析数据库性能。

9. 回滚与恢复

回滚最近的变更：如果服务在部署后开始出现故障，可以考虑回滚最近的部署或者配置更改。通过CI/CD工具或Git来检查最近的代码提交或配置更改，确认是否是这些变更引发了问题。
恢复方案：如果经过排查确认是不可修复的问题，可以考虑启用备用系统，或者将服务恢复到健康的备份版本。

10. 逐步恢复和验证

逐步恢复服务：在修复问题之后，可以逐步恢复服务，监控恢复过程中的行为，确认服务是否完全恢复。可以使用分阶段发布或者蓝绿部署等策略来确保故障不会再次发生。
测试功能：在问题解决后，确保通过单元测试、集成测试等手段确认服务已完全恢复正常，所有相关功能都能正常工作。

本题小结:我说的步骤太详细了，一般只要顺着这些步骤走，问题都能排查到。

发表评论取消回复

后才能评论