
快速定位不可访问问题,第一步做好“分层排查”。
1) 本地网络和DNS:确认本地能否ping通域名与IP,使用nslookup/dig检查DNS解析是否异常;
2) 路由与连通性:用traceroute/tracert判断路由是否中断,若到边界节点即中断,联系带宽或CDN提供商;
3) 服务端口与防火墙:在服务器上用ss/netstat检查端口监听状态,iptables/nftables/ufw或云安全组规则是否误封;
4) 日志与资源:查看nginx/Apache/应用日志、系统日志(/var/log/messages/syslog)以及dmesg,确认是否有OOM、磁盘满或内核异常导致服务不可用;
若是仅部分用户受影响,优先判断CDN、WAF或高防设备策略;若为全面不可达,考虑上游链路或机房故障并及时联络机房运维。
高负载应采取“先缓解、再根因分析”的策略,避免服务进一步崩溃。
1) 使用top/htop/iostat查看占用最高的进程和IO情况;
2) 对可重启服务(如web、队列、worker)优先平滑重启,避免暴力kill导致数据丢失;
3) 临时限制新连接或流量:前端添加限流、调整nginx的worker_connections或使用连接池;
4) 若为内存泄露或线程爆炸,触发诊断快照(gcore、jmap等)并放入隔离环境分析;
配置监控告警(CPU、内存、负载平均值)、设置进程自动重启策略(systemd/monit)、配置swap与OOM策略并定期进行压测。
面对攻击要先保护业务可用性,再做溯源与取证。
1) 启动高防或流量清洗服务(如云厂商高防、第三方清洗服务);
2) 在网络边界做速率限制、黑名单、地理封禁或只允许白名单IP;
3) 使用iptables/nftables配合限速规则(conntrack、hashlimit)减轻五层攻击;
4) 对七层攻击可调整WAF规则、加入验证码、调整路由到CDN或临时下线非关键功能;
保留防火墙日志、网络流量样本(pcap)、高防平台报告和时间线,为与ISP协作或法律取证提供依据。
磁盘问题往往影响整个系统稳定性,应优先保证数据安全再考虑性能恢复。
1) 查看iostat、iotop、dstat定位是否为IO瓶颈或某个进程异常IO;
2) 检查磁盘使用率(df -h)、inode耗尽以及SMART信息(smartctl -a)判断硬盘健康;
3) 若为文件系统损坏,先umount(或以只读挂载)并使用fsck修复;若为硬件故障立即联系机房更换盘并从备份或RAID恢复数据;
4) 临时缓解可迁移热点数据到另一盘或临时扩容云盘、开启io_uring或优化应用的flush策略;
使用RAID或分布式存储、部署定期备份与恢复演练、监控SMART与IO延迟并提前更换老化磁盘。
频繁重启通常由资源、依赖或代码缺陷引起,分层定位并实施短期修复。
1) 查看systemd/journal、应用日志与core dump,确认崩溃堆栈与异常;
2) 若是依赖连接失败(数据库、缓存),检查网络与上游服务并设置连接重试与熔断;
3) 对短期可恢复的场景,配置合理的RestartPreventExitStatus与RestartSec避免短重启风暴;
4) 对代码缺陷引发的崩溃,快速回滚到稳定版本或下线出问题模块;
建立灰度发布、自动化回滚、核心指标监控、异常告警与持续压力测试,配合代码静态检查和内存/句柄泄露扫描。