1.
一、快速判断:先分清是链路、主机还是应用问题
排查步骤先从最简单的指标开始,快速定位问题范畴。
1) 检查ping延迟与丢包:ping 目标(如客户IP、上游网关),记录平均RTT与丢包率。
2) 对比多个目的地:ping 国内和海外不同节点,判断是否仅对CN2到美线路异常。
3) 并发连接测试:用curl或wrk发起并发请求,观察响应时间与并发失败率。
4) 端口与服务探测:使用nc或telnet测试目标端口是否有响应或被防火墙丢弃。
5) 时间窗口对比:选取高峰与非高峰时段对比结果,判断是否为带宽拥塞或丢包突发。
2.
二、常用工具与快速命令清单(必须掌握)
掌握工具能快速定位链路层或传输层问题。
1) ping:基本延迟与丢包检测(示例:ping -c 20 8.8.8.8)。
2) traceroute / mtr:查看路由跳数与每跳丢包(示例:mtr -rwz -c 100 目标IP)。
3) iperf3:带宽测试,TCP/UDP分别测试(iperf3 -c server -t 30 -P 4)。
4) tcpdump:抓包查看SYN/ACK、重传及包体异常(tcpdump -i eth0 host 目标IP)。
5) ss/netstat:查看本机连接数、TIME_WAIT、拥塞窗口等(ss -s;ss -antp)。
3.
三、TCP/MTU/网络栈细项排查
很多性能问题来源于MTU或TCP配置不当,逐项检查并调整。
1) 检查MTU与分片:若出现ICMP碎片被禁止导致慢,可用ping -M do -s 测试最大MTU。
2) 调整拥塞控制:在Linux上确认是否开启BBR(sysctl net.ipv4.tcp_congestion_control)。
3) 检查窗口与SACK:确认tcp_window_scaling与tcp_sack是否开启(sysctl相关项)。
4) TCP重传与RTO:用tcpdump或mtr观察重传次数与延时抖动,判断链路质量。
5) 确认网卡参数:查看网卡是否有丢包、ring buffer溢出(ethtool -S eth0),必要时调大tx/rx环形缓冲。
4.
四、CDN与回源配置检查要点
若站点使用CDN或反向代理,问题可能出在回源链路或CDN节点。
1) 检查回源IP连通性:从CDN节点或上游查看回源响应时间与丢包。
2) 缓存策略与压缩:确认静态资源是否被CDN缓存,降低回源请求量。
3) Keep-Alive与超时:确保回源连接保持与合理超时,减少TCP握手消耗。
4) HTTPS握手优化:开启session resumption并优化证书链,减少握手延迟。
5) 多CDN对比:在不同供应商间对比回源表现,判断是否为某个CDN的链路问题。
5.
五、DDoS与防护建议(可快速缓解的策略)
当出现短时大流量或丢包,需判断是否为攻击行为并启快速防护。
1) 流量基线比对:参考历史流量阈值(如30分钟内突增5倍),判断异常流量。
2) 黑白名单与ACL:对异常源IP或区域临时封禁或限速,减少告警噪音。
3) 使用云端清洗:将流量引导到有清洗能力的防护节点(例如云WAF或DDoS清洗中心)。
4) SYN/UDP flood防护:调整tcp_max_syn_backlog和syn cookies,限制UDP单连接速率。
5) 监控与告警:配置实时流量告警与自动脚本,在阈值触发时自动放黑洞或限流。
6.
六、真实案例与服务器配置示例(含数据演示)
真实案例:某电商客户使用
美国CN2线路回国,用户反馈页面加载慢,高峰期超时增多。
1) 初步mtr结果:从国内拨测到美站点出现多跳丢包与延迟抖动,怀疑上游链路不稳定。
2) iperf3测得TCP吞吐:单流测试25Mbps,多流(4线程)峰值可达220Mbps,证明带宽可聚合但单连接差。
3) 抓包分析:tcpdump显示大量重传与SACK失效,MTU测试发现Path MTU小于1500导致分片。
4) 处理措施:开启BBR、调整MTU至1440、在边缘加入Cloudflare做静态缓存,结果单连接延迟下降40%。
5) 验证结果:高峰期页面平均响应时间从1200ms降到560ms,用户投诉量下降70%。
以下为部分排查数据表(示例):
| Hop | IP | Avg Latency(ms) | Loss(%) |
| 1 | 10.0.0.1 | 1.2 | 0 |
| 5 | 203.119.0.45 | 42.6 | 2 |
| 9 | 104.16.0.1 | 180.4 | 15 |
常见服务器配置示例(用于参考与复现):
| 项 | 示例配置 |
| VPS 地点 | Los Angeles (CN2 路由出口) |
| CPU / RAM | 4 vCPU / 8 GB |
| 网络 | 1 Gbps 公网,MTU 1440 |
| 内核与调优 | Linux 5.10, tcp_congestion_control=bbr, net.core.rmem_max=268435456 |
| 防护 | Cloudflare CDN + 云DDoS清洗 |
来源:美国cn2线路速度慢时的快速排查表与工具推荐清单