(1) 明确问题:访问慢是DNS、网络链路、主机资源、应用层或DDoS造成的,要先分类。
(2) 指标定义:主要看Ping延迟(ms)、丢包率(%)、TTFB(首字节时间)、带宽利用与QPS、CPU/内存占用。
(3) 阈值示例:Ping>150ms 或 丢包>1% 为异常,TTFB>500ms 需优化。
(4) 工具准备:ping/traceroute/mtr/tcpdump/iperf3/ss/top/iostat/nginx -T 等工具必须可用。
(5) 数据采集:先做 baseline(3 次平均),记录时间、来源地(如上海)与目标美国数据中心 IP。
(6) 记录环境:域名是否走 CDN、是否有 Anycast、服务器机房与 BGP 信息需一并记录。
(1) 从用户侧测:用本地和多个节点(上海/北京/广州)分别 ping/traceroute 至服务器,记录 RTT 与跃点丢包。
(2) 使用 mtr:连续 1 分钟或 5 分钟 mtr 得到丢包在第几跳发生,判断是骨干网络还是机房出口问题。
(3) 带宽测试:用 iperf3 从国内出口到目标 VPS 做 TCP/UDP 测速,测出实际吞吐(例如 100Mbps vs 1Gbps)。
(4) 抓包分析:tcpdump 抓 1 分钟流量,观察重传、重复 ACK、TCP 窗口大小与 MSS/MTU 缺陷。
(5) DNS 检查:确认域名解析是否正确,是否存在解析到错误机房或解析慢(可用 dig + trace)。
(6) BGP/路由:若 traceroute 出现绕行或国际出口不稳定,联系带宽提供商或更换出口 ASN。

(1) 硬件核查:查看 CPU/内核、内存、磁盘 I/O 与网卡速率(示例:8 vCPU、16GB RAM、NVMe、1Gbps NIC)。
(2) 系统负载:用 top/htop/iostat 检查 CPU/iowait,若 iowait 高(>20%)优先考虑磁盘或数据库瓶颈。
(3) 网络参数调优:启用 BBR、增大 net.core.rmem_max/wmem_max、调整 tcp_rmem/tcp_wmem、tcp_congestion_control=bbr。
(4) TCP 参数示例:net.core.somaxconn=1024;net.ipv4.tcp_tw_recycle=0(避免关闭但设置合理 TIME_WAIT);tcp_fin_timeout=30。
(5) 中间件优化:Nginx keepalive_timeout、worker_connections=4096、sendfile on、tcp_nopush on、tcp_nodelay on。
(6) 监控报警:部署 Prometheus+Grafana 或云厂商监控,设置 RTT/丢包/CPU 的阈值报警。
(1) 静态资源离源:将图片、JS、CSS 全部上 CDN 并设置合理 Cache-Control(例如 max-age=86400)。
(2) 动态加速:对 API 可启用全站加速(Smart Routing)或使用近源缓存与 Edge Compute。
(3) HTTP 层优化:启用 HTTP/2 或 HTTP/3(QUIC)可显著降低多资源请求延迟。
(4) Keep-Alive 与连接复用:减少建立 TCP 连接带来的 1 RTT 开销,设置合适的 keepalive 值。
(5) 压缩与合并:开启 gzip 或 brotli,并对小文件合并,减少请求数量。
(6) CDN 配置注意:选择美西/美东节点均衡,开启 Anycast 播发,提高接入点稳定性。
(1) 判断是否为 DDoS:短时间内流量暴增、大量 SYN、单个 IP 或僵尸网络源同时攻击。
(2) 基础防护:启用 SYN Cookies、限速(connlimit)、iptables/ipset 黑名单规则。
(3) 服务端限制:在 Nginx 设置 limit_conn、limit_req 以限制并发与 QPS 峰值。
(4) 云端清洗:遇到大流量应启用云提供商或专业清洗服务(如 Cloudflare、Akamai、AWS Shield)。
(5) Anycast 与多线:采用 Anycast Any-region 分流,或多机房跨区域容灾降低单点被击穿风险。
(6) 日志与溯源:保留 netflow、nginx access/error 日志,用于攻击后追踪与规则优化。
(1) 背景:某电商客户美国 EC2 美国西部机房,配置 t3a.large(2 vCPU/8GB),网站在国内响应慢,投诉严重。
(2) 初始指标(Baseline):从上海测得平均 Ping=220ms、丢包=2.4%、TTFB=780ms、页面完全加载 5.6s。
(3) 优化动作:更换实例至 c5.large(2 vCPU/4GB)+ EBS gp3,开启 BBR,调整 tcp_rmem/wmem,部署 CDN(Cloudflare),Nginx 调整 keepalive。
(4) 防护措施:启用 Cloudflare 基础 DDoS、限速规则与 WAF,清理恶意 IP。
(5) 优化后数据:Ping=140ms、丢包=0.1%、TTFB=180ms、页面完全加载 2.1s,用户体验明显改善。
(6) 结论:通过链路排查+主机调优+CDN 与防护的组合,平均 TTFB 降低 77%,加载时间下降 63%。