1.
环境概述与前置准备
列出10台美国站群服务器的IP、用途(站点A..J)、操作系统版本与备份目的地(本地NAS/云S3)。
准备一台管理机用于统一运维(建议CentOS/Ubuntu),安装sshpass、ansible或pdsh用于批量操作。示例:apt install sshpass ansible。
2.
统一账户与SSH密钥管理
创建运维用户并禁止密码登录:在每台执行:
useradd ops && mkdir -p /home/ops/.ssh && chmod 700 /home/ops/.ssh
上传公钥到 /home/ops/.ssh/authorized_keys 并 chmod 600。修改 /etc/ssh/sshd_config:PermitRootLogin no, PasswordAuthentication no, 使用 systemctl restart sshd。
3.
最小权限与sudo策略
创建 sudoers.d 文件限制命令:/etc/sudoers.d/ops,内容示例:ops ALL=(ALL) NOPASSWD:/usr/bin/systemctl,/usr/bin/journalctl。
分站点创建低权限用户运行Web服务,避免使用root直接操作应用。
4.
网络防火墙与端口策略
使用ufw或iptables,默认拒绝入站,只允许必要端口:SSH(自定义端口)、HTTP/HTTPS、备份端口。示例(ufw):ufw default deny incoming; ufw allow 443; ufw allow from 10.0.0.0/8 to any port 22 proto tcp。
5.
自动化入侵防护:fail2ban与iptables-rate-limit
安装 fail2ban 并启用 sshd jail:apt install fail2ban,配置 /etc/fail2ban/jail.local,设置 bantime、maxretry、findtime。
配合 iptables 限制同IP连接速率:iptables -A INPUT -p tcp --dport 22 -m connlimit --connlimit-above 5 -j REJECT。
6.
日志集中与监控告警
部署集中日志(rsyslog/ELK/Graylog),在管理机接收各节点日志:编辑 /etc/rsyslog.conf,配置远程接收。
安装 node_exporter + prometheus,设置简单阈值告警(磁盘/CPU/网络/备份失败)并通过邮件/Slack通知。
7.
备份策略总体设计(3-2-1原则)
推荐3份副本、2种介质、1份异地。针对站群:本地快照(LVM/ZFS)、异地增量(rsync或rclone到S3)与周期性全量。
定义保留策略:日备7天、周备4周、月备12月。
8.
实操:使用rsync+SSH做增量备份
管理机执行脚本示例:
rsync -aAX --delete --link-dest=/backup/daily/prev /var/www/siteX/ ops@server:/backup/daily/2026-05-01/。
结合硬链接节省空间,并在备份完成后更新 prev 指向最新备份。将任务加入 cron:0 2 * * * /usr/local/bin/backup-siteX.sh。
9.
实操:块级快照与挂载恢复(LVM/ZFS)
若使用LVM:lvcreate -L1G -s -n snap_www /dev/vg/www,然后挂载:mount /dev/vg/www/snap_www /mnt/snap,检查数据并 rsync 到备份服务器。
ZFS 可直接 send/receive:zfs snapshot pool/www@daily && zfs send pool/www@daily | ssh backup zfs receive pool/backup/www。
10.
云端备份与加密传输(rclone/restic)
推荐restic加密备份到S3兼容对象存储:restic init -r s3:s3.amazonaws.com/bucket,restic backup /var/www --repo s3:... --password-file /root/.restic_pw。
或用 rclone 配合后端(Wasabi/Backblaze),并通过脚本轮转老备份。
11.
恢复演练与自动化恢复脚本
定期演练:选择一台虚拟机,按步骤断电->恢复,从最近快照/rsync备份恢复网站目录、数据库(mysqldump恢复:mysql -u root -p db < dump.sql)、并验证DNS/负载均衡。
将恢复步骤写成脚本并在git中管理,确保团队成员可复用。
12.
常见问题与运维建议
保持配置即代码(Ansible playbook),定期更新补丁(apt/yum unattended-upgrades),并设置备份报警(备份失败即触发PagerDuty/邮件)。
13.
问:10美国站群如何平衡备份频率与带宽成本?
答:把主频率设为每日增量+每周全量,增量采用rsync或restic差异传输以节省带宽;对访问频率低的数据可降级为每周备份。结合压缩与限速(rsync --bwlimit=)控制峰值带宽。
14.
问:被入侵后如何快速隔离并恢复服务?
答:第一步从负载均衡摘除受影响节点,保留磁盘镜像做取证;使用最近一次已验证的备份在干净环境恢复并重新上链,完成后更换证书/密钥并强制用户重置相关凭证。
15.
问:备份存储推荐哪些组合以保证安全与成本可控?
答:本地快照(快速恢复)+近线NAS(日周保留)+云S3冷存(异地、长期保留)。所有云备份使用服务端加密或restic本地加密,并做好访问策略与MFA。
来源:运维经验分享 10美国站群服务器的安全与备份方案