
首要关注的是计算能力(如CPU型号与核心数)、内存容量与速率、以及存储子系统的IOPS/吞吐量和网络带宽。对于虚拟化密集型工作负载,应额外评估缓存与PCIe拓扑。
用CPU基准(如SPEC)、内存带宽测试、磁盘随机读写和网络吞吐来量化性能,记录功耗作为能效参考。
建议在收购前做短时压力测试(例如跑一次fio与sysbench),以验证组件在实际负载下的表现。
对老旧CPU、降速内存或有大量重分配错误的磁盘要特殊警惕,这些都会显著影响集群稳定性。
外观和日志能提供重要线索:观察主板电容鼓包、风扇磨损、供电模块变色,以及BIOS/系统事件日志(SEL)中反复出现的硬件错误。
将SEL中硬盘SMART预警、内存ECC纠错、CPU热关断/降频事件作为高风险指示。
查看硬盘的通电小时数(Power-On Hours)和通电循环(Power Cycle Count),结合坏道/重定位计数判断磁盘寿命。
电源运行时间与风扇转速历史也是寿命判断的重要参考,异常噪音或频繁更换记录需降低评估分数。
通过标准基准测试比对峰值与尾部性能:例如对比99百分位延迟、长时间吞吐稳定性以及功耗/性能比(PUE相关)。
先用同类新品建立基线数据,再用同样脚本在二手设备上测试,差距超过10-20%需进一步调查。
进行24-72小时的持续压力测试以捕捉热衰减、降频与错误累积效应,这是短跑测试无法反映的。
将性能差异折算为TCO影响(功耗、维护频率与故障成本),帮助决策是否购买。
主要风险为隐性硬件故障、兼容性问题与供应商保证缺失。规避措施包括要求完整日志、提供短期保修、并在交付前执行验收测试。
合同中写明退货窗口、关键组件替换责任与验收标准,降低后续风险。
提前核对固件版本、驱动支持与机架供电/散热匹配,避免现场部署时出现不可兼容的情况。
确认设备来源合法、无赃物风险,并要求提供资产擦除证明以满足合规与安全需求。
验收测试应包含硬件自检、SMART检测、内存压力测试、磁盘读写完整性、网络吞吐与功耗测量,最好再加一次短期稳定性运行。
建议清单:POST自检、memtest86、fio随机/顺序测试、iperf网络、SMART报告采集及功耗曲线。
为每项测试设定可接受阈值(如SMART阈值、IOPS最低线与温度上限),不满足即触发退换或维修。
上线后应设定密集监控窗口(30天内)以捕捉潜在早期故障,配合快速替换策略降低业务风险。