在SLA中,可用性通常以百分比表示,如99.95%或99.99%。企业应关注的是:这些指标以月度还是年度计算、是否包括计划内维护窗口、以及对短时频繁波动的处理方式。优先选择明确说明测量方法(例如基于网络层心跳或业务端口检测)的SLA。
另外要看是否有监控与报告机制,是否允许客户获取历史可用性报告,以及在连续未达标时的赔偿策略。高可用业务应要求更严格的数值和更短的统计周期。
响应时间通常指服务商确认并开始处理故障的时间,修复时间指恢复服务所需的目标时长。SLA应明确按故障等级(Critical/High/Medium/Low)划分的响应与修复目标,例如关键故障<15分钟响应、4小时内恢复或启动切换。
同时应要求对外约束条款:现场工程师派遣时间、备件替换时限、远程与现场处理的区别、以及若服务商未能按承诺执行的赔偿机制或加速措施。
赔偿通常以服务费抵扣或信用额度形式出现。企业要核查赔偿计算方法、赔偿上限以及是否存在免赔额(例如每次事件前须达成一定停机时间才触发赔偿)。避免看到模糊条款如“视情况而定”或“最大不超过月费的X%”而不说明具体触发条件。
此外关注责任限制条款(liability cap)、数据丢失或合规违规引起的额外责任,以及是否允许对重大违规向第三方仲裁或诉讼。若业务关键,可争取更高的赔偿上限或保险支持。
SLA应明确定义“计划性维护”的时间窗、提前通知期(例如至少72小时或7天)以及不得集中在业务高峰期的约束。计划内停机通常不计入可用性统计,但需要限制频次和时长。
对于非计划停机,SLA要说明监测、告警与客户通知流程、预计修复时间通报节奏以及后续事件报告(RCA)的交付时限。良好的SLA要求事件结束后提供完整的技术与根因分析报告。
SLA除了可用性指标外,应包含物理安全、网络安全(如DDoS防护)、备份与恢复目标(RPO/RTO)、以及对数据本地化与合规(例如新加坡个人数据保护法PDPA)的承诺。明确谁对数据加密负责、密钥管理策略和访问审计要求。
还要关注冗余设计与故障切换承诺:包括多机房部署、网络和电力冗余等级、定期演练与切换成功率报告。若业务对延迟敏感,应将网络延迟与丢包指标写入SLA并规定测量方法和处罚。