首页  战略部/职能部  正文

操作手册：事故响应

2026.6.5 一朵小角角 战略部/职能部 1

场景

生产环境出问题了。用户受影响了。速度很重要，但不能乱来。这个手册覆盖从发现到事后复盘的全流程。

严重度分级

级别	定义	举例	响应时间
P0 — 紧急	服务完全挂了、数据丢失、安全事件	数据库损坏、DDoS 攻击、认证系统挂了	立即（全员响应）
P1 — 高	主要功能挂了、性能严重下降	支付处理挂了、50%+ 错误率、10 倍延迟	< 1 小时
P2 — 中	次要功能挂了、有临时方案	搜索不能用、非关键 API 报错	< 4 小时
P3 — 低	样式问题、小不便	样式 bug、错别字、小的 UI 问题	下个 Sprint

按严重度的响应团队

P0 — 紧急响应团队

智能体	角色	行动
基础设施运维师	事故指挥官	评估范围、协调响应
DevOps 自动化师	部署/回滚	需要的话执行回滚
后端架构师	根因排查	诊断系统问题
前端开发者	前端排查	诊断客户端问题
客服响应者	用户通知	更新状态页、通知用户
高管摘要生成器	利益相关方通知	实时高管更新

P1 — 高优响应团队

智能体	角色
基础设施运维师	事故指挥官
DevOps 自动化师	部署支持
相关开发智能体	修复实现
客服响应者	用户通知

P2 — 中等响应

智能体	角色
相关开发智能体	修复实现
证据收集者	验证修复

P3 — 低优响应

智能体	角色
Sprint 排序师	加到待办列表

事故响应流程

第一步：发现与分诊（0-5 分钟）

触发条件：监控告警 / 用户报告 / 智能体检测到

基础设施运维师：
1. 确认告警
2. 评估范围和影响
   - 多少用户受影响？
   - 哪些服务受影响？
   - 数据有没有风险？
3. 确定严重度（P0/P1/P2/P3）
4. 激活对应的响应团队
5. 创建事故频道/线程

产出：事故分级 + 响应团队已激活

第二步：排查（5-30 分钟）

并行排查：

基础设施运维师：
├── 检查系统指标（CPU、内存、网络、磁盘）
├── 查看错误日志
├── 检查最近的部署
└── 验证外部依赖

后端架构师（P0/P1 时）：
├── 检查数据库健康
├── 查看 API 错误率
├── 检查服务间通信
└── 定位故障组件

DevOps 自动化师：
├── 查看最近的部署历史
├── 检查 CI/CD 流水线状态
├── 需要的话准备回滚
└── 验证基础设施状态

产出：根因已确定（或缩小到某个组件）

第三步：止血（15-60 分钟）

决策树：

如果是最近的部署引起的：
  → DevOps 自动化师：执行回滚
  → 基础设施运维师：验证恢复
  → 证据收集者：确认修复

如果是基础设施问题：
  → 基础设施运维师：扩容/重启/故障切换
  → DevOps 自动化师：配合基础设施变更
  → 验证恢复

如果是代码 bug：
  → 相关开发智能体：实现热修复
  → 证据收集者：验证修复
  → DevOps 自动化师：部署热修复
  → 基础设施运维师：监控恢复情况

如果是外部依赖问题：
  → 基础设施运维师：启用降级/缓存
  → 客服响应者：通知用户
  → 等待外部恢复

全程：
  → 客服响应者：每 15 分钟更新状态页
  → 高管摘要生成器：向利益相关方通报（仅 P0）

第四步：修复验证（修复后）

证据收集者：
1. 验证修复解决了问题
2. 截图证据证明系统正常
3. 确认没有引入新问题

基础设施运维师：
1. 验证所有指标恢复正常
2. 确认没有级联故障
3. 修复后监控 30 分钟

API 测试员（如果是 API 相关的）：
1. 对受影响的端点跑回归测试
2. 验证响应时间恢复正常
3. 确认错误率回到基线

产出：事故解决确认

第五步：事后复盘（48 小时内）

工作流优化师主持事后复盘：

1. 时间线重建
   - 问题什么时候引入的？
   - 什么时候被发现的？
   - 什么时候解决的？
   - 用户受影响的总时长

2. 根因分析
   - 什么坏了？
   - 为什么坏了？
   - 为什么没有更早被发现？
   - 5 个 Why 分析

3. 影响评估
   - 受影响的用户数
   - 营收影响
   - 声誉影响
   - 数据影响

4. 预防措施
   - 什么样的监控能更早发现？
   - 什么样的测试能提前拦住？
   - 流程上需要什么改变？
   - 基础设施上需要什么改变？

5. 行动项
   - [行动] → [负责人] → [截止日期]
   - [行动] → [负责人] → [截止日期]
   - [行动] → [负责人] → [截止日期]

产出：事后复盘报告 → Sprint 排序师把预防任务加到待办列表

通知模板

状态页更新（客服响应者）

[时间戳] — [服务名称] 事故

状态：[排查中 / 已定位 / 监控中 / 已解决]
影响：[对用户的影响描述]
当前行动：[我们在做什么]
下次更新：[预计下次更新时间]

高管更新（高管摘要生成器 — 仅 P0）

事故简报 — [时间戳]

现状：[服务] [挂了/降级]，影响 [N 个用户/百分比流量]
原因：[已知/排查中] — [如果已知的简要描述]
行动：[正在做什么] — 预计恢复时间 [时间估计]
影响：[业务影响——营收、用户、声誉]
下次更新：[时间戳]

升级矩阵

条件	升级给谁	行动
P0 超过 30 分钟未解决	工作室制片人	增派资源、找供应商升级
P1 超过 2 小时未解决	项目牧羊人	资源重新分配
怀疑数据泄露	法务合规员	评估监管通知义务
用户数据受影响	法务合规员 + 高管摘要生成器	GDPR/CCPA 通知
营收影响 > $X	财务追踪员 + 工作室制片人	业务影响评估

0个赞

相关推荐事故响应/应急管理/故障处理/服务可靠性/系统恢复

发表评论必须先登陆，您可以登陆或者注册新账号 !

操作手册：事故响应

操作手册：事故响应

场景

严重度分级

按严重度的响应团队

P0 — 紧急响应团队

P1 — 高优响应团队

P2 — 中等响应

P3 — 低优响应

事故响应流程

第一步：发现与分诊（0-5 分钟）

第二步：排查（5-30 分钟）

第三步：止血（15-60 分钟）

第四步：修复验证（修复后）

第五步：事后复盘（48 小时内）

通知模板

状态页更新（客服响应者）

高管更新（高管摘要生成器 — 仅 P0）

升级矩阵

评论

Author Views

编辑推荐

近期评论