Runbook de incidentes
Playbook operacional para incidentes P1/P2, comunicación y mitigación.
howto • updated 2026-03-15
Cuándo usarlo
Usa este runbook cuando exista impacto confirmado en checkout, webhooks, emisión fiscal o acceso al dashboard.
Secuencia operativa
11) Clasificar severidad
Clasifica como P1, P2 o P3 según impacto en cliente y duración.22) Mitigar primero
Activa feature flags de contención antes del análisis profundo.33) Comunicar estado
Publica actualizaciones internas y externas cada 15 minutos para P1.44) Recuperar y validar
Confirma drenaje de backlog, latencia normal y fiscal sin pendientes.55) Postmortem
Cierra con RCA, acciones y owner en 24 horas.
Plantilla de comunicación inicial
## Incidente en curso
- Severidad: P1
- Inicio: 14:20 UTC
- Impacto: fallos intermitentes en checkout
- Mitigación: fallback de cola de retry activo
- Próxima actualización: 15 minutos
Señales de recuperación
- La tasa de éxito de checkout vuelve al baseline.
- La cola de webhooks deja de crecer.
- No aparecen errores críticos nuevos en reconciliación fiscal.