Runbook de incidentes
Playbook operacional para resposta a incidentes P1/P2 com comunicação e mitigação.
howto • updated 2026-03-15
Quando usar
Usa este runbook quando existe impacto real em checkout, webhooks, emissão fiscal ou acesso ao dashboard.
Sequência operacional
11) Classificar severidade
Classifica como P1, P2 ou P3 com base em impacto no cliente e duração.22) Mitigar primeiro
Ativa feature flags de contenção antes de iniciar análise detalhada.33) Comunicar status
Publica atualização interna e externa a cada 15 minutos para P1.44) Recuperar e validar
Confirma backlog drenado, latência normal e fiscal sem pendências.55) Postmortem
Fecha com RCA, ações e owner por item em 24 horas.
Template de comunicação inicial
## Incidente em curso
- Severidade: P1
- Início: 14:20 UTC
- Impacto: falhas intermitentes no checkout
- Mitigação: fallback ativo para fila de retry
- Próxima atualização: 15 minutos
Sinais de recuperação
- Taxa de sucesso de checkout regressa ao baseline.
- Fila de webhooks sem crescimento.
- Sem novos erros críticos na reconciliação fiscal.