YYYY-MM-dd
- @fulano
- @ciclano
- RCA criado e devidamente preenchido
- Encontrado a causa raiz
- Ações de mitigação concluidas
- Todas ações concluidas
Resuma em uma ou duas linhas o que aconteceu
X tempo fora do ar, Y informações perdidas, etc, sistema W caiu, etc
Descreva as causas raízes do problema
O que causou o problema? Uma nota com um XML inválido? Um pico de acessos?
O que foi feito para resolver temporariamente o problema?
Quais alertas foram disparados?
- Mitigação:
- @fulano: melhorar alerta XPTO - https://github.com/suaempresa/time/issues/1
- Melhorias de processo:
- @ciclano: fazer mais testes de interface antes de liberar - https://github.com/suaempresa/time/issues/2
- Prevenção:
- @beltrano: Melhorar código para evitar NPE - https://github.com/suaempresa/time/issues/3
- Outros:
- @fulano: Alguma outra coisa aleatória - https://github.com/suaempresa/time/issues/4
- O monitoramento nos alertou cedo, e pudemos agir rápido para resolver o problema
- Não duplicou notas
- O outro jobs continuou funcionando
- Ocorreram muitas filas no atendimento
- Não funcionou o monitoramento
YYYY-MM-dd (all times GMT-3)
Time | Description |
---|---|
HH:mm | Blah |
HH:mm | OUTAGE BEGINS, Caiu alguma coisa |
HH:mm | Notificamos fulano e ciclano |
HH:mm | Blah |
HH:mm | Blah |
HH:mm | Blah |
HH:mm | OUTAGE MITIGATED, blah |
HH:mm | OUTAGE ENDS, blah |
HH:mm | INCIDENT ENDS, blah |