Skip to content

Instantly share code, notes, and snippets.

@diogonicoleti
Created November 29, 2017 22:38
Show Gist options
  • Save diogonicoleti/89abc24508494f953bc9b8e4684058b0 to your computer and use it in GitHub Desktop.
Save diogonicoleti/89abc24508494f953bc9b8e4684058b0 to your computer and use it in GitHub Desktop.
Template de Postmortem

Data

YYYY-MM-dd

Autores

  • @fulano
  • @ciclano

CheckPoints

  • RCA criado e devidamente preenchido
  • Encontrado a causa raiz
  • Ações de mitigação concluidas
  • Todas ações concluidas

Resumo

Resuma em uma ou duas linhas o que aconteceu

Impacto

X tempo fora do ar, Y informações perdidas, etc, sistema W caiu, etc

Causas Raízes

Descreva as causas raízes do problema

Gatilho

O que causou o problema? Uma nota com um XML inválido? Um pico de acessos?

Resolução

O que foi feito para resolver temporariamente o problema?

Detecção

Quais alertas foram disparados?

Ações

Lições aprendidas

Pontos positivos e/ou onde tivemos sorte

  • O monitoramento nos alertou cedo, e pudemos agir rápido para resolver o problema
  • Não duplicou notas
  • O outro jobs continuou funcionando

Pontos negativos

  • Ocorreram muitas filas no atendimento
  • Não funcionou o monitoramento

Timeline

YYYY-MM-dd (all times GMT-3)

Time Description
HH:mm Blah
HH:mm OUTAGE BEGINS, Caiu alguma coisa
HH:mm Notificamos fulano e ciclano
HH:mm Blah
HH:mm Blah
HH:mm Blah
HH:mm OUTAGE MITIGATED, blah
HH:mm OUTAGE ENDS, blah
HH:mm INCIDENT ENDS, blah

Informações adicionais de suporte

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment