Skip to content
SP StackPractices
intermediate

Plantilla de Postmortem de Incidente

Plantilla de postmortem estructurada para analizar incidentes de sistema, identificar causas raíz y prevenir recurrencia.

Temas: devops

Resumen

Un postmortem es un registro escrito de un incidente, su impacto, las acciones tomadas para mitigarlo o resolverlo, y las acciones de seguimiento para prevenir su recurrencia. Sigue una cultura sin culpa.

Cuándo Usar

  • Después de cualquier incidente significativo en producción
  • Cuando se violan objetivos de SLA/SLO
  • Para documentar lecciones aprendidas para el equipo
  • Requerido por estándares de cumplimiento o regulatorios

Plantilla

# Postmortem de Incidente: [Título del Incidente]

## Metadatos
- **Fecha**: YYYY-MM-DD
- **Severidad**: P1 / P2 / P3 / P4
- **Duración**: HH:MM
- **Impacto**: [Servicios afectados, usuarios impactados]
- **Reportero**: [Nombre]
- **Estado**: Resuelto

## Resumen

[Descripción de 2-3 oraciones de lo que pasó y su impacto]

## Cronología (UTC)

| Hora | Evento |
|------|--------|
| 09:00 | Alerta activada: pool de conexiones de BD agotado |
| 09:05 | Ingeniero reconoció la alerta |
| 09:15 | Servicio escalado temporalmente |
| 09:45 | Causa raíz identificada: leak de conexión en v2.3.1 |
| 10:00 | Hotfix desplegado, incidente resuelto |

## Causa Raíz

[Explicación detallada de qué causó el incidente. Incluye snippets de código,
configuración o diagramas de arquitectura si aplica.]

## Evaluación de Impacto

- **Usuarios afectados**: ~15,000
- **Pico de tasa de error**: 42%
- **Impacto en ingresos**: Mínimo (degradación, no caída total)

## Resolución

[Pasos tomados para resolver el incidente, incluyendo workarounds.]

## Lecciones Aprendidas

### Qué Funcionó Bien
- El monitoreo detectó el problema en 5 minutos
- El runbook estaba actualizado y fue efectivo

### Qué Salió Mal
- El leak de conexión no se detectó en staging
- El procedimiento de rollback fue más lento de lo esperado

## Acciones de Seguimiento

| Acción | Responsable | Fecha Límite | Prioridad |
|--------|-------------|---------------|-----------|
| Agregar monitoreo de pool de conexiones | @sre-team | 2026-06-18 | Alta |
| Mejorar tests de carga en staging | @backend-team | 2026-06-25 | Media |
| Documentar pasos de rollback más rápidos | @sre-team | 2026-06-15 | Alta |

Niveles de Severidad

NivelDescripciónEjemplo
P1Caída críticaIndisponibilidad total del servicio
P2Degradación mayorFuncionalidades core rotas
P3Impacto menorFuncionalidades no críticas afectadas
P4InformativoSin impacto en usuarios, riesgo potencial

Buenas Prácticas

  • Sin culpa: Enfócate en fallas de sistema y proceso, no en individuos
  • Específico: Incluye tiempos exactos, métricas y sistemas afectados
  • Accionable: Cada postmortem debe tener acciones de seguimiento
  • Oportuno: Publicar dentro de 48 horas de la resolución
  • Compartido: Distribuir a todos los stakeholders y almacenar centralmente

Errores Comunes

  • Enfoque en culpa: Nombrar individuos en vez de analizar sistemas
  • Cronologías vagas: Faltan timestamps exactos
  • Sin acciones: Documentar sin prevenir recurrencia