Skip to content
SP StackPractices
beginner

Plantilla de Runbook

Una plantilla reutilizable para runbooks operacionales: respuesta a incidentes, procedimientos de deployment y tareas rutinarias.

Temas: devops

Estructura de la plantilla

Usa esta plantilla para documentar cualquier procedimiento operacional que tu equipo necesite ejecutar.


Runbook: [Nombre del procedimiento]

Metadatos

CampoValor
Responsable@team o @person
SeveridadP1 / P2 / P3
FrecuenciaBajo demanda / Diario / Semanal
Última actualizaciónYYYY-MM-DD

Propósito

Descripción en una oración de qué logra este runbook y cuándo usarlo.

Prerrequisitos

  • Acceso a [sistema/herramienta]
  • Permisos: [roles requeridos]
  • Alertas/monitoreo: [dashboards relevantes]

Procedimiento

Paso 1: [Acción]

# Comando o script a ejecutar

Resultado esperado: Describe cómo se ve el éxito. Rollback: Cómo deshacer este paso si algo sale mal.

Paso 2: [Acción]

# Comando o script a ejecutar

Resultado esperado: Describe cómo se ve el éxito.

Verificación

  • Verificar que [métrica/endpoint] retorne [valor esperado]
  • Confirmar que [log/alerta] muestre [patrón]
  • Notificar a [stakeholder] que el procedimiento está completo

Troubleshooting

SíntomaCausaSolución
Error XY no está corriendoReiniciar Y con command
TimeoutLatencia de redReintentar después de 30s

Acciones post-incidente (si aplica)

  • Actualizar página de estado
  • Escribir retrospectiva del incidente
  • Crear tickets de seguimiento
  • Actualizar este runbook si el procedimiento cambió

Escalamiento

Si este runbook no resuelve el problema dentro de [tiempo], escalar a:

  • L2: @on-call-engineer
  • L3: @engineering-manager
  • Externo: [vendor support link/number]

Mejores prácticas

  • Mantenlo corto: Una página por procedimiento rutinario
  • Usa checkboxes: Facilita seguirlo bajo presión
  • Incluye comandos: Scripts listos para copiar y pegar
  • Prueba periódicamente: Ejecuta los runbooks en períodos de calma
  • Control de versiones: Guarda en docs/runbooks/ con tu código

Anti-patrones comunes

  • Runbooks excesivamente largos que nadie lee durante incidentes
  • Pasos de rollback faltantes
  • Sin path de escalamiento definido
  • Información de contacto desactualizada
  • Asumir contexto que el lector no tiene