beginner
Plantilla de Runbook
Una plantilla reutilizable para runbooks operacionales: respuesta a incidentes, procedimientos de deployment y tareas rutinarias.
Temas: devops
Estructura de la plantilla
Usa esta plantilla para documentar cualquier procedimiento operacional que tu equipo necesite ejecutar.
Runbook: [Nombre del procedimiento]
Metadatos
| Campo | Valor |
|---|---|
| Responsable | @team o @person |
| Severidad | P1 / P2 / P3 |
| Frecuencia | Bajo demanda / Diario / Semanal |
| Última actualización | YYYY-MM-DD |
Propósito
Descripción en una oración de qué logra este runbook y cuándo usarlo.
Prerrequisitos
- Acceso a [sistema/herramienta]
- Permisos: [roles requeridos]
- Alertas/monitoreo: [dashboards relevantes]
Procedimiento
Paso 1: [Acción]
# Comando o script a ejecutar
Resultado esperado: Describe cómo se ve el éxito. Rollback: Cómo deshacer este paso si algo sale mal.
Paso 2: [Acción]
# Comando o script a ejecutar
Resultado esperado: Describe cómo se ve el éxito.
Verificación
- Verificar que [métrica/endpoint] retorne [valor esperado]
- Confirmar que [log/alerta] muestre [patrón]
- Notificar a [stakeholder] que el procedimiento está completo
Troubleshooting
| Síntoma | Causa | Solución |
|---|---|---|
| Error X | Y no está corriendo | Reiniciar Y con command |
| Timeout | Latencia de red | Reintentar después de 30s |
Acciones post-incidente (si aplica)
- Actualizar página de estado
- Escribir retrospectiva del incidente
- Crear tickets de seguimiento
- Actualizar este runbook si el procedimiento cambió
Escalamiento
Si este runbook no resuelve el problema dentro de [tiempo], escalar a:
- L2: @on-call-engineer
- L3: @engineering-manager
- Externo: [vendor support link/number]
Mejores prácticas
- Mantenlo corto: Una página por procedimiento rutinario
- Usa checkboxes: Facilita seguirlo bajo presión
- Incluye comandos: Scripts listos para copiar y pegar
- Prueba periódicamente: Ejecuta los runbooks en períodos de calma
- Control de versiones: Guarda en
docs/runbooks/con tu código
Anti-patrones comunes
- Runbooks excesivamente largos que nadie lee durante incidentes
- Pasos de rollback faltantes
- Sin path de escalamiento definido
- Información de contacto desactualizada
- Asumir contexto que el lector no tiene