Skip to content
SP StackPractices
intermediate Por StackPractices

Respuesta a Incidentes — Manejo Estructurado de Interrupciones en Producción

Guía práctica sobre respuesta a incidentes: declarar incidentes, construir una estructura de comando de incidentes, protocolos de comunicación y reducir el tiempo medio de resolución con procesos estructurados.

Nota para desarrolladores hispanohablantes: Esta guía incluye ejemplos y convenciones de nomenclatura adaptadas a equipos que trabajan en español. Cuando existen diferencias significativas en terminología técnica entre el inglés y el español, se indican explícitamente para facilitar la comunicación en equipos multiculturales.

Descripción General

La respuesta a incidentes es el proceso estructurado de reaccionar ante interrupciones de servicio no planificadas. Sin estructura, los incidentes devienen en caos: demasiada gente hablando, sin un responsable claro de decisiones, y comunicación confusa con stakeholders. Un proceso de respuesta definido reduce el tiempo medio de resolución (MTTR), minimiza el impacto al cliente y reduce el estrés de los respondedores.

Esta guía cubre declaración de incidentes, roles, comunicación y flujos de trabajo de resolución.

Cuándo Usar

  • Experimentas interrupciones de producción sin propiedad clara
  • Múltiples ingenieros intervienen en incidentes sin coordinación
  • La comunicación a stakeholders durante interrupciones es inconsistente o falta
  • Tu MTTR está tendiendo al alza o excede tu SLO
  • Quieres practicar y mejorar capacidades de respuesta proactivamente

Conceptos Clave

ConceptoDescripción
IncidenteUna interrupción o degradación no planificada del servicio
Comandante de Incidente (IC)Único tomador de decisiones que coordina la respuesta
SeveridadClasificación de impacto (Sev1 = crítico, Sev4 = menor)
MTTRTiempo Medio de Resolución — tiempo promedio para arreglar
Líder de ComunicaciónPersona responsable de actualizaciones a stakeholders
PostmortemRevisión sin culpa tras la resolución del incidente

Clasificación de Severidad de Incidentes

SeveridadCriteriosRespuestaComunicación
Sev1Interrupción completa, ingresos detenidos, pérdida de datosTodas las manos, sala de guerraNotificación ejecutiva, página de estado, comunicación a clientes
Sev2Degradación mayor, funcionalidad principal rotaEquipo de guardia + respaldoPágina de estado, canales internos
Sev3Impacto parcial, workaround disponibleGuardia primarioTicket interno, sin comunicación externa
Sev4Problema menor, impacto mínimo al usuarioMejor esfuerzoSeguimiento en ticket, sin urgencia

Respuesta a Incidentes Paso a Paso

1. Detectar y Declarar

Reconoce cuándo una alerta se convierte en incidente:

## Checklist de Declaración de Incidente

- [ ] Alerta recibida y reconocida
- [ ] Triage inicial confirma impacto a usuario
- [ ] Severidad evaluada (Sev1-4)
- [ ] Comandante de Incidente asignado
- [ ] Canal de incidente creado (e.g., #incident-2024-001)
- [ ] Página de estado actualizada (Sev1/Sev2)
- [ ] Stakeholders notificados (Sev1)

Principios de declaración:

  • En caso de duda, declara. Bajar severidad es más fácil que recuperarse.
  • Los incidentes Sev1 obtienen un Comandante de Incidente inmediatamente.
  • Crea un canal dedicado para cada incidente Sev1/Sev2.
  • Registra hora de inicio, disparador y evaluación inicial.

2. Asignar Roles

Roles claros previenen el caos:

RolResponsabilidadesRequerido Para
Comandante de IncidenteToma todas las decisiones, asigna tareas, controla alcanceSev1, Sev2
Líder TécnicoInvestiga causa raíz, propone solucionesSev1, Sev2
Líder de ComunicaciónEscribe actualizaciones de estado, maneja comunicación a stakeholdersSev1
EscribaDocumenta timeline, acciones y decisionesSev1
RespondedorEjecuta tareas asignadas por el ICTodos
## Estructura de Comando de Incidente

                  Comandante de Incidente

         ┌──────────────┼──────────────┐
         │              │              │
    Líder         Líder de      Escriba
   Técnico        Comunicación

    Responders

Mejores prácticas de roles:

  • El IC no investiga directamente; coordina
  • Solo el IC habla en nombre del equipo de incidentes a stakeholders
  • Rota al IC si la persona actual lleva más de 2 horas
  • El escriba marca con timestamp cada acción y decisión importante

3. Comunicar Efectivamente

La comunicación es tan importante como la respuesta técnica:

AudienciaCanalFrecuenciaContenido
Equipo de respuestaCanal de incidenteContinuoEstado, hipótesis, acciones
Stakeholders internos#incidents o SlackCada 15-30 min (Sev1)Impacto, ETA, lo que sabemos
EjecutivosEmail/Slack DMCada 30-60 min (Sev1)Impacto de negocio, plan de recuperación
ClientesPágina de estadoCada 15-30 min (Sev1/2)Qué está afectado, ETA, workarounds
## Plantilla de Actualización de Estado

**Incidente:** #incident-2024-001
**Severidad:** Sev1
**Inicio:** 14:30 UTC
**Estado:** [Investigando / Identificado / Monitoreando / Resuelto]

**Impacto:** [Qué está roto y quién está afectado]
**Lo que sabemos:** [Entendimiento actual de causa raíz]
**Lo que estamos haciendo:** [Pasos activos de remediación]
**ETA:** [Tiempo estimado de resolución o siguiente actualización]
**Workaround:** [Cualquier workaround disponible para usuarios]

Siguiente actualización: 15:00 UTC

Principios de comunicación:

  • Promete menos y entrega más en las ETAs
  • No especules sobre causa raíz hasta estar seguro
  • Actualiza incluso si nada ha cambiado (“seguimos investigando”)
  • Cierra el ciclo: notifica cuando se resuelve, luego sigue con timeline de postmortem

4. Investigar y Mitigar

Respuesta técnica estructurada:

## Pasos de Investigación

1. **Confirmar alcance:** ¿Qué está roto? ¿Para quién? ¿Desde cuándo?
2. **Identificar cambios:** ¿Qué se desplegó recientemente? ¿Cambios de configuración?
3. **Verificar dependencias:** ¿Los servicios downstream están saludables?
4. **Revisar logs y métricas:** Encuentra el primer error, el pico, la divergencia
5. **Formular hipótesis:** ¿Cuál es la causa más probable?
6. **Probar hipótesis:** ¿Puedes reproducir o validar la teoría?
7. **Implementar solución:** Rollback, cambio de config, escalar, parchear
8. **Verificar recuperación:** Confirma métricas regresan a normal, reportes de usuarios resueltos

Estrategias de mitigación:

EstrategiaCuándo UsarRiesgo
RollbackDespliegue reciente causó el problemaBajo, si fue probado
Desactivar feature flagFuncionalidad específica está rotaMuy bajo
EscalarAgotamiento de capacidadBajo, pero puede ocultar causa raíz
Circuit breakerDependencia está fallandoBajo, degrada funcionalidad
Shift de tráficoProblema regional o de despliegueMedio, requiere preparación
Intervención manualCorrupción de datos, estado complejoAlto, requiere expertise

5. Resolver y Cerrar

Formaliza el fin de un incidente:

## Checklist de Resolución

- [ ] Servicio completamente restaurado y verificado
- [ ] Monitoreo muestra verde por 15+ minutos
- [ ] Página de estado actualizada a "Resuelto"
- [ ] Comunicación final enviada a stakeholders
- [ ] Escriba tiene timeline completo documentado
- [ ] Postmortem agendado dentro de 48 horas
- [ ] Incidente cerrado formalmente en sistema de seguimiento

Principios de resolución:

  • No cierres hasta tener confirmación del monitoreo
  • Mantén el canal de incidente abierto por 24 horas para preguntas de seguimiento
  • Agenda postmortem antes de que la memoria se desvanezca
  • Rastrea MTTR y frecuencia de incidentes como métricas operativas

Mejores Prácticas

  • Practica antes de necesitarlo. Corre game days y ejercicios de chaos engineering.
  • Comienza con mitigación, no causa raíz. Arregla el impacto al usuario primero; investiga después.
  • Un Comandante de Incidente. La autoridad de decisión debe ser clara y singular.
  • Comunica temprano y a menudo. El silencio durante un incidente crea pánico.
  • Documenta todo. Las notas del escriba son la base del postmortem.
  • Aprende de cada incidente. Si tienes el mismo incidente dos veces, tu proceso está roto.

Errores Comunes

  • Sin IC claro. Múltiples personas dando órdenes crea confusión y retraso.
  • Saltarse comunicación. Los stakeholders hacen sus propias (usualmente erróneas) suposiciones.
  • Perseguir causa raíz antes de mitigar. A los usuarios no les importa por qué falló; les importa que funcione.
  • Olvidar verificar. Marcar resuelto muy temprano lleva a incidentes reabiertos.
  • Sin seguimiento. Incidentes sin postmortems son oportunidades de aprendizaje desperdiciadas.

Variantes

  • Respuesta a incidentes automatizada: Runbooks de auto-remediación disparados por alertas
  • Respuesta follow-the-sun: Equipos regionales transfieren incidentes entre zonas horarias
  • Incidentes de dependencia externa: Escalamiento predefinido a vendors de terceros
  • Respuesta a incidentes de seguridad: Playbook separado para brechas y exposición de datos

FAQ

P: ¿Cuándo debería declarar un incidente vs manejar como alerta normal? Declara cuando síntomas que impactan usuarios son confirmados y la respuesta estándar de alerta es insuficiente. En caso de duda, declara.

P: ¿Quién debería ser Comandante de Incidente? El ingeniero senior más disponible que no esté depurando activamente. El IC coordina; no investiga.

P: ¿Cómo corro un postmortem efectivo? Agéndalo dentro de 48 horas, enfócate en proceso y mejoras de sistemas, no en culpa. Ve la Guía de Postmortems.

P: ¿Qué pasa si no podemos encontrar la causa raíz? Está bien. Documenta lo que sabes, lo que intentaste y qué monitorearás. Algunos incidentes permanecen parcialmente inexplicados.

Conclusión

La respuesta a incidentes es un deporte de equipo con reglas claras. Al declarar temprano, asignar roles, comunicar sin descanso y enfocarse en mitigación antes que investigación, conviertes interrupciones caóticas en eventos estructurados y aprendibles.

Recursos Relacionados