*¿Hay fuego, inundación, o riesgo eléctrico?
SÍ:
Evacuar personal del área afectada. Activar sistemas de supresión (si es seguro) y llamar a servicios de emergencia (Bomberos, 911/100). La seguridad del personal anula cualquier paso técnico.
NO:
Continuar al paso 3
<HTML><ol start=“3”></HTML>
<HTML><li></HTML><HTML><p></HTML>Declaración de Incidente Grave:
El primer técnico en confirmar la alerta (ej. NOC, Sysadmin de guardia) debe:<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
* Declarar un “Incidente de Nivel 1” (o código rojo).
* Activar el Árbol de Llamadas de Emergencia
(Call Tree) o el sistema de alertas (ej. PagerDuty, Opsgenie).
<HTML><ol start=“4”></HTML>
<HTML><li></HTML><HTML><p></HTML>Convocatoria del ERT (Equipo de Respuesta a Emergencias):
Se convoca al equipo core. Esto no es una reunión de “todo el mundo”, es un equipo específico:<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
* Comandante del Incidente (IC):
1 persona (ej. Jefe de Infraestructura o Sysadmin Sr.) que dirige
la respuesta. No es quien “teclea”, es quien toma decisiones y coordina.
* Especialista de Red (Network):
Aísla y gestiona la conectividad.
* Especialista de Sistemas (Sysadmin):
Gestiona servidores, virtualización y storage.
* Especialista de Seguridad (Infosec):
Clave si es un ciberataque. Analiza y preserva evidencia.
* Encargado de Comunicaciones:
1 persona que gestiona la comunicación con stakeholders (management, negocio) para que dejen trabajar al equipo técnico.
<HTML><ol start=“5”></HTML>
<HTML><li></HTML><HTML><p></HTML>Establecer “Sala de Guerra” (War Room):
<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
* Virtual:
Iniciar un bridge de conferencia dedicado (Teams, Zoom, etc.) que permanecerá abierto hasta el final.
* Física:
Una sala de reuniones designada si el equipo está en sitio.
* Regla:
Toda la comunicación técnica pasa por aquí.
===== Fase 2: Evaluación y Contención =====
El objetivo es entender el “radio de explosión” (blast radius) y detener el sangrado
inmediatamente.
- Diagnóstico Rápido (Triaje Técnico):
El IC coordina al ERT para responder:
* ¿Qué está afectado?
(Servicios, servidores, racks, red).
* ¿Cuál es el impacto?
(Ej: “La base de datos de facturación está caída”, “El 50% de los hosts de VMware están inaccesibles”).
* ¿Se está extendiendo?
(Ej: “El ransomware se está moviendo lateralmente”, “El agua está llegando al Rack B”).
<HTML><ol start=“2”></HTML>
<HTML><li></HTML><HTML><p></HTML>Acción de Contención Inmediata:
No se intenta arreglar nada aún. El objetivo es evitar que empeore.<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
* Ej. Ciberataque (Ransomware):
* ¡Desconectar!
Aislar la red afectada. (Desconectar uplinks del datacenter, segmentar VLANs, apagar puertos de switches, bloquear IPs en el firewall).
* Apagar servidores comprometidos (no los sanos) para detener el cifrado.
* Ej. Falla de Refrigeración (HVAC):
* Iniciar apagado controlado
de sistemas no críticos (Dev, Test) para reducir la carga térmica y ganar tiempo para los sistemas de producción.
* Ej. Falla de Storage/Corrupción de Datos:
* Poner las LUNs o bases de datos afectadas en modo read-only o offline para prevenir más corrupción.
* Ej. Inundación/Fuego:
* Si es seguro, ejecutar el EPO (Emergency Power Off)
del área afectada para prevenir cortocircuitos o electrocución.
<HTML><ol start=“3”></HTML>
<HTML><li></HTML><HTML><p></HTML>Preservación de Evidencia (Rol de Infosec):
<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
* Si se sospecha de un ataque, no apagar ni reiniciar
las máquinas clave antes de tomar snapshots de memoria (RAM dump) y de disco.
* La contención (aislamiento de red) es prioritaria, pero la evidencia es crucial para la erradicación.
===== Fase 3: Erradicación =====
El objetivo es identificar la causa raíz (RCA) y eliminarla permanentemente.
- Identificación de Causa Raíz (RCA):
* Aquí es donde el equipo investiga. ¿Por qué falló el HVAC? ¿Por dónde entró el atacante? ¿Qué causó la corrupción del array?
* Se analizan logs (Firewall, AD, VMware, SAN), métricas de monitoreo, y se correlaciona la línea de tiempo del incidente.
<HTML><ol start=“2”></HTML>
<HTML><li></HTML><HTML><p></HTML>Plan de Erradicación:
Una vez identificada la RCA, el IC aprueba un plan para eliminarla.<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
* Ej. Ciberataque:
* Identificar y eliminar el malware.
* Parchar la vulnerabilidad explotada (ej. actualizar el FortiOS, parchear el servidor Exchange).
* Rotar TODAS las credenciales
(Admins, cuentas de servicio) que pudieron estar expuestas.
* Ej. Falla Física/Hardware:
* Reemplazar la PDU fallida, el controlador de la SAN, o la cuchilla (blade) defectuosa.
* Contactar a proveedores (ej. servicio técnico de la climatizadora, compañía eléctrica).
* Ej. Falla de Software/Parche:
* Realizar el rollback del parche defectuoso.
===== Fase 4: Recuperación y Verificación =====
El objetivo es restaurar los servicios de forma segura y ordenada, activando el Plan de Recuperación ante Desastres (DRP) si es necesario.
- Priorización de Servicios:
No se levanta todo a la vez. Se sigue un orden de prioridad de negocio.
* Prioridad 0 (Core):
Identidad (Active Directory, DNS, DHCP), Red Core, Firewalls.
* Prioridad 1 (Críticos):
ERP, Bases de Datos principales, Aplicaciones de cara al cliente.
* Prioridad 2 (Soporte):
Correo interno, BI, sistemas secundarios.
* Prioridad 3 (No urgentes):
Servidores de Dev/Test, archivos históricos.
<HTML><ol start=“2”></HTML>
<HTML><li></HTML><HTML><p></HTML>Restauración (El “cómo”):
<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
* Si es por Ciberataque/Corrupción:
Restaurar desde backups limpios y verificados.
Este es el paso más común. Asumir que el entorno actual está contaminado.
* Si el Datacenter está Inoperable (Fuego/Inundación):
Declarar “Desastre” y activar el Failover al sitio de DR (Datacenter Secundario)
.
* Si fue Falla de Hardware:
Levantar servicios en el hardware reparado o en spare (ej. vMotion de VMs a hosts sanos).
<HTML><ol start=“3”></HTML>
<HTML><li></HTML><HTML><p></HTML>Verificación y Pruebas Funcionales:
<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
* El servicio no está “resuelto” solo porque pinguea.
* El equipo técnico (Sysadmin, Red) valida la conectividad y el estado del SO.
* Se contacta a los “Dueños del Negocio” (Business Owners)
o usuarios clave para que realicen pruebas funcionales (ej. “Intenta generar una factura”, “Consulta el stock”).
===== Fase 5: Cierre del Incidente y Monitoreo =====
El objetivo es confirmar la estabilidad y volver a la operación normal.
- Monitoreo Intensivo (Modo “Paranoico”):
* Tras la restauración, el ERT permanece en la “Sala de Guerra” monitoreando activamente el rendimiento, los logs y las alertas de seguridad durante un período de gracia (ej. 2 a 4 horas).
* Se busca cualquier reincidencia del problema (ej. el atacante intenta volver a entrar, el hardware vuelve a fallar).
<HTML><ol start=“2”></HTML>
<HTML><li></HTML><HTML><p></HTML>Declaración de “Todo Resuelto” (All-Clear):
<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
* Solo cuando el IC, basado en el monitoreo y la validación de negocio, confirma que el entorno está estable, se declara el fin de la emergencia.
<HTML><ol start=“3”></HTML>
<HTML><li></HTML><HTML><p></HTML>Comunicación Final:
El Encargado de Comunicaciones envía el informe final a todos los stakeholders indicando que el incidente ha concluido y los servicios están operativos.<HTML></p></HTML><HTML></li></HTML>
<HTML><li></HTML><HTML><p></HTML>Cierre de la Sala de Guerra:
Se cierra el bridge de conferencia.<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
===== Fase 6: Post-Mortem (Lecciones Aprendidas) =====
Esta es la fase más importante para el futuro. Se realiza dentro de los 5 días hábiles posteriores al incidente, sin culpar a nadie (blameless post-mortem)
.
- Agendar la Reunión Post-Mortem:
Invitar al ERT y a los stakeholders clave.
- Revisar la Documentación:
Se analiza la línea de tiempo del incidente (que se debió documentar durante la Fase 2).
- Análisis (Las 5 Preguntas):
* ¿Qué pasó?
(Resumen fáctico del incidente).
* ¿Cuál fue el impacto?
(Horas de inactividad, costo, datos perdidos).
* ¿Qué salió bien?
(Ej: “La segmentación de red detuvo al ransomware”, “El backup funcionó perfecto”).
* ¿Qué salió mal?
(Ej: “Tardamos 45 minutos en activar al ERT”, “El Comandante del Incidente no estaba claro al inicio”, “El sensor de agua falló”).
* ¿Qué haremos para evitar que se repita?
(Acciones concretas, con un responsable y una fecha de entrega. Ej: “Comprar PDU con monitoreo”, “Implementar 2FA en la VPN”, “Mejorar el sistema de alertas”).
<HTML><ol start=“4”></HTML>
<HTML><li></HTML><HTML><p></HTML>Actualizar la Documentación:
Los aprendizajes se usan para mejorar este mismo procedimiento.<HTML></p></HTML><HTML></li></HTML><HTML></ol></HTML>
==== Puntos Clave para el Sysadmin/Infosec ====
* Linux:
En un ataque, no olvides revisar crontab, /tmp, ~/.ssh/authorized_keys y las conexiones de red (netstat -antp) para contención y erradicación.
* Windows:
Revisa Tareas Programadas, Servicios, logs de Event ID 4624 (Logon) y 4625 (Failed Logon), y usa herramientas de Sysinternals (especialmente TCPView y Autoruns) para la erradicación.
* Segmentación:
Tu mejor arma de contención es una red bien segmentada (VLANs, ACLs, microsegmentación). Si todo está en la misma red “plana”, estás perdido.
* Backups:
Sigue la regla 3-2-1-1-0**: 3 copias, 2 medios distintos, 1
offline (o
air-gapped), 1 inmutable, y 0 errores de verificación.