Herramientas de usuario

Herramientas del sitio


tecnica:emergenciasprocedimiento

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
tecnica:emergenciasprocedimiento [2025/11/10 11:55]
fmolinuevo
tecnica:emergenciasprocedimiento [2025/11/10 12:11] (actual)
fmolinuevo [Otras ideas]
Línea 36: Línea 36:
     * **Regla:** Toda la comunicación técnica pasa por aquí     * **Regla:** Toda la comunicación técnica pasa por aquí
  
-===== Fase 2: Evaluación y Contención ​=====+===== Fase 2: Evaluación y contención ​=====
  
 El objetivo es entender el "radio de explosión"​ (blast radius) y **detener el sangrado** inmediatamente. El objetivo es entender el "radio de explosión"​ (blast radius) y **detener el sangrado** inmediatamente.
Línea 63: Línea 63:
  
   - **Identificación de Causa Raíz (RCA):**   - **Identificación de Causa Raíz (RCA):**
 +    * Aquí es donde el equipo investiga. ¿Por qué falló el HVAC? ¿Por dónde entró el atacante? ¿Qué causó la corrupción del array?
 +    * Se analizan logs (Firewall, AD, VMware, SAN), métricas de monitoreo, y se correlaciona la línea de tiempo del incidente
 +  - **Plan de Erradicación:​** Una vez identificada la RCA, el IC aprueba un plan para eliminarla
 +    * **Ej. Ciberataque:​**
 +    * Identificar y eliminar el malware
 +    * Parchar la vulnerabilidad explotada (ej. actualizar el FortiOS, parchear el servidor Exchange)
 +    * **Rotar TODAS las credenciales** (Admins, cuentas de servicio) que pudieron estar expuestas
 +    * **Ej. Falla Física/​Hardware:​**
 +    * Reemplazar la PDU fallida, el controlador de la SAN, o la cuchilla (blade) defectuosa
 +    * Contactar a proveedores (ej. servicio técnico de la climatizadora,​ compañía eléctrica)
 +    * **Ej. Falla de Software/​Parche:​**
 +    * Realizar el //​rollback//​ del parche defectuoso
  
-  * Aquí es donde el equipo investiga. ¿Por qué falló el HVAC? ¿Por dónde entró el atacante? ¿Qué causó la corrupción del array? +===== Fase 4: Recuperación y verificación ​=====
-  * Se analizan logs (Firewall, AD, VMware, SAN), métricas de monitoreo, y se correlaciona la línea de tiempo del incidente. +
- +
-<​HTML><​ol start="​2"></​HTML>​ +
-<​HTML><​li></​HTML><​HTML><​p></​HTML>​**Plan de Erradicación:​** Una vez identificada la RCA, el IC aprueba un plan para eliminarla.<​HTML></​p></​HTML><​HTML></​li></​HTML><​HTML></​ol></​HTML>​ +
- +
-  * **Ej. Ciberataque:​** +
- +
-  * Identificar y eliminar el malware. +
-  * Parchar la vulnerabilidad explotada (ej. actualizar el FortiOS, parchear el servidor Exchange). +
-  * **Rotar TODAS las credenciales** (Admins, cuentas de servicio) que pudieron estar expuestas. +
- +
-  * **Ej. Falla Física/​Hardware:​** +
- +
-  * Reemplazar la PDU fallida, el controlador de la SAN, o la cuchilla (blade) defectuosa. +
-  * Contactar a proveedores (ej. servicio técnico de la climatizadora,​ compañía eléctrica). +
- +
-  * **Ej. Falla de Software/​Parche:​** +
- +
-  * Realizar el //​rollback//​ del parche defectuoso. +
- +
-===== Fase 4: Recuperación y Verificación ​=====+
  
 El objetivo es restaurar los servicios de forma segura y ordenada, activando el Plan de Recuperación ante Desastres (DRP) si es necesario. El objetivo es restaurar los servicios de forma segura y ordenada, activando el Plan de Recuperación ante Desastres (DRP) si es necesario.
  
   - **Priorización de Servicios:​** No se levanta todo a la vez. Se sigue un orden de prioridad de negocio.   - **Priorización de Servicios:​** No se levanta todo a la vez. Se sigue un orden de prioridad de negocio.
 +    * **Prioridad 0 (Core):** Identidad (Active Directory, DNS, DHCP), Red Core, Firewalls
 +    * **Prioridad 1 (Críticos):​** ERP, Bases de Datos principales,​ Aplicaciones de cara al cliente
 +    * **Prioridad 2 (Soporte):​** Correo interno, BI, sistemas secundarios
 +    * **Prioridad 3 (No urgentes):​** Servidores de Dev/Test, archivos históricos
 +  - **Restauración (El "​cómo"​):​**
 +    * **Si es por Ciberataque/​Corrupción:​** **Restaurar desde backups limpios y verificados.** Este es el paso más común. Asumir que el entorno actual está contaminado
 +    * **Si el Datacenter está Inoperable (Fuego/​Inundación):​** Declarar "​Desastre"​ y activar el **Failover al sitio de DR (Datacenter Secundario)**
 +    * **Si fue Falla de Hardware:** Levantar servicios en el hardware reparado o en //spare// (ej. vMotion de VMs a hosts sanos)
 +  - **Verificación y Pruebas Funcionales:​**
 +    * El servicio **no está "​resuelto"​ solo porque pinguea.**
 +    * El equipo técnico (Sysadmin, Red) valida la conectividad y el estado del SO
 +    * Se contacta a los **"​Dueños del Negocio"​ (Business Owners)** o usuarios clave para que realicen pruebas funcionales (ej. "​Intenta generar una factura",​ "​Consulta el stock"​)
  
-  * **Prioridad 0 (Core):** Identidad (Active Directory, DNS, DHCP), Red Core, Firewalls. +===== Fase 5: Cierre del incidente ​monitoreo ​=====
-  * **Prioridad 1 (Críticos):​** ERP, Bases de Datos principales,​ Aplicaciones de cara al cliente. +
-  * **Prioridad 2 (Soporte):​** Correo interno, BI, sistemas secundarios. +
-  * **Prioridad 3 (No urgentes):​** Servidores de Dev/Test, archivos históricos. +
- +
-<​HTML><​ol start="​2"></​HTML>​ +
-<​HTML><​li></​HTML><​HTML><​p></​HTML>​**Restauración (El "​cómo"​):​**<​HTML></​p></​HTML><​HTML></​li></​HTML><​HTML></​ol></​HTML>​ +
- +
-  * **Si es por Ciberataque/​Corrupción:​** **Restaurar desde backups limpios y verificados.** Este es el paso más común. Asumir que el entorno actual está contaminado. +
-  * **Si el Datacenter está Inoperable (Fuego/​Inundación):​** Declarar "​Desastre"​ y activar el **Failover al sitio de DR (Datacenter Secundario)**. +
-  * **Si fue Falla de Hardware:** Levantar servicios en el hardware reparado o en //spare// (ej. vMotion de VMs a hosts sanos). +
- +
-<​HTML><​ol start="​3"></​HTML>​ +
-<​HTML><​li></​HTML><​HTML><​p></​HTML>​**Verificación y Pruebas Funcionales:​**<​HTML></​p></​HTML><​HTML></​li></​HTML><​HTML></​ol></​HTML>​ +
- +
-  * El servicio **no está "​resuelto"​ solo porque pinguea.** +
-  * El equipo técnico (Sysadmin, Red) valida la conectividad y el estado del SO. +
-  * Se contacta a los **"​Dueños del Negocio"​ (Business Owners)** o usuarios clave para que realicen pruebas funcionales (ej. "​Intenta generar una factura",​ "​Consulta el stock"​). +
- +
-===== Fase 5: Cierre del Incidente ​Monitoreo ​=====+
  
 El objetivo es confirmar la estabilidad y volver a la operación normal. El objetivo es confirmar la estabilidad y volver a la operación normal.
  
   - **Monitoreo Intensivo (Modo "​Paranoico"​):​**   - **Monitoreo Intensivo (Modo "​Paranoico"​):​**
 +    * Tras la restauración,​ el ERT permanece en la "Sala de Guerra"​ monitoreando activamente el rendimiento,​ los logs y las alertas de seguridad durante un período de gracia (ej. 2 a 4 horas)
 +    * Se busca cualquier reincidencia del problema (ej. el atacante intenta volver a entrar, el hardware vuelve a fallar)
 +  - **Declaración de "Todo Resuelto"​ (All-Clear):​**
 +    * Solo cuando el IC, basado en el monitoreo y la validación de negocio, confirma que el entorno está estable, se declara el fin de la emergencia
 +  - **Comunicación Final:** El Encargado de Comunicaciones envía el informe final a todos los //​stakeholders//​ indicando que el incidente ha concluido y los servicios están operativos
 +  - **Cierre de la Sala de Guerra:** Se cierra el //bridge// de conferencia
  
-  * Tras la restauración,​ el ERT permanece en la "Sala de Guerra"​ monitoreando activamente el rendimiento,​ los logs y las alertas de seguridad durante un período de gracia (ej. 2 a 4 horas). +===== Fase 6: Post mortem ​(Lecciones ​aprendidas) =====
-  * Se busca cualquier reincidencia del problema (ej. el atacante intenta volver a entrar, el hardware vuelve a fallar). +
- +
-<​HTML><​ol start="​2"></​HTML>​ +
-<​HTML><​li></​HTML><​HTML><​p></​HTML>​**Declaración de "Todo Resuelto"​ (All-Clear):​**<​HTML></​p></​HTML><​HTML></​li></​HTML><​HTML></​ol></​HTML>​ +
- +
-  * Solo cuando el IC, basado en el monitoreo y la validación de negocio, confirma que el entorno está estable, se declara el fin de la emergencia. +
- +
-<​HTML><​ol start="​3"></​HTML>​ +
-<​HTML><​li></​HTML><​HTML><​p></​HTML>​**Comunicación Final:** El Encargado de Comunicaciones envía el informe final a todos los //​stakeholders//​ indicando que el incidente ha concluido y los servicios están operativos.<​HTML></​p></​HTML><​HTML></​li></​HTML>​ +
-<​HTML><​li></​HTML><​HTML><​p></​HTML>​**Cierre de la Sala de Guerra:** Se cierra el //bridge// de conferencia.<​HTML></​p></​HTML><​HTML></​li></​HTML><​HTML></​ol></​HTML>​ +
- +
-===== Fase 6: Post-Mortem ​(Lecciones ​Aprendidas) =====+
  
 Esta es la fase más importante para el futuro. Se realiza //dentro de los 5 días hábiles// posteriores al incidente, **sin culpar a nadie (blameless post-mortem)**. Esta es la fase más importante para el futuro. Se realiza //dentro de los 5 días hábiles// posteriores al incidente, **sin culpar a nadie (blameless post-mortem)**.
  
-  - **Agendar la Reunión Post-Mortem:​** Invitar al ERT y a los //​stakeholders//​ clave. +  - **Agendar la Reunión Post-Mortem:​** Invitar al ERT y a los //​stakeholders//​ clave 
-  - **Revisar la Documentación:​** Se analiza la línea de tiempo del incidente (que se debió documentar durante la Fase 2).+  - **Revisar la Documentación:​** Se analiza la línea de tiempo del incidente (que se debió documentar durante la Fase 2)
   - **Análisis (Las 5 Preguntas):​**   - **Análisis (Las 5 Preguntas):​**
 +    * **¿Qué pasó?** (Resumen fáctico del incidente)
 +    * **¿Cuál fue el impacto?** (Horas de inactividad,​ costo, datos perdidos)
 +    * **¿Qué salió bien?** (Ej: "La segmentación de red detuvo al ransomware",​ "El backup funcionó perfecto"​)
 +    * **¿Qué salió mal?** (Ej: "​Tardamos 45 minutos en activar al ERT", "El Comandante del Incidente no estaba claro al inicio",​ "El sensor de agua falló"​)
 +    * **¿Qué haremos para evitar que se repita?** (Acciones concretas, con un responsable y una fecha de entrega. Ej: "​Comprar PDU con monitoreo",​ "​Implementar 2FA en la VPN", "​Mejorar el sistema de alertas"​)
 +  - **Actualizar la documentación:​** Los aprendizajes se usan para mejorar //este mismo procedimiento//​
  
-  * **¿Qué pasó?** (Resumen fáctico del incidente). +===== Puntos Clave para el Sysadmin/​Infosec =====
-  * **¿Cuál fue el impacto?** (Horas de inactividad,​ costo, datos perdidos). +
-  * **¿Qué salió bien?** (Ej: "La segmentación de red detuvo al ransomware",​ "El backup funcionó perfecto"​). +
-  * **¿Qué salió mal?** (Ej: "​Tardamos 45 minutos en activar al ERT", "El Comandante del Incidente no estaba claro al inicio",​ "El sensor de agua falló"​). +
-  * **¿Qué haremos ​para evitar que se repita?** (Acciones concretas, con un responsable y una fecha de entrega. Ej: "​Comprar PDU con monitoreo",​ "​Implementar 2FA en la VPN", "​Mejorar ​el sistema de alertas"​).+
  
-<​HTML><​ol start="​4"><​/HTML> +  * **Linux:** En un ataque, no olvides revisar crontab, ​/tmp, ~/.ssh/authorized_keys y las conexiones de red (netstat -antp) para contención y erradicación 
-<​HTML><​li><​/HTML><​HTML><​p><​/HTML>**Actualizar la Documentación:** Los aprendizajes se usan para mejorar ​//este mismo procedimiento//​.<​HTML><​/p></HTML><​HTML><​/li></HTML><​HTML><​/ol></HTML>+  ​* **Windows:** Revisa Tareas Programadas,​ Servicios, logs de Event ID 4624 (Logon) y 4625 (Failed Logon), y usa herramientas de Sysinternals (especialmente TCPView y Autoruns) ​para la erradicación 
 +  * **Segmentación:​** Tu mejor arma de contención es una red bien segmentada (VLANs, ACLs, microsegmentación). Si todo está en la misma red "​plana",​ estás perdido 
 +  * **Backups:​** Sigue la regla **3-2-1-1-0**:​ 3 copias, 2 medios distintos, 1 //offline// (o //air-gapped//), 1 inmutable, y 0 errores de verificación
  
-==== Puntos Clave para el Sysadmin/​Infosec ​====+===== Otras ideas =====
  
-  ​* **Linux:** En un ataqueno olvides revisar crontab/tmp~/​.ssh/​authorized_keys y las conexiones ​de red (netstat ​-antp) para contención ​erradicación. +  ​- Desconectar la corriente de los switches/​gateways/​routers en vez de cables de red de servidores 
-  ​* **Windows:** Revisa Tareas ProgramadasServicios, logs de Event ID 4624 (Logon) y 4625 (Failed Logon), y usa herramientas ​de Sysinternals (especialmente TCPView ​Autoruns) ​para la erradicación+  - Realizar ​un inventario preliminar de los servidores y servicios comprometidospara informar y tomar acciones 
-  ​* **Segmentación:** Tu mejor arma de contención ​es una red bien segmentada (VLANsACLsmicrosegmentación). Si todo está en la misma red "plana", ​estás perdido. +  - Considerar que el acceso a los backups esté restringidoya sea mediante el acceso a un puerto con credencialeso bien en modo sólo lectura si es necesario accederlos mediantes CIFS 
-  ​* **Backups:** Sigue la regla **3-2-1-1-0**: 3 copias2 medios distintos1 //offline// (//air-gapped//)1 inmutable, y 0 errores ​de verificación.+  - Realizar backups remotos, nunca en el propio equipo 
 +  - Realizar backups remotos geográficamente alejados, especialmente ​de datos críticos para la operación de la empresa 
 +  ​Servidores de backup sin acceso desde los servidores de origen 
 +  - Identificar los servidores afectados por ejemplo con una simple etiqueta "​Infectado",​ tratando de evitar apagarlos ​para intentar preservar evidencia del ataque que pueda llevar a obtener información forense relevante 
 +  - Documentar el caso lo mejor posible, indicando qué ocurrió ​qué se hizo, y mejorarlo poco a poco con el tiempo, con nuevos incidentes o simplemente revisando y registrando nuevas ideas 
 +  ​- En general se recomienda: 
 +    ​evitar pagarya que nada asegura que se obtenga la clave de descifrado, se financia a los desarrolladores del ransomware, e incluso si se obtiene la clave, el trabajo para descifrar todos los archivos es una tarea titánica, y además agrega a la empresa al listado ​de "​dispuestos a pagar" con lo cual se garantiza nuevos intentos de ataque; 
 +    * evitar tomarse demasiado tiempo para identificar ​buscar la cepa del ransomware pues es sumamente raro que exista una clave de descifrado preexistente;​  
 +    * tomar capturas e información de los mensajes, ​para documentar, denunciar, o aportar a investigadores,​ y si es posible del ejecutable o código que se encuentre, teniendo las precauciones del caso;  
 +    * evitar intentar limpiar un servidor infectado, se debe blanquear los discos, y reinstalar de cero 
 +  - Cambiar la contraseña de todos los administradores antes de comenzar ​la reinstalaciónConsiderar la necesidad de forzar cambio de contraseña/​desactivar todos los usuarios si es necesario 
 +  ​- En dominios Windows 
 +    ​asumir que todas las contraseñas del dominio están comprometidas;​  
 +    ​forzar un reseteo ​de contraseña para todas las cuentas de usuario;  
 +    * resetear todas las cuentas de servicio y de administrador;​ 
 +    * si el Domain Controller quedó operativo, resetear el token KRBTGT dos veces para invalidar todos los tickets Kerberos existentes que los atacantes puedan haber robado 
 +  - Identificar si es posibley erradicarel vector de ingreso 
 +  - Considerar ​la posibilidad de que el atacante aún tenga acceso, y tomar todas las precauciones necesarias 
 +  - El acceso al dominio, y los usuarios administrador deben ser extremadamente limitados, preferentemente configurarles acceso exclusivo desde algunas IPs consideradas ​"seguras", ​y dejar registrado en una knowledge base (KB) cualquier cambio (altas, bajas y modificaciones) para referencia posterior 
 +  ​- Dejar registrada alta/​baja/​modificaciones de usuarios en una KB 
 +  - Servidores Windows que no necesiten estar en el dominio, dejarlos fuera de él, por ejemplo réplicas de DBs, backups, etc 
 +  - Los servidores Linux, aunque sean internos sin acceso desde afuera, deberían tener 
 +    ​root con diferentes contraseñas (evaluar si es suficiente crear una regla mnemotécnica para simplificar las diferencias entre ellas, y si algunos pueden tener contraseñas de root totalmente diferentes);​ 
 +    ​fail2ban configurado y activado 
 +  - El servicio SSH en los servidores Linux debería estar configurado para permitir el acceso exclusivo de los usuarios especificados,​ con la regla AllowUser, lo cual evita que se cree algún usuario de prueba (como he visto en algunos servidores) y ese usuario ya por defecto tenga acceso por SSH 
 +  ​Identificar servidores críticos (para operación de la empresa, por los datos almacenados,​ o los servicios prestados) y considerar endurecer las políticas de acceso a los mismos 
 +  ​Básicamente,​ considerar que si algo es "​demasiado fácil",​ quizá sea inseguro 
 +  ​El concepto de seguridad es dinámicoy las políticas de seguridad deben ser integralesrevisadas periódicamente como un todo, evitando nichos y "​corralitos"​ de poder prejuicios 
 +  ​Realizar periódicamente auditorías de seguridad 
 +  - Considerar el acceso por VPN como un potencial vector de acceso muy agresivo. Usuarios y accesos deben ser registrados,​ y revisados los accesos periódicamente,​ dando de baja aquellos que sean necesarios. Es recomendable tener una política de vencimiento de los certificados,​ para obligar a todos los que necesiten acceder a que tengan que renovarlos 
 +  - El acceso desde afuera a puertos internos debe ser registrado y evaluado en cada caso, para lo cual se debe identificar un responsable del/los firewallsquien llevará a cambio los cambiosdocumentando ​realizando el correspondiente backup previo y posterior 
 +  - Educar al personal técnico y no técnico sobre mejores prácticas tanto de seguridad como de trabajoY hacerlo periódicamente,​ repasando conocimientos y mejorando cada vez, agregando aquellas nuevas consideraciones que sean necesarias 
 +  - Documentar todo lo posible y mejorar la documentación de manera permanente, educando y obligando a los responsables a hacerlo, y mantenerlo actualizado 
 +  - Educar y estimular a los equipos que funcionen como uno solo, colaborando entre sí, y/o cambiando roles para evitar dependencias críticas de alguno de ellos
  
tecnica/emergenciasprocedimiento.1762786546.txt.gz · Última modificación: 2025/11/10 11:55 por fmolinuevo