Introducción al mapeo de los flujos de datos
¿Cómo puedes saber que los datos de tu empresa están realmente protegidos?
Antes, los equipos de seguridad respondían a esta pregunta escaneando los datos en reposo. Así, cada cierto tiempo, escaneaban los repositorios de datos limitados de las empresas para hacerse una idea de dónde estaban los datos en todo momento.
Sin embargo, en unos años, esta forma de proceder ha cambiado de manera radical. Las arquitecturas se han vuelto tan complejas que ya no es posible hacer un seguimiento de los datos centrándose únicamente en los datos en reposo. Para tener el control sobre los datos, también hay que supervisar los datos en movimiento y trabajar con un mapa de los flujos de datos. La estrategia más inteligente es utilizar primero los mapas de flujos de datos y, después, los datos en reposo. Es decir, utilizar los datos en movimiento para evaluar qué repositorios de datos deben priorizarse y escanearse en reposo.
¿Qué es el mapeo de los flujos de datos?
El mapeo de los flujos de datos es el proceso por el que se visualizan y trazan los flujos de datos, desde la adquisición hasta la disposición. Es la pieza del rompecabezas que faltaba para preservar la seguridad de los datos, aunque circulen por entornos muy fragmentados, complejos y dinámicos. Además de proporcionar una visión general de lo que está ocurriendo con los datos, puede ayudar a descubrir dónde son vulnerables y proporcionar directrices claras para mitigar el riesgo y prevenir las brechas.
¿Cuál es la importancia del mapeo de los flujos de datos?
Hasta hace poco, los datos se almacenaban de forma centralizada en un número limitado de bases de datos que se escaneaban periódicamente en reposo. Así era como los equipos de seguridad controlaban los datos y comprobaban su protección.
Sin embargo, en las arquitecturas modernas, los datos pasan por cientos o incluso miles de aplicaciones y proveedores de terceros, cambian de un proveedor de la nube a otro, y entran y salen de bases de datos en la sombra. Tratar de capturar estos flujos rápidos y dinámicos con instantáneas estáticas es prácticamente imposible.
Por otro lado, escanear cada una de las fuentes de datos es inviable e increíblemente caro. Rastrear una sola transferencia de datos puede requerir copiar y procesar petabytes de datos.
Además, es importante destacar que, si solo se escanean los datos en reposo, nos perdemos el recorrido completo: dónde han estado, hacia dónde van, quién es su propietario, etc.; información de vital importancia cuando necesitamos identificar rápidamente la causa raíz de un problema.
Aquí es donde entra en juego el mapeo de los flujos de datos.
Ventajas del mapeo de los flujos de datos
Poder mapear el flujo de los datos automáticamente y profundizar en la capa de datos tiene muchas ventajas.
Con el mapeo de los flujos de datos, las organizaciones conseguirán:
- Incrementar la cobertura: el mapeo de los flujos de datos permite identificar automáticamente todos los servicios externos (incluida la IA generativa) y analizar y clasificar los datos que fluyen hacia ellos.
- Cumplir los requisitos normativos: saber en todo momento donde se encuentran los datos confidenciales y protegerlos como es debido es esencial para cumplir con las normativas en materia de privacidad y seguridad, como el Reglamento General de Protección de Datos (RGPD) o la Ley de Privacidad del Consumidor de California (CCPA, por sus siglas en inglés). Por ejemplo, el Estándar de Seguridad de Datos para la Industria de Tarjetas de Pago (PCI DSS) requiere que los datos (procesados y en reposo) de tarjetas de crédito se blinden en un entorno específico. Cumplir este requisito para los datos procesados no sería posible si solo se escaneasen los datos en reposo.
- Reducir los costes del escaneo de datos: el mapeo de los flujos de datos puede reducir drásticamente los costes de la nube pública, ya que reduce al mínimo indispensable el número de escaneos. Y es que, por un lado, ofrece a los equipos de seguridad la posibilidad de identificar qué repositorios de datos contienen datos confidenciales o de valor, para que puedan priorizarlos para su escaneo y análisis. Así, se elimina la necesidad de escanear y analizar repositorios con datos de menor valor. Por otro, el mapeo de los flujos de datos registra los cambios según se producen y no captura instantáneas constantemente en cada fase del proceso.
- Maximizar la corrección: el mapeo de los flujos de datos desempeña un papel importante a la hora de mejorar la posición de seguridad, ya que traza el flujo de los datos de la organización en tiempo real. Gracias a ello, las organizaciones pueden identificar posibles riesgos o vulnerabilidades según se producen, detectar servicios no autorizados, frenar filtraciones de datos en seco y reducir el impacto de este tipo de eventos.
- Tomar mejores decisiones: con el mapeo de los flujos de datos las organizaciones pueden tomar decisiones más informadas sobre la gestión de datos, ya que disponen de contexto empresarial e información sobre cómo se utilizan y comparten los datos en la organización. De este modo, pueden determinar qué datos recopilar, cómo almacenarlos y protegerlos, y cuánto tiempo deben conservarse.
Retos del mapeo de los flujos de datos
Lo primero que hay que saber sobre el mapeo de los flujos de datos es que su implementación puede ser muy complicada, sobre todo si se hace manualmente. Hay que tener en cuenta varios retos importantes:
- Complejidad de la arquitectura. Uno de los mayores retos a la hora de mapear los flujos de datos es que las arquitecturas modernas se han vuelto increíblemente complejas y fragmentadas. Es casi imposible hacer un seguimiento de los datos que viajan a través de cientos o incluso miles de aplicaciones cada día.
- Ángulos muertos. A menudo, los datos fluyen de forma inesperada y acaban en bases de datos no gestionadas, repositorios de datos en la sombra y servicios de terceros. Puede ser difícil mapear y proteger datos que van a parar a lugares de los que no se sabe nada. En ese caso, obtendremos un mapa de flujos que puede parecer completo, pero que en realidad está repleto de ángulos muertos. Lo peor es que, seguramente, sea en esos ángulos muertos donde los datos confidenciales necesiten el mayor nivel de protección.
- Tareas complejas y laboriosas. Las organizaciones deben monitorizar y actualizar constantemente los mapeos de los flujos de datos, ya que los sistemas cambian y se forman nuevas rutas de datos.
Abordar estos retos sin ayuda no solo es difícil y requiere tiempo, sino que puede provocar errores y ser muy frustrante. En la siguiente sección, analizaremos los dos métodos automatizados que pueden ayudar a mitigar estos problemas.
Informe sobre Threat Hunting 2024
En el Informe sobre Threat Hunting 2024 de CrowdStrike, se desvelan las últimas tácticas de más de 245 adversarios modernos, y se muestra cómo sus ataques siguen evolucionando e imitando el comportamiento de usuarios legítimos. Accede aquí a información para evitar las brechas.
Descargar ahoraMétodos automatizados para mapear los flujos de datos
Existen varias formas de mapear automáticamente los flujos de datos, y es importante saber cuáles son las diferencias entre ellas.
Análisis de logs
Uno de los métodos más habituales consiste en crear un mapa de los flujos de datos basado en logs y metadatos. Para ello, es necesario recopilar los datos de logs de varias fuentes (como servidores, aplicaciones y dispositivos de red) y, a continuación, utilizarlos para elaborar un mapa de cómo fluyen los datos por la organización.
Aunque este enfoque proporciona información útil, tiene algunos inconvenientes importantes. Los logs suelen tener un alcance limitado y podrían no capturar todos los movimientos de datos. Además, los logs no tienen visibilidad sobre los datos, es decir, pueden identificar que dos recursos se han comunicado, pero no pueden dar información sobre el tipo de datos que se han transferido. Debido a esta carencia, los equipos de seguridad deben realizar conjeturas sobre el tipo de datos, lo que puede generar una amplia gama de brechas de seguridad.
Por ejemplo, en el caso de una base de datos que solo contiene información de identificación personal (PII), el análisis de logs puede marcar erróneamente cada comunicación con esa base de datos como una transferencia de datos de identificación personal. Además de causar fatiga de alertas, el análisis de logs también puede pasar por alto información de identificación personal vulnerable que permanece oculta en datos no estructurados, en campos inesperados, etc.
Pasemos ahora a analizar un enfoque que elimina estos problemas al examinar directamente los datos.
Análisis de payloads en ejecución
Crear un mapa de los flujos de datos basado en el análisis de payloads en un módulo en ejecución es un enfoque más completo que el que hemos examinado anteriormente. En este caso, se analizan las payloads de datos actuales según se van moviendo por la organización en tiempo real.
Este enfoque proporciona una imagen más completa y precisa de los movimientos de datos, ya que capta todos los flujos de datos e incluye información sobre el contenido y el contexto de los mismos. Es la única forma de comprender realmente por dónde fluyen los datos confidenciales en lugar de confiar en datos de logs incompletos o que pueden llevar a confusión.
Para aprovechar todas las ventajas del mapeo de los flujos de datos, es importante que no afecte al rendimiento. Una de las mejores formas de evitar que esto suceda consiste en utilizar un módulo de ejecución que funcione con eBPF, ya que así se reducen al mínimo los recursos y la fricción.