Envenenamiento de datos: La explotación de la IA generativa

Bart Lenaerts-Bergmans - marzo 19, 2024

¿Qué es el envenenamiento de datos?

El envenenamiento de datos es un tipo de ciberataque en el que un adversario compromete intencionalmente un conjunto de datos de entrenamiento empleado por una IA o un modelo de aprendizaje automático (ML) para influenciar o manipular su funcionamiento.

El envenenamiento de datos se puede realizar de varias maneras:

Inyectando intencionadamente información falsa o engañosa en el conjunto de datos de entrenamiento
Modificando el conjunto de datos existente
Borrando una parte del conjunto de datos

Al manipular el conjunto de datos durante la fase de entrenamiento, el adversario puede introducir sesgos, crear resultados erróneos, introducir vulnerabilidades (p. ej., una puerta trasera) o influir de otro modo en la toma de decisiones o las capacidades predictivas del modelo.

El envenenamiento de datos pertenece a una categoría de ciberataques conocida como IA adversarial. La IA o el ML adversarial es cualquier actividad que pretenda inhibir el rendimiento de los sistemas de IA/ML manipulándolos o engañándolos.

Informe Global sobre Amenazas 2025 de CrowdStrike

Consigue el informe sobre ciberseguridad imprescindible de este año.

Descargar

Síntomas del envenenamiento de datos

Como la mayoría de los modelos de IA están en constante evolución, puede resultar difícil detectar cuándo ha sufrido un deterioro el conjunto de datos. Los adversarios a menudo realizan cambios sutiles pero significativos en los datos que pueden pasar desapercibidos. Esto se aplica especialmente si el adversario es un usuario interno y, por tanto, tiene información detallada sobre las medidas y herramientas de seguridad de la organización, así como sobre sus procesos.

Para detectar un posible caso de envenenamiento de datos, quizás sea mejor recordar las razones por las que la mayoría de los ciberdelincuentes utilizan esta técnica: disminuir la precisión, la exactitud y el rendimiento del modelo. Con esto en mente, es importante prestar atención a estas señales de advertencia de envenenamiento de datos:

Síntomas	Preguntas a plantearse
Degradación del modelo	¿El rendimiento del modelo ha empeorado inexplicablemente con el tiempo?
Resultados indeseados	¿El modelo se comporta de manera inesperada y arroja resultados indeseados que el equipo de entrenamiento no puede explicar?
Aumento de falsos positivos/negativos	¿La precisión del modelo ha cambiado inexplicablemente con el tiempo? ¿Ha notado la comunidad de usuarios un aumento repentino de decisiones problemáticas o incorrectas?
Resultados sesgados	¿El modelo devuelve resultados que tienden en un sentido determinado o hacia un grupo demográfico concreto (lo que indica la posibilidad de que se haya introducido un sesgo)?
Brechas u otros eventos de seguridad	¿La organización ha experimentado un ataque o evento de seguridad que podría indicar que es un objetivo activo o que podría haberse creado una ruta de acceso para los adversarios, de modo que estos podrían manipular los datos de entrenamiento?
Actividad inusual de los empleados	¿Algún empleado muestra un interés inusual en comprender las complejidades de los datos de entrenamiento o las medidas de seguridad empleadas para protegerlos?

Tipos de envenenamiento de datos

Los ataques de envenenamiento de datos generalmente se clasifican según el resultado previsto del ataque. Las dos categorías más habituales de envenenamiento de datos son:

Ataques selectivos de envenenamiento de datos: los ataques selectivos ocurren cuando un adversario trata de manipular el comportamiento del modelo con respecto a una situación específica. Por ejemplo, un ciberdelincuente puede entrenar una herramienta de ciberseguridad para que identifique erróneamente un archivo concreto que se empleará en un ataque futuro o para que ignore la actividad sospechosa de un determinado usuario. Aunque los ataques selectivos pueden tener consecuencias graves y de gran alcance, no degradan el rendimiento general de un modelo de IA.
Ataques no selectivos de envenenamiento de datos: los ataques no selectivos ocurren cuando un ciberdelincuente manipula el conjunto de datos para lastrar el rendimiento general del modelo. Por ejemplo, el adversario puede introducir datos falsos, lo que a su vez podría reducir la precisión del modelo y menguar sus capacidades de predicción o toma de decisiones.

Expert Tip

Agentes internos vs. externos: otra consideración clave a la hora de detectar y prevenir ataques de envenenamiento de datos es quién es el ciberdelincuente en relación con la víctima. En muchos casos, un ataque de envenenamiento de datos lo lleva a cabo un usuario interno o alguien que conoce el modelo y, a menudo, también los procesos y protocolos de ciberseguridad de la organización. Esto se conoce como amenaza interna o ataque de caja blanca. Por otro lado, un ataque de caja negra lo realiza un adversario que no tiene información interna sobre el modelo que está atacando. En términos generales, los ataques de caja blanca tienden a tener una mayor probabilidad de éxito y causan daños más significativos, lo que subraya la importancia de proteger a la organización de amenazas internas.

Ejemplos de ataques de envenenamiento de datos

Una vez establecidas las amplias categorías de ataques de envenenamiento de datos, veamos algunas tácticas, técnicas y procedimientos específicos que emplean los ciberdelincuentes:

Envenenamiento de puerta trasera

El envenenamiento de puerta trasera implica inyectar datos en el conjunto de entrenamiento con la intención de introducir una vulnerabilidad que servirá como punto de acceso o "puerta trasera" para un ciberdelincuente. Así, este puede usar dicho punto de entrada para manipular el rendimiento y los resultados del modelo. El envenenamiento de puerta trasera puede ser un ataque selectivo o no selectivo, en función de los objetivos concretos del ciberdelincuente.

Ataque de disponibilidad

Un ataque de disponibilidad es un tipo de ciberataque que intenta interrumpir la disponibilidad de un sistema o servicio contaminando sus datos. Los adversarios pueden recurrir al envenenamiento de datos para manipular los datos de modo que se degrade el rendimiento o la funcionalidad del sistema objetivo; por ejemplo, haciendo que el sistema produzca falsos positivos/negativos, logrando que no procese las solicitudes de manera eficiente o incluso provocando que se bloquee por completo. Esto haría que la aplicación o el sistema no estuvieran disponibles o no fueran fiables para los usuarios previstos.

Ataque de inversión de modelos

Un ataque de inversión de modelos usa las respuestas del modelo (su salida) para recrear el conjunto de datos o generar suposiciones sobre él (su entrada). En este tipo de ataque, el adversario suele ser un empleado u otro usuario autorizado del sistema, ya que se necesita acceso a los resultados del modelo.

Ataque sigiloso

Un ataque sigiloso es una forma especialmente sutil de envenenamiento de datos en la que un adversario edita lentamente el conjunto de datos o inyecta información comprometedora para evitar que lo detecten. Con el tiempo, el efecto acumulativo de esta actividad puede generar sesgos dentro del modelo que afecten a su precisión general. Como los ataques sigilosos operan en secreto, puede ser difícil rastrear el problema a través del conjunto de datos de entrenamiento, incluso tras descubrirlo.

El impacto en la IA

A medida que las organizaciones desarrollan e implementan nuevas herramientas de IA tradicional e IA generativa, es importante tener en cuenta que estos modelos proporcionan una superficie de ataque nueva y potencialmente valiosa para los atacantes. En su afán por sacar partido a estas nuevas herramientas o probar su utilidad, muchos equipos pueden pasar por alto o subestimar la seguridad de sus modelos. Considerar la seguridad es fundamental, incluso cuando se utilizan modelos de lenguaje grandes (LLM) privados que son exclusivos de la organización.

Es igualmente importante recordar que un ataque de IA adversarial (y el envenenamiento de datos en particular) puede tener consecuencias duraderas y de gravedad. Esto se debe a que los datos de entrenamiento que emplea el modelo se ven vulnerados, lo que significa que sus resultados ya no son fiables.

Si se detecta una brecha, las organizaciones deben intentar rastrear el origen de la corrupción y restaurar el conjunto de datos. Esto requiere un análisis detallado de los datos de entrenamiento del modelo, así como la capacidad de borrar cualquier entrada falsa y restaurar eliminaciones. A menudo, esto resulta imposible, pero incluso en los casos en que es posible hacerlo, es un proceso que requiere mucho tiempo e implica costes elevados. En algunos casos, puede ser necesario volver a entrenar el modelo desde cero, lo que generalmente requiere aún más tiempo y recursos.

El envenenamiento de datos de modelos de IA puede tener consecuencias potencialmente devastadoras si se vulnera un sistema crítico y el ataque pasa desapercibido. Por ejemplo, los vehículos autónomos están controlados por sistemas de IA; si los datos de entrenamiento subyacentes no son fiables, las capacidades de toma de decisiones del vehículo podrían verse afectadas, lo que podría provocar accidentes. De manera similar, el uso de IA en la atención sanitaria, los servicios financieros e incluso los sistemas de servicios públicos supone la exposición a riesgos importantes.

Prácticas recomendadas para la defensa contra el envenenamiento de datos

A continuación se enumeran algunas prácticas recomendadas contra el envenenamiento de datos:

Validación de datos

Puesto que es extremadamente complicado para las organizaciones limpiar y restaurar un conjunto de datos vulnerado tras un ataque de envenenamiento, la prevención es la estrategia defensiva más viable. Las organizaciones deben aprovechar técnicas avanzadas de validación y desinfección de datos para ayudar a detectar y eliminar puntos de datos anómalos o sospechosos antes de que se incorporen al conjunto de entrenamiento.

Supervisión, detección y auditoría

Los sistemas de IA/ML requieren una supervisión continua para detectar los riesgos potenciales y responder rápidamente. Las empresas deben aprovechar las plataformas de ciberseguridad con monitorización continua, detección de intrusiones y protección de endpoints. Los modelos también deberían auditarse periódicamente para ayudar a identificar señales tempranas de degradación del rendimiento o de resultados indeseados.

Además, tienes la opción de incorporar supervisión en vivo de los datos de entrada y salida a tu infraestructura de IA/ML. Esto implica examinar los datos continuamente para detectar cualquier anomalía o desviación. Al identificar cuanto antes tales irregularidades, puedes implementar rápidamente medidas de seguridad para proteger y fortalecer tus sistemas frente a posibles amenazas.

La supervisión continua también puede conducir a la aplicación de análisis de comportamiento de entidades y usuarios (UEBA), que puedes usar para establecer una referencia de comportamiento para tu modelo de ML. Basándote en esto, podrás detectar más fácilmente patrones de comportamiento anómalos en tus modelos.

Entrenamiento adversarial

El entrenamiento adversarial es un algoritmo defensivo que algunas organizaciones adoptan para proteger proactivamente sus modelos. Implica introducir ejemplos adversariales en los datos de entrenamiento de un modelo para enseñarle a clasificar correctamente estas entradas como intencionalmente engañosas.

Al enseñar a un modelo de ML a reconocer los intentos de manipular sus datos de entrenamiento, pasa a verse a sí mismo como un posible objetivo y se defenderá contra ataques como el envenenamiento del modelo.

Procedencia de los datos

Las organizaciones deben conservar un registro detallado de todas las fuentes, actualizaciones, modificaciones y solicitudes de acceso a los datos. Si bien estas características no necesariamente ayudarán a detectar un ataque de envenenamiento de datos, son muy valiosas para ayudar a la organización a recuperarse de un evento de seguridad e identificar a los responsables.

En el caso de los ataques de caja blanca, el simple hecho de contar con robustas medidas que permitan determinar la procedencia de los datos puede constituir un elemento disuasorio a tener en cuenta.

Tratamiento seguro de los datos

Establece y aplica controles de acceso claros y sólidos para quien tiene acceso a los datos, sobre todo a aquellos de naturaleza confidencial. Aplica el principio del mínimo de privilegios (POLP), que es un concepto de seguridad informática y una práctica que proporciona a los usuarios derechos de acceso limitados en función de las tareas necesarias de su puesto de trabajo. Garantiza que solo los usuarios autorizados y con identidades verificadas tienen los permisos necesarios para realizar trabajos dentro de ciertos sistemas, aplicaciones, datos y recursos.

Las organizaciones también deben emplear medidas integrales de seguridad de datos, como el cifrado, la ofuscación y el almacenamiento seguro de información.

Concienciación y educación de los usuarios

Es posible que muchos de tus empleados y partes interesadas desconozcan el concepto de envenenamiento de datos; aún menos conocerán sus amenazas y señales. Como parte de tu estrategia general de defensa en materia de ciberseguridad, conciencia mediante programas de formación y educación. Capacita a tus equipos para que sepan cómo reconocer actividades o resultados sospechosos relacionados con sistemas basados en IA/ML. También debes preguntar a tu proveedor de seguridad cómo fortalecen su tecnología para combatir la IA adversarial. Una forma en la que CrowdStrike fortalece la eficacia del ML contra este tipo de ataques es combinando nuestros propios clasificadores de ML con herramientas automatizadas que generan nuevas muestras adversariales basadas en una serie de generadores con ataques configurables.

Cuando tu personal cuenta con este tipo de conocimientos, se erige como una capa adicional de seguridad y fomenta una cultura de vigilancia que mejora tus iniciativas en materia de ciberseguridad.

La estrategia de CrowdStrike

CrowdStrike está estratégicamente posicionada para liderar el sector de la seguridad mientras se adopta la IA generativa. La plataforma basada en IA CrowdStrike Falcon^® ha estado a la vanguardia de la innovación en detección impulsada por IA desde su creación.

Para posibilitar que las organizaciones adopten la IA generativa con seguridad, hemos centrado las necesidades y preocupaciones de los equipos de seguridad en la arquitectura de CrowdStrike^® Charlotte AI™, el analista de seguridad basado en IA generativa de CrowdStrike.

Charlotte AI destaca por tres características clave:

Datos fiables: Charlotte AI usa inteligencia de alta fidelidad contenida en la plataforma Falcon, que proporciona protecciones integradas contra el envenenamiento de datos.
Respuestas auditables y rastreables: cada respuesta que proporciona Charlotte AI se puede inspeccionar y auditar usando el botón "Mostrar detalles de la respuesta".
Educación del usuario: Charlotte AI contribuye a la mejora continua de las habilidades de los miembros del equipo de seguridad y optimiza la experiencia de los empleados al automatizar tareas rutinarias y recurrentes.

CrowdStrike^® Charlotte AI

Obtén más información sobre cómo Charlotte AI puede ayudar a tu organización a utilizar la última tecnología de IA de forma más eficaz y segura para reducir horas de trabajo a minutos o incluso segundos.

Descargar ahora

Bart es Senior Product Marketing Manager de inteligencia sobre amenazas en CrowdStrike y cuenta con más de 20 años de experiencia en inteligencia, detección y supervisión de amenazas. Tras iniciar su carrera como analista de operaciones de seguridad de red en una organización financiera belga, se trasladó a la costa este de los Estados Unidos para incorporarse a varias empresas de ciberseguridad, como 3Com/Tippingpoint, RSA Security, Symantec, McAfee, Venafi y FireEye-Mandiant, donde se encargó de la gestión y del marketing de productos.

Envenenamiento de datos: La explotación de la IA generativa

¿Qué es el envenenamiento de datos?

Informe Global sobre Amenazas 2025 de CrowdStrike

Informe Global sobre Amenazas 2025 de CrowdStrike

Síntomas del envenenamiento de datos

Tipos de envenenamiento de datos

Expert Tip

Ejemplos de ataques de envenenamiento de datos

Envenenamiento de puerta trasera

Ataque de disponibilidad

Ataque de inversión de modelos

Ataque sigiloso

El impacto en la IA

Prácticas recomendadas para la defensa contra el envenenamiento de datos

Validación de datos

Supervisión, detección y auditoría

Entrenamiento adversarial

Procedencia de los datos

Tratamiento seguro de los datos

Concienciación y educación de los usuarios

La estrategia de CrowdStrike

CrowdStrike^® Charlotte AI

Prueba gratis CrowdStrike durante 15 días

Prueba gratis CrowdStrike durante 15 días

Envenenamiento de datos: La explotación de la IA generativa

¿Qué es el envenenamiento de datos?

Informe Global sobre Amenazas 2025 de CrowdStrike

Informe Global sobre Amenazas 2025 de CrowdStrike

Síntomas del envenenamiento de datos

Tipos de envenenamiento de datos

Expert Tip

Ejemplos de ataques de envenenamiento de datos

Envenenamiento de puerta trasera

Ataque de disponibilidad

Ataque de inversión de modelos

Ataque sigiloso

El impacto en la IA

Prácticas recomendadas para la defensa contra el envenenamiento de datos

Validación de datos

Supervisión, detección y auditoría

Entrenamiento adversarial

Procedencia de los datos

Tratamiento seguro de los datos

Concienciación y educación de los usuarios

La estrategia de CrowdStrike

CrowdStrike® Charlotte AI

Artículos destacados

Gravedad de los datos

Tipos de ciberataques

Privacidad de datos

Prueba gratis CrowdStrike durante 15 días

Prueba gratis CrowdStrike durante 15 días

Empezar

Empresa

Partners

Clientes actuales

Soporte

CrowdStrike^® Charlotte AI