¿Qué es el envenenamiento de datos? Tipos y mejores prácticas

Hemos observado que las organizaciones dependen cada vez más de la inteligencia artificial (IA) y el aprendizaje automático (ML) para la toma de decisiones, la protección de activos y la optimización operativa. Esta creciente dependencia de la IA se pone de relieve en la última encuesta global de McKinsey sobre IA, en la que el 65 % de los encuestados afirmó que sus empresas utilizan con frecuencia la IA generativa, casi el doble que en la encuesta realizada hace diez meses. Sin embargo, esta rápida adopción conlleva nuevos riesgos. Los ciberdelincuentes están utilizando ataques de envenenamiento de datos para atacar la integridad de estos modelos de IA.

Atacan inyectando datos corruptos o maliciosos en los conjuntos de datos de entrenamiento, lo que puede perturbar gravemente los modelos de IA, dando lugar a predicciones erróneas y comprometiendo la seguridad. Según una investigación de digitalcommons.lasalle.edu, el envenenamiento de solo entre el 1 % y el 3 % de los datos puede perjudicar significativamente la capacidad de una IA para generar predicciones precisas.

En este artículo se analizará qué es el envenenamiento de datos, cómo funciona, el impacto que puede tener y cómo las empresas pueden detectar, prevenir y mitigar estos ataques.

¿Qué es el envenenamiento de datos?

El envenenamiento de datos, también conocido como envenenamiento de IA, es un tipo de ciberataque que se dirige a los conjuntos de datos de entrenamiento de la inteligencia artificial (IA) y los modelos de aprendizaje automático (ML). El atacante introduce información engañosa, modifica los datos existentes o elimina puntos de datos importantes. El objetivo del atacante es engañar a la IA para que realice predicciones o tome decisiones incorrectas.

Esta manipulación puede tener consecuencias de gran alcance en diversos sectores, ya que la integridad de las soluciones basadas en IA depende en gran medida de la calidad de los datos con los que se entrenan.

¿Por qué preocupa cada vez más el envenenamiento de datos?

A medida que las empresas adoptan la IA generativa y los modelos de lenguaje grandes (LLM), como ChatGPT y Google Bard, los ciberdelincuentes aprovechan cada vez más la naturaleza de código abierto de los conjuntos de datos de IA. Este acceso les permite introducir datos maliciosos en los conjuntos de datos de entrenamiento, creando nuevas vulnerabilidades.

La integración de la IA en las empresas no solo mejora la eficiencia, sino que también motiva a los ciberdelincuentes a desarrollar métodos de ataque innovadores. En la web oscura han surgido herramientas como FraudGPT y WormGPT, diseñadas para un uso malicioso. Estas herramientas permiten a los ciberdelincuentes automatizar y ampliar sus ataques.

Sorprendentemente, los atacantes solo necesitan alterar una cantidad minúscula de datos para que un algoritmo deje de ser eficaz. Según un estudio, al incluir palabras que se encuentran habitualmente en correos electrónicos legítimos en mensajes de spam, los atacantes pueden engañar al sistema para que los reclasifique como seguros durante el reentrenamiento de un nuevo conjunto de datos.

El envenenamiento de datos puede producirse de forma sutil a lo largo del tiempo, lo que dificulta su identificación hasta que ya se ha infligido un daño significativo. Los atacantes pueden alterar gradualmente los conjuntos de datos o introducir ruido, a menudo operando sin que sus acciones sean visibles de inmediato.

En el ámbito de la salud, el envenenamiento de datos puede sesgar los modelos de diagnóstico, lo que puede dar lugar a diagnósticos erróneos o recomendaciones de tratamiento inadecuadas. Por ejemplo, si un atacante inyecta datos engañosos en un modelo que predice los resultados de los pacientes, podría dar lugar a decisiones que pongan en peligro la vida basadas en información errónea.

Del mismo modo, en el sector financiero, los algoritmos que evalúan el riesgo crediticio o detectan el fraude son vulnerables al envenenamiento de datos. Los atacantes pueden manipular los conjuntos de datos de entrenamiento para crear perfiles falsos que evadan la detección o aprueben transacciones fraudulentas, lo que socava la integridad de los sistemas financieros.

Otra industria que puede caer fácilmente presa del envenenamiento de datos es la de los vehículos autónomos. Estos dependen en gran medida de datos precisos para la navegación y la seguridad, y el envenenamiento de datos puede introducir errores en la interpretación de los datos de los sensores, lo que puede dar lugar a comportamientos de conducción peligrosos o accidentes.

Ataques de envenenamiento de datos directos frente a indirectos

Los ataques de envenenamiento de datos se pueden clasificar en dos categorías: ataques directos e indirectos.

Ataques directos de envenenamiento de datos: Estos, también conocidos como ataques dirigidos, implican manipular el modelo de aprendizaje automático para que se comporte de una manera específica ante entradas concretas, manteniendo al mismo tiempo el rendimiento general del modelo. El objetivo es hacer que el modelo clasifique o interprete erróneamente ciertos datos sin degradar sus capacidades generales. Por ejemplo, un sistema de reconocimiento facial entrenado para identificar a personas a partir de sus imágenes. Un atacante podría inyectar imágenes alteradas de una persona específica en el conjunto de datos de entrenamiento, en las que estas imágenes se modifican sutilmente, como cambiar el color del pelo o añadir accesorios. Como resultado, cuando el modelo se encuentra con la persona real en un escenario del mundo real, puede identificarla erróneamente como otra persona debido a estas modificaciones específicas.
Ataques indirectos de envenenamiento de datos: Estos ataques se conocen como no dirigidos y tienen como objetivo degradar el rendimiento general del modelo de ML en lugar de dirigirse a funcionalidades específicas. Este tipo de ataque puede implicar la inyección de ruido aleatorio o datos irrelevantes en el conjunto de entrenamiento, lo que perjudica la capacidad del modelo para generalizar a partir de sus datos de entrenamiento. Por ejemplo, puede tener un sistema de detección de spam que se haya entrenado con un conjunto de datos de correos electrónicos etiquetados como spam o no spam. Un atacante podría introducir un gran volumen de correos electrónicos irrelevantes, como texto aleatorio o contenido no relacionado, en el conjunto de entrenamiento. Esta afluencia de ruido puede confundir al modelo, lo que da lugar a una mayor tasa de falsos positivos y negativos. Al final, reducirá su eficacia a la hora de distinguir entre correos electrónicos legítimos y spam.

El impacto del envenenamiento de datos en las empresas

El envenenamiento de datos afecta a tecnologías avanzadas como los vehículos autónomos (AV) y los robots quirúrgicos. Por ejemplo, un estudio publicado por la Biblioteca Nacional de Medicina reveló que los errores del sistema en las cirugías robóticas representaban el 7,4 % de los eventos adversos, lo que provocaba interrupciones en los procedimientos y prolongaba los tiempos de recuperación. Estas interrupciones pueden provocar un aumento de los costes operativos debido a la prolongación de las estancias hospitalarias y la necesidad de cirugías adicionales. Además, las empresas que operan en sectores regulados se enfrentan a estrictos requisitos de cumplimiento. Por ejemplo, en el sector sanitario, las organizaciones deben cumplir con la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) y otras normativas. Un incidente de envenenamiento de datos que provoque una violación de la seguridad de los datos o diagnósticos médicos incorrectos podría dar lugar a importantes incumplimientos normativos. Lo que está en juego es aún mayor en los sectores que utilizan vehículos autónomos (AV). Por ejemplo, un incidente de contaminación de datos podría provocar que los AV interpretaran erróneamente las señales de tráfico, lo que daría lugar a accidentes y a importantes responsabilidades. En 2021, Tesla se enfrentó a un escrutinio después de que su software de IA clasificara erróneamente los obstáculos debido a datos defectuosos, lo que le costó millones en retiradas de productos y multas reglamentarias.

El daño a la reputación causado por el envenenamiento de datos puede ser duradero y difícil de recuperar. Para empresas como Tesla, que promocionan intensamente las características de seguridad de su tecnología de vehículos autónomos, los incidentes derivados de la manipulación de datos pueden minar la confianza de los consumidores. Una encuesta realizada por PwC reveló que el 59 % de los consumidores evitaría utilizar una marca que percibiera como poco segura.

Tipos de ataques de envenenamiento de datos

Es importante comprender los tipos de ataques de envenenamiento de datos, ya que esto le ayuda a identificar vulnerabilidades en los sistemas de IA. Puede implementar una defensa sólida y evitar la manipulación de los modelos de aprendizaje automático por parte de actores maliciosos.

N.º 1. Ataques de puerta trasera

En un ataque de puerta trasera, los atacantes incrustan desencadenantes ocultos en los datos de entrenamiento. Estos desencadenantes suelen ser patrones o características que el modelo puede reconocer basándose en su entrenamiento, imperceptibles para el ojo humano. Cuando el modelo encuentra este activador incrustado, se comporta de una manera específica y preprogramada que el atacante quería que se comportara.

Estos adversarios de puerta trasera permiten a los atacantes eludir las medidas de seguridad o manipular los resultados sin ser detectados hasta que es demasiado tarde.

#2. Ataques de inyección de datos

La inyección de datos se produce cuando se añaden muestras maliciosas al conjunto de datos de entrenamiento, con el objetivo de manipular el comportamiento del modelo durante su implementación. Por ejemplo, un atacante podría inyectar datos sesgados en un modelo bancario, lo que llevaría a discriminar a determinados grupos demográficos durante la tramitación de préstamos. Para las entidades bancarias, esto supone problemas legales y pérdida de reputación. El problema de estas manipulaciones es que la fuente desde la que se inyectaron los datos maliciosos es imposible de rastrear. El sesgo se hace sutilmente evidente mucho después de que el modelo ya se haya implementado.

#3. Ataques de etiquetado erróneo

El atacante modifica el conjunto de datos asignando etiquetas incorrectas a una parte de los datos de entrenamiento. Por ejemplo, si se está entrenando un modelo para clasificar imágenes de gatos y perros, el atacante podría etiquetar erróneamente las imágenes de perros como gatos.

El modelo aprende de estos datos corruptos y pierde precisión durante su implementación, lo que lo convierte en inútil y poco fiable.

#4. Ataques de manipulación de datos

La manipulación de datos consiste en alterar los datos existentes dentro del conjunto de entrenamiento mediante diversos métodos. Esto incluye añadir datos incorrectos para sesgar los resultados, eliminar puntos de datos esenciales que, de otro modo, guiarían un aprendizaje preciso, o inyectar muestras adversas diseñadas para hacer que el modelo clasifique erróneamente o se comporte de forma impredecible. Estos ataques degradan gravemente el rendimiento del modelo de ML si no se identifican durante el entrenamiento.

¿Cómo funciona un ataque de envenenamiento de datos?

Los ciberatacantes pueden manipular conjuntos de datos introduciendo puntos de datos maliciosos o engañosos. Esta manipulación da lugar a un entrenamiento y unas predicciones inexactas. Por ejemplo, alterar un sistema de recomendaciones añadiendo valoraciones falsas de los clientes puede sesgar la percepción que los usuarios tienen de la calidad de un producto.

En algunos casos, los atacantes pueden no introducir nuevos datos, sino modificar puntos de datos auténticos para crear errores y engañar al sistema. Por ejemplo, alterar los valores de una base de datos de transacciones financieras puede comprometer los sistemas de detección de fraudes o dar lugar a cálculos erróneos de las ganancias y pérdidas.

Otra táctica consiste en eliminar datos críticos, lo que crea lagunas en los datos y debilita la capacidad de generalización del modelo. Esto puede dejar los sistemas vulnerables, como un modelo de ciberseguridad que no detecta ciertos ataques a la red debido a la eliminación de datos relevantes sobre los ataques. Comprender cómo se producen estos ataques es fundamental para desarrollar contramedidas eficaces. Para combatir el envenenamiento de datos, es esencial implementar estrategias de detección robustas que puedan identificar estas amenazas antes de que afecten a sus sistemas.

¿Cómo detectar el envenenamiento de datos?

Puede rastrear el origen y el historial de los datos para ayudar a identificar entradas potencialmente dañinas. La supervisión de los metadatos, los registros y las firmas digitales puede ayudar en este proceso. El uso de estrictas comprobaciones de validación puede ayudar a filtrar las anomalías y los datos atípicos que se utilizan para el entrenamiento. Esto incluye el uso de reglas, esquemas y análisis exploratorio de datos para evaluar la calidad de los datos. Las herramientas de automatización, como Alibi Detect y TensorFlow Data Validation (TFDV), agilizan el proceso de detección mediante el análisis de conjuntos de datos en busca de anomalías, desviaciones o sesgos. Estas herramientas emplean diversos algoritmos para identificar posibles amenazas en los datos de entrenamiento.

Además, se pueden utilizar técnicas estadísticas para señalar desviaciones de los patrones esperados que puedan poner de manifiesto posibles intentos de envenenamiento. Los métodos de agrupación pueden ser especialmente eficaces para detectar valores atípicos. Los modelos avanzados de aprendizaje automático pueden aprender a reconocer patrones asociados a datos envenenados, lo que proporciona una capa adicional de seguridad.

Pasos para prevenir el envenenamiento de datos

La prevención del envenenamiento de datos requiere un enfoque multifacético que incorpore las mejores prácticas en materia de gestión de datos, entrenamiento de modelos y medidas de seguridad. Estos son los pasos clave que pueden dar las organizaciones:

1. Garantizar la integridad de los datos

Debe crear prácticas de gobernanza de datos mediante la implementación de estrategias de validación exhaustivas, como la validación de esquemas, la validación cruzada y la verificación de sumas de comprobación, para comprobar la precisión, la coherencia y la calidad antes de utilizar los datos para el entrenamiento. Además, el uso de técnicas como la detección de anomalías puede ayudar a identificar puntos de datos sospechosos. Emplee estrictos controles de acceso y cifrado para proteger los datos confidenciales del acceso y las modificaciones no autorizados.

2. Supervise las entradas de datos

Supervise el origen de los datos y compruebe si hay patrones o tendencias inusuales que puedan indicar manipulación. Evalúe periódicamente el rendimiento de los modelos de IA para identificar cualquier comportamiento inesperado que pueda sugerir el envenenamiento de datos, utilizando herramientas para la detección de desviaciones en los modelos.

3. Implementar técnicas sólidas de entrenamiento de modelos

Utilice técnicas como el aprendizaje conjunto y el entrenamiento adversario para mejorar la solidez del modelo y su capacidad para rechazar muestras contaminadas. Puede utilizar mecanismos de detección de valores atípicos para marcar y eliminar puntos de datos anómalos que se desvíen significativamente de los patrones esperados.

4. Utilizar controles de acceso y cifrado

Con los controles de acceso basados en roles (RBAC) y la autenticación de dos factores, puede garantizar que solo el personal autorizado acceda y modifique los conjuntos de datos de entrenamiento. Además, opte por métodos de cifrado sólidos como Rivest-Shamir-Adleman (RSA) o Advanced Encryption Standard (AES) para proteger los datos en reposo y en tránsito, y evitar cualquier modificación durante su ciclo de vida.

5. Validar y probar los modelos

Utilice conjuntos de datos limpios y verificados para volver a entrenar y probar sus modelos con regularidad. Esto puede prevenir, detectar y mitigar el impacto del envenenamiento de datos. Además, al ser proactivo, puede mantener la precisión de su modelo, ayudarlo a generalizar bien y permanecer resistente a las entradas de datos maliciosos.

6. Fomente la concienciación sobre la seguridad

Organice sesiones de formación periódicas para su equipo de ciberseguridad con el fin de concienciarlo sobre las tácticas de envenenamiento de datos y cómo reconocer las amenazas potenciales. Desarrolle protocolos claros para responder a los incidentes sospechosos de envenenamiento de datos.

A medida que refuerza la preparación de su equipo con estas medidas preventivas, es igualmente importante aprender de los ataques de envenenamiento de datos del mundo real. Estos incidentes pueden proporcionar información única sobre vulnerabilidades ocultas y su impacto, lo que le ayudará a perfeccionar sus protocolos de seguridad para evitar amenazas similares en el futuro.

Para prevenir el envenenamiento de datos, las organizaciones necesitan una detección y prevención de amenazas sólidas. La seguridad basada en IA de Singularity ofrece protección proactiva contra la manipulación de datos.

Plataforma Singularity

Mejore su postura de seguridad con detección en tiempo real, respuesta a velocidad de máquina y visibilidad total de todo su entorno digital.

Demostración

Prácticas recomendadas clave para el envenenamiento de datos

Estas son directrices o principios que ayudan a las organizaciones a comprender cómo gestionar y mitigar los riesgos asociados al envenenamiento de datos

N.º 1. Validación y limpieza de datos

Establezca protocolos de validación estrictos para garantizar que solo se incluyan datos relevantes y de alta calidad en el conjunto de entrenamiento. Esto puede implicar la comprobación de anomalías, duplicados e inconsistencias. Realice auditorías periódicas de sus conjuntos de datos para identificar y eliminar cualquier punto de datos sospechoso o de baja calidad. El uso de herramientas automatizadas puede ayudar a agilizar este proceso.

#2. Mecanismos de detección de anomalías

Utilice algoritmos de aprendizaje automático diseñados para detectar valores atípicos y anomalías en sus conjuntos de datos. Esto puede ayudar a identificar posibles intentos de envenenamiento de datos al señalar patrones inusuales que se desvían del comportamiento esperado. Implemente sistemas de supervisión continua que analicen los datos entrantes en tiempo real. Esto garantiza que cualquier entrada maliciosa pueda detectarse y abordarse de inmediato.

#3. Robustez y pruebas de los modelos

Utilice métodos de entrenamiento de modelos que sean resistentes al ruido y a los ataques adversarios. Técnicas como el entrenamiento adversario pueden ayudar a los modelos a aprender a resistir posibles ataques de envenenamiento de datos. Pruebe regularmente sus modelos con una variedad de conjuntos de datos, incluidos aquellos que simulan posibles ataques de envenenamiento. Esto le ayudará a comprender cómo se comportan sus modelos en diferentes condiciones y a identificar vulnerabilidades.

#4. Control de acceso y gobernanza de datos

Limite el acceso a los datos de entrenamiento y a los parámetros del modelo al personal de confianza. Esto reduce el riesgo de ataques internos y garantiza que solo se utilicen entradas validadas en el entrenamiento del modelo. Cree políticas claras sobre el origen, el manejo y el almacenamiento de los datos. Eduque a los miembros del equipo sobre la importancia de la integridad de los datos y los riesgos del envenenamiento de datos para fomentar una cultura de seguridad.

Ejemplos reales de envenenamiento de datos

N.º 1. Ataque al chatbot de Twitter

Se produjo un grave incidente cuando un bot de Twitter, creado por la empresa de selección de personal Remoteli.io y basado en GPT-3, fue pirateado utilizando un ataque de inyección de comandos. Este ataque permitió añadir entradas dañinas a la programación del bot, lo que le llevó a revelar sus instrucciones originales y a producir respuestas inapropiadas sobre el "trabajo a distancia".

Como resultado, la startup tuvo dificultades para comunicarse de manera eficaz en las redes sociales y se enfrentó a importantes riesgos para su reputación y a posibles problemas legales.

N.º 2. Incidente de envenenamiento de datos de ImageNet de Google DeepMind (2023)

De manera similar, en 2023, un subconjunto del modelo de IA DeepMind de Google se vio comprometido por el envenenamiento de datos. Entrenado con el popular conjunto de datos ImageNet, el modelo fue infiltrado por actores maliciosos que alteraron sutilmente las imágenes para incluir distorsiones imperceptibles. Debido a esta modificación, la IA clasificaba erróneamente los objetos, especialmente los artículos domésticos comunes o los animales.

Aunque los clientes no se sintieron perjudicados, este ataque reveló los riesgos potenciales del envenenamiento de datos en modelos de IA muy influyentes. En respuesta a este ataque, DeepMind decidió volver a entrenar la parte afectada de su modelo y establecer protocolos de gobernanza de datos más estrictos para evitar incidentes futuros.

Estos acontecimientos ponen de relieve las importantes deficiencias de los sistemas de IA y las graves consecuencias que estos ataques pueden tener para las empresas y la confianza del público. También destacan la necesidad de adoptar medidas preventivas sólidas para protegerse contra ataques similares.

Conclusión

Ahora sabemos que el envenenamiento de datos supone un enorme riesgo para la integridad y el rendimiento de los modelos de aprendizaje automático, ya que las empresas dependen cada vez más de la IA para la toma de decisiones. Los atacantes pueden socavar la fiabilidad de estos sistemas inyectando datos maliciosos o engañosos en los conjuntos de datos de entrenamiento, lo que da lugar a costosos errores y daña la reputación. El auge de la IA generativa y los LLM amplifica aún más la urgencia de que las empresas comprendan este riesgo y apliquen estrategias sólidas de detección y prevención.

Para protegerse contra el envenenamiento de datos, las organizaciones deben adoptar un enfoque multifacético. Esto incluye garantizar la integridad de los datos mediante prácticas de gobernanza estrictas, supervisar continuamente las entradas de datos en busca de anomalías, emplear técnicas sólidas de entrenamiento de modelos y fomentar la concienciación sobre la seguridad entre el personal. Estas medidas ayudarán a crear resiliencia frente a los ataques y a salvaguardar el rendimiento de los sistemas de IA.

Preguntas frecuentes sobre el envenenamiento de datos

El envenenamiento de datos, o envenenamiento de IA, consiste en corromper deliberadamente los datos de entrenamiento de los modelos de aprendizaje automático para manipular su comportamiento, lo que da lugar a resultados sesgados o perjudiciales. Los atacantes inyectan datos maliciosos para influir en las decisiones del modelo durante la fase de entrenamiento, comprometiendo su integridad y fiabilidad. En algunos casos, los adversarios pueden atacar los modelos utilizados en los sistemas de ciberseguridad, lo que da lugar a una detección o priorización incorrecta de las amenazas, exponiendo aún más a la organización a los riesgos.

El envenenamiento de datos degrada el rendimiento de los modelos de aprendizaje automático al introducir imprecisiones y sesgos. Esto puede dar lugar a predicciones incorrectas y clasificaciones erróneas, lo que afecta gravemente a aplicaciones en sectores críticos como la sanidad y las finanzas, donde las decisiones erróneas pueden tener consecuencias nefastas. Además, los datos contaminados pueden hacer que los modelos se desvíen con el tiempo, lo que significa que se vuelven gradualmente menos fiables a medida que aprenden de datos corruptos, lo que en última instancia perjudica su utilidad a largo plazo.

Los ataques de envenenamiento de datos se pueden clasificar en ataques dirigidos, en los que el atacante pretende engañar al modelo con entradas específicas, y ataques no dirigidos, que degradan el rendimiento general del modelo añadiendo ruido o puntos de datos irrelevantes. Además, existen los ataques de etiqueta limpia, en los que los atacantes inyectan datos aparentemente legítimos pero sutilmente alterados que pueden eludir los controles tradicionales de validación de datos, lo que los hace más difíciles de detectar.

Las organizaciones pueden defenderse contra el envenenamiento de datos mediante la implementación de técnicas de validación y saneamiento de datos, así como controles de acceso estrictos. Las auditorías periódicas, la detección de anomalías y la diversidad de fuentes de datos también mejoran la resiliencia frente a este tipo de ataques. Además, el empleo de un control de versiones robusto para los conjuntos de datos y los modelos puede ayudar a rastrear el origen de los cambios en los datos, lo que permite identificar más rápidamente las modificaciones maliciosas.

Estas herramientas incluyen IBM Adversarial Robustness Toolbox, TensorFlow Data Validation (TFDV) y Alibi Detect. Estas herramientas ayudan a analizar, validar y supervisar los datos para identificar anomalías o posibles riesgos de contaminación. Otras soluciones avanzadas, como Counterfit de Microsoft o los filtros de datos GPT-3 de OpenAI, ofrecen capacidades mejoradas tanto para pruebas ofensivas como para estrategias defensivas con el fin de mitigar los intentos de contaminación antes de que afecten al sistema.