Nous avons constaté que les organisations dépendent de plus en plus de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML) pour la prise de décision, la protection des actifs et l'optimisation opérationnelle. Cette dépendance croissante à l'égard de l'IA est mise en évidence par la dernière enquête mondiale de McKinsey sur l'IA, dans laquelle 65 % des personnes interrogées ont déclaré que leur entreprise utilisait souvent l'IA générative, soit près de deux fois plus qu'il y a dix mois. Cependant, cette adoption rapide s'accompagne de nouveaux risques. Les cybercriminels utilisent des attaques par empoisonnement des données pour compromettre l'intégrité de ces modèles d'IA.
Ils attaquent en injectant des données corrompues ou malveillantes dans les ensembles de données d'entraînement, ce qui peut gravement perturber les modèles d'IA, entraînant des prédictions erronées et compromettant la sécurité. Selon une étude de digitalcommons.lasalle.edu, l'empoisonnement de seulement 1 à 3 % des données peut nuire considérablement à la capacité d'une IA à générer des prédictions précises.
Cet article explore ce qu'est l'empoisonnement des données, comment il fonctionne, l'impact qu'il peut avoir et comment les entreprises peuvent détecter, prévenir et atténuer ces attaques.
Qu'est-ce que le Data Poisoning ?
L'empoisonnement des données, également appelé empoisonnement de l'IA, est un type de cyberattaque qui cible les ensembles de données d'entraînement de l'intelligence artificielle (IA) et des modèles d'apprentissage automatique (ML). L'attaquant introduit des informations trompeuses, modifie les données existantes ou supprime des points de données importants. Son objectif est d'induire l'IA en erreur afin qu'elle fasse des prédictions ou prenne des décisions incorrectes.
Cette manipulation peut avoir des conséquences considérables dans divers secteurs, car l'intégrité des solutions basées sur l'IA dépend fortement de la qualité des données sur lesquelles elles sont entraînées.
Pourquoi le " data poisoning " est-il une préoccupation croissante ?
À mesure que les entreprises adoptent l'IA générative et les grands modèles linguistiques (LLM) tels que ChatGPT et Google Bard, les cybercriminels exploitent de plus en plus la nature open source des ensembles de données d'IA. Cet accès leur permet d'introduire des données malveillantes dans les ensembles de données d'entraînement, créant ainsi de nouvelles vulnérabilités.
L'intégration de l'IA dans les entreprises améliore non seulement l'efficacité, mais incite également les cybercriminels à développer des méthodes d'attaque innovantes. Des outils tels que FraudGPT et WormGPT, conçus à des fins malveillantes, ont fait leur apparition sur le dark web. Ces outils permettent aux cybercriminels d'automatiser et de multiplier leurs attaques.
Étonnamment, les attaquants n'ont besoin que de modifier une quantité infime de données pour rendre un algorithme inefficace. Selon une étude, en incluant des mots couramment utilisés dans les e-mails légitimes dans les messages spam, les attaquants peuvent tromper le système et le pousser à les reclasser comme sûrs lors du réentraînement d'un nouvel ensemble de données.
L'empoisonnement des données peut se produire de manière subtile au fil du temps, ce qui le rend difficile à identifier jusqu'à ce que des dommages importants aient déjà été causés. Les pirates peuvent modifier progressivement les ensembles de données ou introduire du bruit, souvent sans que leurs actions soient immédiatement visibles.
Dans le domaine de la santé, l'empoisonnement des données peut fausser les modèles de diagnostic, ce qui peut entraîner des erreurs de diagnostic ou des recommandations de traitement inappropriées. Par exemple, si un pirate injecte des données trompeuses dans un modèle qui prédit l'évolution de l'état de santé d'un patient, cela peut conduire à des décisions potentiellement mortelles basées sur des informations erronées.
De même, dans le secteur financier, les algorithmes qui évaluent le risque de crédit ou détectent la fraude sont vulnérables à l'empoisonnement des données. Les attaquants peuvent manipuler les ensembles de données d'apprentissage pour créer de faux profils qui échappent à la détection ou approuver des transactions frauduleuses, compromettant ainsi l'intégrité des systèmes financiers.
Un autre secteur qui peut facilement être victime de l'empoisonnement des données est celui des véhicules autonomes. Ces derniers dépendent fortement de données précises pour la navigation et la sécurité, et l'empoisonnement des données peut introduire des erreurs dans l'interprétation des données des capteurs, entraînant des comportements de conduite dangereux ou des accidents.
Attaques directes et indirectes par empoisonnement des données
Les attaques par empoisonnement des données peuvent être classées en deux catégories : les attaques directes et les attaques indirectes.
- Attaques directes par empoisonnement des données : Également appelées attaques ciblées, elles consistent à manipuler le modèle d'apprentissage automatique afin qu'il se comporte d'une manière spécifique pour certaines entrées tout en conservant ses performances globales. L'objectif est d'amener le modèle à mal classer ou mal interpréter certaines données sans dégrader ses capacités générales. Par exemple, un système de reconnaissance faciale qui est entraîné à identifier des individus à partir de leurs images. Un attaquant pourrait injecter des images modifiées d'une personne spécifique dans l'ensemble de données d'entraînement, ces images étant subtilement modifiées, par exemple en changeant la couleur des cheveux ou en ajoutant des accessoires. En conséquence, lorsque le modèle rencontre la personne réelle dans un scénario réel, il peut l'identifier à tort comme quelqu'un d'autre en raison de ces modifications ciblées.
- Attaques indirectes par empoisonnement des données : Ces attaques sont dites non ciblées et visent à dégrader les performances globales du modèle d'apprentissage automatique plutôt que de cibler des fonctionnalités spécifiques. Ce type d'attaque peut consister à injecter du bruit aléatoire ou des données non pertinentes dans l'ensemble d'apprentissage, ce qui nuit à la capacité du modèle à généraliser à partir de ses données d'apprentissage. Par exemple, vous pouvez disposer d'un système de détection des spams qui est entraîné sur un ensemble de données d'e-mails étiquetés comme spam ou non spam. Un attaquant pourrait introduire un grand volume d'e-mails non pertinents, tels que du texte aléatoire ou du contenu sans rapport, dans l'ensemble d'apprentissage. Cet afflux de bruit peut perturber le modèle, entraînant un taux plus élevé de faux positifs et de faux négatifs. Au final, cela réduira son efficacité à distinguer les e-mails légitimes des spams.
L'impact de l'empoisonnement des données sur les entreprises
L'empoisonnement des données affecte les technologies de pointe telles que les véhicules autonomes (AV) et les robots chirurgicaux. Par exemple, une étude publiée par la National Library of Medicine a révélé que les erreurs système dans les chirurgies robotiques représentaient 7,4 % des événements indésirables, entraînant des interruptions de procédure et des temps de récupération prolongés. Ces perturbations peuvent entraîner une augmentation des coûts opérationnels en raison de l'allongement des séjours à l'hôpital et de la nécessité de chirurgies supplémentaires. En outre, les entreprises opérant dans des secteurs réglementés sont soumises à des exigences de conformité strictes. Dans le secteur de la santé, par exemple, les organisations doivent se conformer à la loi HIPAA (Health Insurance Portability and Accountability Act) et à d'autres réglementations. Un incident de contamination des données entraînant une violation des données ou des diagnostics médicaux erronés pourrait entraîner des violations importantes de la conformité. Les enjeux sont encore plus importants dans les secteurs qui utilisent des véhicules autonomes (VA). Par exemple, un incident de contamination des données pourrait entraîner une mauvaise interprétation des panneaux de signalisation par les VA, ce qui pourrait provoquer des accidents et entraîner des responsabilités importantes. En 2021, Tesla a fait l'objet d'une enquête après que son logiciel d'IA ait mal classé des obstacles en raison de données erronées, ce qui a coûté des millions en rappels et en amendes réglementaires.
Les dommages causés à la réputation par l'empoisonnement des données peuvent être durables et difficiles à réparer. Pour des entreprises comme Tesla, qui mettent fortement en avant les caractéristiques de sécurité de leur technologie de conduite autonome, les incidents résultant de la manipulation des données peuvent éroder la confiance des consommateurs. Une enquête menée par PwC a révélé que 59 % des consommateurs éviteraient d'utiliser une marque qu'ils jugent peu sûre.
Types d'attaques par empoisonnement des données
Il est important de comprendre les types d'attaques par empoisonnement des données, car cela vous aide à identifier les vulnérabilités des systèmes d'IA. Vous pouvez ainsi mettre en place une défense solide et empêcher la manipulation des modèles d'apprentissage automatique par des acteurs malveillants.
N° 1. Attaques par porte dérobée
Dans une attaque par porte dérobée, les attaquants intègrent des déclencheurs cachés dans les données d'entraînement. Ces déclencheurs sont généralement des modèles ou des caractéristiques que le modèle peut reconnaître grâce à son apprentissage, mais qui sont imperceptibles à l'œil nu. Lorsque le modèle rencontre ce déclencheur intégré, il se comporte d'une manière spécifique et préprogrammée, conformément aux intentions de l'attaquant.
Ces adversaires backdoor permettent aux attaquants de contourner les mesures de sécurité ou de manipuler les résultats sans être détectés, jusqu'à ce qu'il soit trop tard.
#2. Attaques par injection de données
L'injection de données se produit lorsque des échantillons malveillants sont ajoutés à l'ensemble de données d'entraînement, dans le but de manipuler le comportement du modèle lors de son déploiement. Par exemple, un pirate peut injecter des données biaisées dans un modèle bancaire, ce qui conduit à une discrimination à l'égard de certains groupes démographiques lors du traitement des prêts. Pour les organismes bancaires, cela entraîne des problèmes juridiques et une perte de réputation. Le problème avec ces manipulations est que la source à partir de laquelle les données malveillantes ont été injectées est introuvable. Le biais devient progressivement apparent longtemps après le déploiement du modèle.
#3. Attaques par étiquetage erroné
L'attaquant modifie l'ensemble de données en attribuant des étiquettes incorrectes à une partie des données d'entraînement. Par exemple, si un modèle est entraîné à classer des images de chats et de chiens, l'attaquant pourrait étiqueter à tort des images de chiens comme étant des chats.
Le modèle apprend à partir de ces données corrompues et devient moins précis lors de son déploiement, ce qui le rend inutile et peu fiable.
#4. Attaques par manipulation des données
La manipulation des données consiste à modifier les données existantes dans l'ensemble d'apprentissage à l'aide de diverses méthodes. Cela inclut l'ajout de données incorrectes pour fausser les résultats, la suppression de points de données essentiels qui guideraient autrement un apprentissage précis, ou l'injection d'échantillons adversaires conçus pour amener le modèle à mal classer ou à se comporter de manière imprévisible. Ces attaques dégradent considérablement les performances du modèle d'apprentissage automatique si elles ne sont pas identifiées pendant l'entraînement.
Comment fonctionne une attaque par empoisonnement des données ?
Les cyberattaquants peuvent manipuler des ensembles de données en introduisant des points de données malveillants ou trompeurs. Cette manipulation conduit à un apprentissage et à des prédictions inexacts. Par exemple, la modification d'un système de recommandation en ajoutant de fausses évaluations de clients peut fausser la perception qu'ont les utilisateurs de la qualité d'un produit.
Dans certains cas, les attaquants peuvent ne pas introduire de nouvelles données, mais modifier des points de données authentiques afin de créer des erreurs et d'induire le système en erreur. Par exemple, la modification des valeurs dans une base de données de transactions financières peut compromettre les systèmes de détection des fraudes ou entraîner des erreurs de calcul des profits et des pertes.
Une autre tactique consiste à supprimer des points de données critiques, ce qui crée des lacunes dans les données et affaiblit la capacité du modèle à généraliser. Cela peut rendre les systèmes vulnérables, comme un modèle de cybersécurité qui ne parvient pas à détecter certaines attaques réseau en raison de la suppression des données d'attaque pertinentes. Il est essentiel de comprendre comment ces attaques se produisent afin de mettre au point des contre-mesures efficaces. Pour lutter contre l'empoisonnement des données, il est essentiel de mettre en œuvre des stratégies de détection robustes capables d'identifier ces menaces avant qu'elles n'aient un impact sur vos systèmes.
Comment détecter l'empoisonnement des données ?
Vous pouvez suivre la source et l'historique des données afin d'identifier les entrées potentiellement dangereuses. La surveillance des métadonnées, des journaux et des signatures numériques peut faciliter ce processus. L'utilisation de contrôles de validation stricts peut aider à filtrer les anomalies et les données aberrantes utilisées pour l'entraînement. Cela inclut l'utilisation de règles, de schémas et d'analyses exploratoires des données pour évaluer la qualité des données.
Les outils d'automatisation, tels que Alibi Detect et TensorFlow Data Validation (TFDV), rationalisent le processus de détection en analysant les ensembles de données à la recherche d'anomalies, de dérives ou de biais. Ces outils utilisent divers algorithmes pour identifier les menaces potentielles dans les données d'entraînement.
Vous pouvez également utiliser des techniques statistiques pour mettre en évidence les écarts par rapport aux modèles attendus, ce qui peut révéler des tentatives d'empoisonnement potentielles. Les méthodes de regroupement peuvent être particulièrement efficaces pour repérer les valeurs aberrantes. Les modèles ML avancés peuvent apprendre à reconnaître les modèles associés aux données empoisonnées, offrant ainsi un niveau de sécurité supplémentaire.
Étapes pour prévenir l'empoisonnement des données
La prévention de l'empoisonnement des données nécessite une approche multiforme qui intègre les meilleures pratiques en matière de gestion des données, de formation des modèles et de mesures de sécurité. Voici les principales mesures que les organisations peuvent prendre :
1. Garantir l'intégrité des données
Vous devez mettre en place des pratiques de gouvernance des données en implémentant des stratégies de validation rigoureuses, telles que la validation de schéma, la validation croisée et la vérification des sommes de contrôle, afin de vérifier l'exactitude, la cohérence et la qualité des données avant qu'elles ne soient utilisées pour l'entraînement. De plus, l'utilisation de techniques telles que la détection des anomalies peut aider à identifier les points de données suspects. Utilisez des contrôles d'accès stricts et un cryptage pour protéger les données sensibles contre tout accès et toute modification non autorisés.
2. Surveillez les entrées de données
Surveillez la provenance des données et vérifiez s'il existe des modèles ou des tendances inhabituels qui pourraient indiquer une altération. Évaluez régulièrement les performances des modèles d'IA afin d'identifier tout comportement inattendu pouvant suggérer un empoisonnement des données, à l'aide d'outils de détection des dérives des modèles.
3. Mettre en œuvre des techniques de formation de modèles robustes
Utilisez des techniques telles que l'apprentissage par ensemble et l'entraînement antagoniste pour renforcer la robustesse du modèle et améliorer sa capacité à rejeter les échantillons empoisonnés. Vous pouvez utiliser des mécanismes de détection des valeurs aberrantes pour signaler et supprimer les points de données anormaux qui s'écartent considérablement des modèles attendus.
4. Utiliser des contrôles d'accès et le chiffrement
Grâce aux contrôles d'accès basés sur les rôles (RBAC) et l'authentification à deux facteurs, vous pouvez vous assurer que seuls les membres du personnel autorisés ont accès aux ensembles de données d'entraînement et peuvent les modifier. Optez également pour des méthodes de chiffrement robustes telles que Rivest-Shamir-Adleman (RSA) ou Advanced Encryption Standard (AES) afin de sécuriser les données au repos et en transit, et d'éviter toute modification au cours de leur cycle de vie.
5. Valider et tester les modèles
Utilisez des ensembles de données propres et vérifiés pour réentraîner et tester régulièrement vos modèles. Cela permet de prévenir, détecter et atténuer l'impact de l'empoisonnement des données. De plus, en étant proactif, vous pouvez maintenir la précision de votre modèle, l'aider à bien généraliser et rester résistant aux entrées de données malveillantes.
6. Favoriser la sensibilisation à la sécurité
Organisez régulièrement des sessions de formation pour votre équipe de cybersécurité afin de la sensibiliser aux tactiques d'empoisonnement des données et à la manière de reconnaître les menaces potentielles. Élaborez des protocoles clairs pour répondre aux incidents suspects d'empoisonnement des données.
Tout en renforçant la préparation de votre équipe grâce à ces mesures préventives, il est tout aussi important de tirer les leçons des attaques réelles d'empoisonnement des données. Ces incidents peuvent fournir des informations uniques sur les vulnérabilités cachées et leur impact, vous aidant ainsi à affiner vos protocoles de sécurité afin d'éviter des menaces similaires à l'avenir.
Pour prévenir l'empoisonnement des données, les organisations ont besoin d'un système robuste de détection et de prévention des menaces. La sécurité basée sur l'IA de Singularity offre une protection proactive contre la manipulation des données.
Plate-forme Singularity™
Améliorez votre posture de sécurité grâce à la détection en temps réel, à une réponse à la vitesse de la machine et à une visibilité totale de l'ensemble de votre environnement numérique.
Obtenir une démonstrationPrincipales bonnes pratiques en matière de contamination des données
Il s'agit de lignes directrices ou de principes qui aident les organisations à comprendre comment gérer et atténuer les risques associés à la contamination des données
N° 1. Validation et nettoyage des données
Mettez en place des protocoles de validation stricts afin de garantir que seules des données pertinentes et de haute qualité sont incluses dans l'ensemble d'apprentissage. Cela peut impliquer de vérifier les anomalies, les doublons et les incohérences. Effectuez des audits réguliers de vos ensembles de données afin d'identifier et de supprimer tout point de données suspect ou de mauvaise qualité. L'utilisation d'outils automatisés peut aider à rationaliser ce processus.
#2. Mécanismes de détection des anomalies
Utilisez des algorithmes d'apprentissage automatique conçus pour détecter les valeurs aberrantes et les anomalies dans vos ensembles de données. Cela peut aider à identifier les tentatives potentielles d'empoisonnement des données en signalant les modèles inhabituels qui s'écartent du comportement attendu. Mettez en place des systèmes de surveillance continue qui analysent les données entrantes en temps réel. Cela permet de détecter et de traiter immédiatement toute entrée malveillante.
#3. Robustesse et test des modèles
Utilisez des méthodes d'entraînement des modèles résistantes au bruit et aux attaques adversaires. Des techniques telles que l'entraînement adversaire peuvent aider les modèles à apprendre à résister à d'éventuelles attaques par empoisonnement des données. Testez régulièrement vos modèles à l'aide de divers ensembles de données, y compris ceux qui simulent des attaques potentielles par empoisonnement. Cela vous aidera à comprendre les performances de vos modèles dans différentes conditions et à identifier leurs vulnérabilités.
#4. Contrôle d'accès et gouvernance des données
Limitez l'accès aux données d'entraînement et aux paramètres des modèles au personnel de confiance. Cela réduit le risque d'attaques internes et garantit que seules des entrées validées sont utilisées dans l'entraînement des modèles. Créez des politiques claires concernant l'approvisionnement, le traitement et le stockage des données. Sensibilisez les membres de l'équipe à l'importance de l'intégrité des données et aux risques liés à l'empoisonnement des données afin de favoriser une culture de la sécurité.
Exemples concrets d'empoisonnement des données
#1. Attaque contre un chatbot Twitter
Un incident grave s'est produit lorsqu'un bot Twitter, créé par la société de recrutement Remoteli.io et alimenté par GPT-3, a été piraté à l'aide d'une prompt injection attack. Cette attaque a permis d'ajouter des entrées malveillantes à la programmation du bot, l'amenant à révéler ses instructions d'origine et à produire des réponses inappropriées sur le " travail à distance ".
En conséquence, la start-up a eu du mal à communiquer efficacement sur les réseaux sociaux et a été confrontée à des risques majeurs pour sa réputation et à d'éventuels problèmes juridiques.
#2. Incident d'empoisonnement des données ImageNet de Google DeepMind (2023)
De même, en 2023, un sous-ensemble du modèle d'IA DeepMind de Google a été compromis par un empoisonnement des données. Entraîné sur le célèbre ensemble de données ImageNet, le modèle a été infiltré par des acteurs malveillants qui ont subtilement modifié les images pour y inclure une distorsion imperceptible. En raison de cette modification, l'IA classait de manière erronée les objets, en particulier les articles ménagers courants ou les animaux.
Bien que les clients n'aient pas été lésés, cette attaque a révélé les risques potentiels de l'empoisonnement des données dans les modèles d'IA très influents. En réponse à cette attaque, DeepMind a décidé de réentraîner la partie affectée de son modèle et de mettre en place des protocoles de gouvernance des données plus stricts afin de prévenir de futurs incidents.
Ces événements soulignent les faiblesses importantes des systèmes d'IA et les graves conséquences que de telles attaques peuvent avoir sur les entreprises et la confiance du public. Ils soulignent également la nécessité de mettre en place des mesures préventives robustes pour se prémunir contre des attaques similaires.
Conclusion
Nous savons désormais que l'empoisonnement des données représente un risque énorme pour l'intégrité et les performances des modèles d'apprentissage automatique, alors que les entreprises s'appuient de plus en plus sur l'IA pour prendre leurs décisions. Les attaquants peuvent compromettre la fiabilité de ces systèmes en injectant des données malveillantes ou trompeuses dans les ensembles de données d'entraînement, ce qui entraîne des erreurs coûteuses et nuit à la réputation. L'essor de l'IA générative et des LLM renforce encore l'urgence pour les entreprises de comprendre ce risque et de mettre en œuvre des stratégies robustes de détection et de prévention.
Pour se protéger contre l'empoisonnement des données, les organisations doivent adopter une approche multiforme. Cela implique de garantir l'intégrité des données grâce à des pratiques de gouvernance strictes, de surveiller en permanence les entrées de données à la recherche d'anomalies, d'utiliser des techniques de formation de modèles robustes et de sensibiliser le personnel à la sécurité. Ces mesures contribueront à renforcer la résilience face aux attaques et à préserver les performances des systèmes d'IA.
"FAQ sur l'empoisonnement des données
L'empoisonnement des données, ou empoisonnement de l'IA, consiste à corrompre délibérément les données d'entraînement des modèles d'apprentissage automatique afin de manipuler leur comportement, ce qui entraîne des résultats biaisés ou nuisibles. Les attaquants injectent des données malveillantes pour influencer les décisions du modèle pendant la phase d'entraînement, compromettant ainsi son intégrité et sa fiabilité. Dans certains cas, les adversaires peuvent cibler les modèles utilisés dans les systèmes de cybersécurité, ce qui entraîne une détection ou une hiérarchisation incorrecte des menaces, exposant davantage l'organisation à des risques.
L'empoisonnement des données dégrade les performances des modèles d'apprentissage automatique en introduisant des inexactitudes et des biais. Cela peut entraîner des prédictions et des classifications erronées, ce qui a un impact considérable sur les applications dans des secteurs critiques tels que la santé et la finance, où des décisions erronées peuvent avoir des conséquences désastreuses. De plus, les données empoisonnées peuvent entraîner une dérive des modèles au fil du temps, ce qui signifie qu'ils deviennent progressivement moins fiables à mesure qu'ils apprennent à partir de données corrompues, ce qui finit par nuire à leur utilité à long terme.
Les attaques par empoisonnement des données peuvent être classées en deux catégories : les attaques ciblées, où l'attaquant vise à induire le modèle en erreur pour des entrées spécifiques, et les attaques non ciblées, qui dégradent les performances globales du modèle en ajoutant du bruit ou des points de données non pertinents. Il existe également des attaques dites " clean-label ", dans lesquelles les attaquants injectent des données apparemment légitimes mais subtilement modifiées qui peuvent contourner les contrôles de validation traditionnels, ce qui les rend plus difficiles à détecter.
Les organisations peuvent se défendre contre l'empoisonnement des données en mettant en œuvre des techniques de validation et de nettoyage des données, ainsi que des contrôles d'accès stricts. Des audits réguliers, la détection des anomalies et la diversification des sources de données renforcent également la résilience face à de telles attaques. De plus, l'utilisation d'un contrôle de version robuste pour les ensembles de données et les modèles peut aider à retracer l'origine des modifications apportées aux données, ce qui permet d'identifier plus rapidement les modifications malveillantes.
Ces outils comprennent IBM Adversarial Robustness Toolbox, TensorFlow Data Validation (TFDV) et Alibi Detect. Ils permettent d'analyser, de valider et de surveiller les données afin d'identifier les anomalies ou les risques potentiels d'empoisonnement. D'autres solutions avancées telles que Counterfit de Microsoft ou les filtres de données GPT-3 d'OpenAI offrent des capacités améliorées pour les tests offensifs et les stratégies défensives afin d'atténuer les tentatives d'empoisonnement avant qu'elles n'aient un impact sur le système.

