Che cos'è il data poisoning? Tipi e best practice

Abbiamo osservato che le organizzazioni dipendono sempre più dall'intelligenza artificiale (AI) e dall'apprendimento automatico (ML) per il processo decisionale, la protezione delle risorse e l'ottimizzazione operativa. Questa crescente dipendenza dall'AI è evidenziata dall'ultima indagine globale di McKinsey sull'AI, in cui il 65% degli intervistati ha dichiarato che le proprie aziende utilizzano spesso l'AI generativa, quasi il doppio rispetto all'indagine di dieci mesi fa. Tuttavia, questa rapida adozione comporta nuovi rischi. I criminali informatici stanno utilizzando attacchi di avvelenamento dei dati per compromettere l'integrità di questi modelli di IA.

Attaccano iniettando dati corrotti o dannosi nei set di dati di addestramento, il che può compromettere gravemente i modelli di IA, con conseguenti previsioni errate e sicurezza compromessa. Secondo una ricerca condotta da digitalcommons.lasalle.edu, l'avvelenamento di solo l'1-3% dei dati può compromettere in modo significativo la capacità di un'IA di generare previsioni accurate.

Questo articolo esplorerà cosa sia l'avvelenamento dei dati, come funzioni, l'impatto che può avere e come le aziende possano rilevare, prevenire e mitigare questi attacchi.

Che cos'è il data poisoning?

Il data poisoning, noto anche come AI poisoning, è un tipo di attacco informatico che prende di mira i set di dati di addestramento dell'intelligenza artificiale (AI) e apprendimento automatico (ML). L'autore dell'attacco introduce informazioni fuorvianti, modifica i dati esistenti o elimina punti dati importanti. L'obiettivo dell'autore dell'attacco è quello di indurre l'IA a formulare previsioni o decisioni errate.

Questa manipolazione può avere conseguenze di vasta portata in vari settori, poiché l'integrità delle soluzioni basate sull'IA dipende in larga misura dalla qualità dei dati su cui sono addestrate.

Perché il data poisoning è una preoccupazione crescente?

Man mano che le aziende adottano l'IA generativa e i modelli linguistici di grandi dimensioni (LLM) come ChatGPT e Google Bard, i criminali informatici sfruttano sempre più la natura open source dei set di dati dell'IA. Questo accesso consente loro di introdurre dati dannosi nei set di dati di addestramento, creando nuove vulnerabilità.

L'integrazione dell'IA nelle aziende non solo migliora l'efficienza, ma motiva anche i criminali informatici a sviluppare metodi di attacco innovativi. Sul dark web sono comparsi strumenti come FraudGPT e WormGPT, progettati per un uso dannoso. Questi strumenti consentono ai criminali informatici di automatizzare e scalare i loro attacchi. Sorprendentemente, gli aggressori devono alterare una quantità minuscola di dati per rendere inefficace un algoritmo. Secondo uno studio, includendo parole comunemente presenti nelle e-mail legittime nei messaggi di spam, gli aggressori possono ingannare il sistema e indurlo a riclassificarli come sicuri durante il riaddestramento di un nuovo set di dati.

Il data poisoning può verificarsi in modo sottile nel tempo, rendendo difficile identificarlo fino a quando non sono già stati inflitti danni significativi. Gli aggressori possono alterare gradualmente i set di dati o introdurre rumore, spesso operando senza che le loro azioni siano immediatamente visibili.

Nel settore sanitario, il data poisoning può distorcere i modelli diagnostici, portando potenzialmente a diagnosi errate o raccomandazioni terapeutiche inappropriate. Ad esempio, se un aggressore inserisce dati fuorvianti in un modello che prevede gli esiti dei pazienti, ciò potrebbe portare a decisioni potenzialmente letali basate su informazioni errate.

Allo stesso modo, nel settore finanziario, gli algoritmi che valutano il rischio di credito o rilevano le frodi sono vulnerabili al data poisoning. Gli aggressori possono manipolare i set di dati di addestramento per creare profili falsi che eludono il rilevamento o approvano transazioni fraudolente, minando l'integrità dei sistemi finanziari.

Un altro settore che può facilmente cadere vittima del data poisoning è quello dei veicoli autonomi. Questi veicoli dipendono fortemente da dati accurati per la navigazione e la sicurezza, e il data poisoning può introdurre errori nell'interpretazione dei dati dei sensori, portando a comportamenti di guida pericolosi o incidenti.

Attacchi di avvelenamento dei dati diretti vs indiretti

Gli attacchi di avvelenamento dei dati possono essere classificati in due categorie: attacchi diretti e indiretti.

Attacchi diretti di avvelenamento dei dati: Questi attacchi, noti anche come attacchi mirati, comportano la manipolazione del modello ML affinché si comporti in un modo specifico per particolari input, mantenendo al contempo le prestazioni complessive del modello. L'obiettivo è quello di indurre il modello a classificare o interpretare erroneamente determinati dati senza comprometterne le capacità generali. Ad esempio, un sistema di riconoscimento facciale addestrato a identificare le persone sulla base delle loro immagini. Un aggressore potrebbe inserire immagini alterate di una persona specifica nel set di dati di addestramento, dove queste immagini sono leggermente modificate, ad esempio cambiando il colore dei capelli o aggiungendo accessori. Di conseguenza, quando il modello incontra la persona reale in uno scenario reale, potrebbe identificarla erroneamente come qualcun altro a causa di queste modifiche mirate.
Attacchi indiretti di avvelenamento dei dati: Questi attacchi sono noti come non mirati e mirano a degradare le prestazioni complessive del modello ML piuttosto che a colpire funzionalità specifiche. Questo tipo di attacco può comportare l'inserimento di rumore casuale o dati irrilevanti nel set di addestramento, il che compromette la capacità del modello di generalizzare dai suoi dati di addestramento. Ad esempio, è possibile avere un sistema di rilevamento dello spam addestrato su un set di dati di e-mail etichettate come spam o non spam. Un aggressore potrebbe introdurre un grande volume di e-mail irrilevanti, come testo casuale o contenuti non correlati, nel set di addestramento. Questo afflusso di rumore può confondere il modello, portando a un tasso più elevato di falsi positivi e negativi. Alla fine, ciò ridurrà la sua efficacia nel distinguere tra e-mail legittime e spam.

L'impatto del data poisoning sulle aziende

Il data poisoning influisce su tecnologie avanzate come i veicoli autonomi (AV) e i robot chirurgici. Ad esempio, uno studio pubblicato dalla National Library of Medicine ha rivelato che gli errori di sistema nelle chirurgie robotiche rappresentavano il 7,4% degli eventi avversi, causando interruzioni delle procedure e tempi di recupero prolungati. Queste interruzioni possono portare ad un aumento dei costi operativi a causa di degenze ospedaliere prolungate e della necessità di ulteriori interventi chirurgici. Inoltre, le aziende che operano in settori regolamentati devono soddisfare severi requisiti di conformità. Ad esempio, nel settore sanitario, le organizzazioni devono rispettare l'Health Insurance Portability and Accountability Act (HIPAA) e altre normative. Un incidente di avvelenamento dei dati che porta a una violazione dei dati o a diagnosi mediche errate potrebbe comportare significative violazioni della conformità. La posta in gioco diventa ancora più alta nei settori che utilizzano veicoli autonomi (AV). Ad esempio, un incidente di avvelenamento dei dati potrebbe portare gli AV a interpretare erroneamente i segnali stradali, causando incidenti e responsabilità significative. Nel 2021, Tesla è stata sottoposta a un'indagine dopo che il suo software di intelligenza artificiale ha classificato erroneamente gli ostacoli a causa di dati difettosi, con un costo di milioni di dollari in richiami e multe normative.

Il danno alla reputazione causato dal data poisoning può essere duraturo e difficile da recuperare. Per aziende come Tesla, che promuovono fortemente le caratteristiche di sicurezza della loro tecnologia AV, gli incidenti derivanti dalla manipolazione dei dati possono minare la fiducia dei consumatori. Un sondaggio condotto da PwC ha rilevato che il 59% dei consumatori eviterebbe di utilizzare un marchio che percepisce come poco sicuro.

Tipi di attacchi di avvelenamento dei dati

Comprendere i tipi di attacchi di avvelenamento dei dati è importante perché aiuta a identificare le vulnerabilità nei sistemi di IA. È possibile implementare una difesa efficace e impedire la manipolazione dei modelli di machine learning da parte di malintenzionati.

#1. Attacchi backdoor

In un attacco backdoor, gli aggressori incorporano trigger nascosti nei dati di addestramento. Questi trigger sono solitamente alcuni modelli o caratteristiche che il modello è in grado di riconoscere in base al suo addestramento, impercettibili all'occhio umano. Quando il modello incontra questo trigger incorporato, si comporta in un modo specifico e pre-programmato, proprio come desiderato dall'aggressore.

Questi avversari backdoor consentono agli aggressori di aggirare le misure di sicurezza o manipolare i risultati senza essere rilevati fino a quando non è troppo tardi.

#2. Attacchi di iniezione di dati

L'iniezione di dati si verifica quando campioni dannosi vengono aggiunti al set di dati di addestramento, con l'obiettivo di manipolare il comportamento del modello durante l'implementazione. Ad esempio, un aggressore potrebbe iniettare dati distorti in un modello bancario, portandolo a discriminare determinati gruppi demografici durante l'elaborazione dei prestiti. Per le organizzazioni bancarie, ciò comporta problemi legali e perdita di reputazione. Il problema di queste manipolazioni è che la fonte da cui sono stati iniettati i dati dannosi è irrintracciabile. La distorsione diventa gradualmente evidente molto tempo dopo che il modello è già stato implementato.

#3. Attacchi di etichettatura errata

L'autore dell'attacco modifica il set di dati assegnando etichette errate a una parte dei dati di addestramento. Ad esempio, se un modello viene addestrato per classificare immagini di cani e gatti, l'autore dell'attacco potrebbe etichettare erroneamente le immagini dei cani come gatti.

Il modello apprende da questi dati corrotti e diventa meno accurato durante l'implementazione, rendendolo inutile e inaffidabile.

#4. Attacchi di manipolazione dei dati

La manipolazione dei dati comporta l'alterazione dei dati esistenti all'interno del set di addestramento attraverso vari metodi. Ciò include l'aggiunta di dati errati per distorcere i risultati, la rimozione di punti dati essenziali che altrimenti guiderebbero un apprendimento accurato o l'iniezione di campioni avversari progettati per indurre il modello a classificare erroneamente o a comportarsi in modo imprevedibile. Questi attacchi degradano gravemente le prestazioni del modello ML se non vengono identificati durante l'addestramento.

Come funziona un attacco di avvelenamento dei dati?

I cybercriminali possono manipolare i set di dati introducendo punti dati dannosi o ingannevoli. Questa manipolazione porta ad addestramenti e previsioni inaccurati. Ad esempio, alterare un sistema di raccomandazione aggiungendo false valutazioni dei clienti può distorcere la percezione che gli utenti hanno della qualità di un prodotto.

In alcuni casi, gli aggressori potrebbero non introdurre nuovi dati, ma modificare invece dati autentici per creare errori e fuorviare il sistema. Ad esempio, l'alterazione dei valori in un database di transazioni finanziarie può compromettere i sistemi di rilevamento delle frodi o causare errori di calcolo dei profitti e delle perdite.

Un'altra tattica consiste nel rimuovere dati critici, creando lacune nei dati e indebolendo la capacità di generalizzazione del modello. Ciò può rendere i sistemi vulnerabili, come ad esempio un modello di sicurezza informatica che non riesce a rilevare determinati attacchi alla rete a causa della cancellazione di dati rilevanti relativi agli attacchi. Comprendere come si verificano questi attacchi è fondamentale per sviluppare contromisure efficaci. Per combattere il data poisoning, è essenziale implementare solide strategie di rilevamento in grado di identificare queste minacce prima che abbiano un impatto sui sistemi.

Come rilevare il data poisoning?

È possibile tracciare la fonte e la cronologia dei dati per aiutare a identificare gli input potenzialmente dannosi. Il monitoraggio dei metadati, dei log e delle firme digitali può essere d'aiuto in questo processo. L'utilizzo di rigorosi controlli di convalida può aiutare a filtrare le anomalie e i dati anomali utilizzati per l'addestramento. Ciò include l'utilizzo di regole, schemi e analisi esplorativa dei dati per valutare la qualità dei dati.Gli strumenti di automazione, come Alibi Detect e TensorFlow Data Validation (TFDV), semplificano il processo di rilevamento analizzando i set di dati alla ricerca di anomalie, derive o distorsioni. Questi strumenti utilizzano vari algoritmi per identificare potenziali minacce nei dati di addestramento.

Inoltre, è possibile utilizzare tecniche statistiche per evidenziare deviazioni dai modelli previsti che possono mettere in luce potenziali tentativi di avvelenamento. I metodi di clustering possono essere particolarmente efficaci nell'individuare i valori anomali. I modelli ML avanzati possono imparare a riconoscere i modelli associati ai dati avvelenati, fornendo un ulteriore livello di sicurezza.

Misure per prevenire l'avvelenamento dei dati

La prevenzione dell'avvelenamento dei dati richiede un approccio multiforme che incorpori le migliori pratiche in materia di gestione dei dati, addestramento dei modelli e misure di sicurezza. Ecco i passaggi chiave che le organizzazioni possono intraprendere:

1. Garantire l'integrità dei dati

È necessario creare pratiche di governance dei dati implementando strategie di convalida approfondite, come la convalida dello schema, la convalida incrociata e la verifica del checksum per controllare l'accuratezza, la coerenza e la qualità prima che i dati vengano utilizzati per l'addestramento. Inoltre, l'uso di tecniche come il rilevamento delle anomalie può aiutare a identificare i punti dati sospetti. Utilizzare rigorosi controlli di accesso e crittografia per proteggere i dati sensibili da accessi e modifiche non autorizzati.

2. Monitorare gli input di dati

Monitorare la provenienza dei dati e verificare la presenza di modelli o tendenze insoliti che potrebbero indicare una manomissione. Valutare regolarmente le prestazioni dei modelli di IA per identificare eventuali comportamenti imprevisti che potrebbero suggerire un avvelenamento dei dati, utilizzando strumenti per il rilevamento della deriva dei modelli.

3. Implementare tecniche di addestramento dei modelli robuste

Utilizzare tecniche come l'apprendimento ensemble e l'addestramento avversario per migliorare la robustezza del modello e la sua capacità di rifiutare i campioni contaminati. È possibile utilizzare meccanismi di rilevamento dei valori anomali per segnalare e rimuovere i punti dati anomali che si discostano in modo significativo dai modelli previsti.

4. Utilizzare controlli di accesso e crittografia

Con i controlli di accesso basati sui ruoli (RBAC) e l'autenticazione a due fattori, è possibile garantire che i set di dati di addestramento siano accessibili e modificabili solo da personale autorizzato. Inoltre, optare per metodi di crittografia avanzati come Rivest-Shamir-Adleman (RSA) o Advanced Encryption Standard (AES) per proteggere i dati inattivi e in transito ed evitare qualsiasi modifica durante il loro ciclo di vita.

5. Convalidare e testare i modelli

Utilizzate set di dati puliti e verificati per riqualificare e testare regolarmente i vostri modelli. Ciò può prevenire, rilevare e mitigare l'impatto del data poisoning. Inoltre, essendo proattivi, potete mantenere l'accuratezza del vostro modello, aiutarlo a generalizzare bene e rimanere resistente agli input di dati dannosi.

6. Promuovere la consapevolezza della sicurezza

Organizza sessioni di formazione regolari per il tuo team di sicurezza informatica per aumentare la consapevolezza sulle tattiche di avvelenamento dei dati e su come riconoscere potenziali minacce. Sviluppa protocolli chiari per rispondere a sospetti incidenti di avvelenamento dei dati.

Mentre rafforzate la preparazione del vostro team con queste misure preventive, è altrettanto importante imparare dagli attacchi di avvelenamento dei dati reali. Questi incidenti possono fornire informazioni uniche sulle vulnerabilità nascoste e sul loro impatto, aiutandovi a perfezionare i vostri protocolli di sicurezza per evitare minacce simili in futuro.

Per prevenire l'avvelenamento dei dati, le organizzazioni hanno bisogno di un sistema robusto di rilevamento e prevenzione delle minacce. La sicurezza basata sull'intelligenza artificiale di Singularity offre una protezione proattiva contro la manipolazione dei dati.

Piattaforma Singularity

Elevate la vostra posizione di sicurezza con il rilevamento in tempo reale, la risposta automatica e la visibilità totale dell'intero ambiente digitale.

Richiedi una demo

Migliori pratiche chiave per il data poisoning

Si tratta di linee guida o principi che aiutano le organizzazioni a comprendere come gestire e mitigare i rischi associati al data poisoning

#1. Convalida e pulizia dei dati

Stabilire protocolli di convalida rigorosi per garantire che solo dati pertinenti e di alta qualità siano inclusi nel set di addestramento. Ciò può comportare il controllo di anomalie, duplicati e incongruenze. Condurre audit regolari dei set di dati per identificare e rimuovere eventuali punti dati sospetti o di bassa qualità. L'utilizzo di strumenti automatizzati può aiutare a semplificare questo processo.

#2. Meccanismi di rilevamento delle anomalie

Utilizzare algoritmi di apprendimento automatico progettati per rilevare valori anomali e anomalie nei set di dati. Ciò può aiutare a identificare potenziali tentativi di avvelenamento dei dati segnalando modelli insoliti che si discostano dal comportamento previsto. Implementate sistemi di monitoraggio continuo che analizzano i dati in arrivo in tempo reale. Ciò garantisce che qualsiasi input dannoso possa essere rilevato e affrontato immediatamente.

#3. Robustezza e test dei modelli

Utilizzate metodi di addestramento dei modelli resistenti al rumore e agli attacchi avversari. Tecniche come l'addestramento avversario possono aiutare i modelli a imparare a resistere a potenziali attacchi di avvelenamento dei dati. Testare regolarmente i modelli su una varietà di set di dati, compresi quelli che simulano potenziali attacchi di avvelenamento. Ciò consentirà di comprendere le prestazioni dei modelli in condizioni diverse e di identificare le vulnerabilità.

#4. Controllo degli accessi e governance dei dati

Limitare l'accesso ai dati di addestramento e ai parametri dei modelli al personale di fiducia. Ciò riduce il rischio di attacchi interni e garantisce che solo gli input convalidati vengano utilizzati nell'addestramento dei modelli. Create politiche chiare in materia di approvvigionamento, gestione e archiviazione dei dati. Educate i membri del team sull'importanza dell'integrità dei dati e sui rischi del data poisoning per promuovere una cultura della sicurezza.

Esempi reali di avvelenamento dei dati

#1. Attacco al chatbot di Twitter

Si è verificato un grave incidente quando un bot di Twitter, creato dalla società di reclutamento Remoteli.io e alimentato da GPT-3, è stato hackerato utilizzando un attacco di tipo prompt injection. Questo attacco ha permesso l'aggiunta di input dannosi alla programmazione del bot, portandolo a rivelare le sue istruzioni originali e a produrre risposte inappropriate sul "lavoro a distanza".

Di conseguenza, la startup ha avuto difficoltà a comunicare in modo efficace sui social media e ha dovuto affrontare gravi rischi per la sua reputazione e potenziali problemi legali.

#2. L'incidente di avvelenamento dei dati ImageNet di Google DeepMind (2023)

Allo stesso modo, nel 2023, un sottoinsieme del modello di IA DeepMind di Google è stato compromesso dal data poisoning. Addestrato sul popolare set di dati ImageNet, il modello è stato infiltrato da malintenzionati che hanno alterato sottilmente le immagini per includere distorsioni impercettibili. A causa di questa modifica, l'IA classificava erroneamente gli oggetti, in particolare gli articoli domestici comuni o gli animali.

Sebbene i clienti non si siano sentiti danneggiati, questo attacco ha rivelato i potenziali rischi del data poisoning nei modelli di IA altamente influenti. In risposta a questo attacco, DeepMind ha deciso di riqualificare la parte interessata del suo modello e di istituire protocolli di governance dei dati più severi per prevenire incidenti futuri.

Questi eventi sottolineano le significative debolezze dei sistemi di IA e le gravi conseguenze che tali attacchi possono avere sulle imprese e sulla fiducia del pubblico. Evidenziano inoltre la necessità di misure preventive robuste per proteggersi da attacchi simili.

Conclusione

Ora sappiamo che il data poisoning rappresenta un rischio enorme per l'integrità e le prestazioni dei modelli di machine learning, poiché le aziende si affidano sempre più all'IA per il processo decisionale. Gli aggressori possono minare l'affidabilità di questi sistemi iniettando dati dannosi o fuorvianti nei set di dati di addestramento, causando errori costosi e danneggiando la reputazione. L'ascesa dell'IA generativa e degli LLM amplifica ulteriormente l'urgenza per le aziende di comprendere questo rischio e implementare strategie solide per il rilevamento e la prevenzione.

Per proteggersi dal data poisoning, le organizzazioni devono adottare un approccio multiforme. Ciò include garantire l'integrità dei dati attraverso pratiche di governance rigorose, monitorare continuamente gli input di dati per individuare anomalie, impiegare tecniche di addestramento dei modelli robuste e promuovere la consapevolezza della sicurezza tra il personale. Questi passaggi contribuiranno a rafforzare la resilienza contro gli attacchi e a salvaguardare le prestazioni dei sistemi di IA.

Domande frequenti sull'avvelenamento dei dati

Il data poisoning, o AI poisoning, consiste nel corrompere deliberatamente i dati di addestramento dei modelli di machine learning per manipolarne il comportamento, ottenendo risultati distorti o dannosi. Gli aggressori inseriscono dati dannosi per influenzare le decisioni del modello durante la fase di addestramento, compromettendone l'integrità e l'affidabilità. In alcuni casi, gli avversari possono prendere di mira i modelli utilizzati nei sistemi di sicurezza informatica, portando a un rilevamento o a una prioritizzazione errati delle minacce, esponendo ulteriormente un'organizzazione ai rischi.

Il data poisoning degrada le prestazioni dei modelli di machine learning introducendo imprecisioni e distorsioni. Ciò può portare a previsioni errate e classificazioni errate, con gravi ripercussioni sulle applicazioni in settori critici come la sanità e la finanza, dove decisioni errate possono avere conseguenze disastrose. Inoltre, i dati contaminati possono causare una deriva dei modelli nel tempo, il che significa che diventano gradualmente meno affidabili man mano che apprendono da dati corrotti, compromettendo in ultima analisi la loro utilizzabilità a lungo termine.

Gli attacchi di avvelenamento dei dati possono essere classificati in attacchi mirati, in cui l'autore dell'attacco mira a fuorviare il modello per input specifici, e attacchi non mirati, che degradano le prestazioni complessive del modello aggiungendo rumore o punti dati irrilevanti. Inoltre, esistono attacchi clean-label, in cui gli aggressori inseriscono dati apparentemente legittimi ma leggermente alterati in grado di aggirare i tradizionali controlli di convalida dei dati, rendendoli più difficili da individuare.

Le organizzazioni possono difendersi dal data poisoning implementando tecniche di convalida e sanificazione dei dati e controlli di accesso rigorosi. Anche audit regolari, il rilevamento delle anomalie e fonti di dati diversificate migliorano la resilienza contro tali attacchi. Inoltre, l'utilizzo di un solido controllo delle versioni per i set di dati e i modelli può aiutare a tracciare l'origine delle modifiche ai dati, consentendo un'identificazione più rapida delle modifiche dannose.

Questi strumenti includono IBM Adversarial Robustness Toolbox, TensorFlow Data Validation (TFDV) e Alibi Detect. Questi strumenti aiutano ad analizzare, convalidare e monitorare i dati per identificare anomalie o potenziali rischi di avvelenamento. Altre soluzioni avanzate come Counterfit di Microsoft o i filtri dati GPT-3 di OpenAI offrono funzionalità avanzate sia per i test offensivi che per le strategie difensive, al fine di mitigare i tentativi di avvelenamento prima che abbiano un impatto sul sistema.