Che cos’è un attacco di Prompt Injection? E come fermarlo negli LLM

Che cos'è la Prompt Injection?

La prompt injection è un attacco informatico in cui attori malintenzionati manipolano i modelli linguistici di intelligenza artificiale iniettando istruzioni dannose nei prompt degli utenti o negli input di sistema. L'obiettivo è far sì che l'IA si comporti in modo imprevisto o riveli informazioni sensibili.

Questi attacchi sfruttano il modo in cui i LLM elaborano e combinano le istruzioni con l'input dell'utente. Gli aggressori creano testi dannosi che inducono l'IA a seguire comandi non autorizzati invece della sua programmazione originale.

L'attacco ha successo perché il modello non è in grado di distinguere in modo affidabile tra istruzioni legittime e manipolazioni malevole.

Esistono tre principali tipologie di attacchi di prompt injection:

Prompt injection diretta si verifica quando gli aggressori inseriscono testo dannoso direttamente nell'interfaccia di chat. Esempi includono istruzioni di prefisso come "Ignora tutte le istruzioni precedenti", l'adozione di personaggi persuasivi come "Agisci come un penetration tester" e linguaggio che sopprime i rifiuti di sicurezza.
Prompt injection indiretta si verifica quando gli aggressori prendono di mira contenuti esterni consumati dai LLM, come pipeline RAG, caricamenti di file o pagine web, che possono nascondere istruzioni invisibili elaborate successivamente. I ricercatori di sicurezza di Prompt Security hanno dimostrato questo ingannando Bing Chat a rivelare regole riservate tramite testo appositamente creato in un documento.
Injection persistente (stored) si verifica quando gli aggressori inseriscono prompt dannosi in database, knowledge base o cronologia chat che rimangono dormienti fino a quando il modello li rielabora. In contesti aziendali, un solo record compromesso può influenzare silenziosamente tutte le conversazioni future.

I modelli multimodali moderni affrontano rischi aggiuntivi. Gli aggressori possono nascondere testo dannoso in immagini o PDF che trasportano la stessa intenzione malevola, eludendo i filtri tradizionali basati su parole chiave. Per le organizzazioni che implementano LLM su larga scala, la prompt injection rappresenta un cambiamento fondamentale rispetto agli attacchi tradizionali focalizzati sull'infrastruttura, verso minacce che sfruttano la funzionalità centrale dell'IA.

Prompt Injection Attack - Featured Image | SentinelOne

Impatto e rischi della Prompt Injection sui sistemi di IA

Un singolo prompt compromesso può compromettere l'intera implementazione di IA. Le organizzazioni affrontano conseguenze aziendali misurabili quando gli aggressori manipolano il comportamento dei LLM tramite istruzioni iniettate.

I rischi si suddividono in tre categorie:

Esfiltrazione di dati tramite output manipolati: Gli aggressori istruiscono i modelli a bypassare i controlli di accesso e a divulgare prompt di sistema riservati, documentazione interna, dati dei clienti o logiche aziendali proprietarie presenti nei dati di addestramento.
Interruzione operativa da assistenti IA compromessi: Chatbot manipolati approvano transazioni fraudolente, bot di help desk concedono accessi non autorizzati o agenti autonomi eseguono comandi distruttivi che eliminano file o corrompono database.
Rischi nella supply chain da dati di addestramento compromessi: Dataset pubblici e contenuti web estratti possono nascondere istruzioni dormienti che si attivano quando i modelli li acquisiscono tramite pipeline RAG, influenzando ogni applicazione a valle che si basa su quei dati.

Questi rischi rendono la prompt injection una preoccupazione critica per qualsiasi organizzazione che implementa tecnologia LLM. I team di sicurezza che comprendono il funzionamento di questi attacchi possono costruire difese stratificate prima che si verifichino incidenti.

L'importanza di comprendere gli attacchi di Prompt Injection

Gli attacchi di prompt injection creano rischi aziendali che i tradizionali framework di cybersecurity non affrontano. A differenza degli attacchi convenzionali che prendono di mira l'infrastruttura, la prompt injection sfrutta la funzionalità centrale dei sistemi di IA, rendendo ogni implementazione LLM un potenziale punto di ingresso per attori malevoli.

Ad esempio, un ricercatore di Stanford è riuscito a indurre Bing Chat a rivelare il suo prompt di sistema riservato tramite una singola query appositamente creata che ha aggirato le protezioni dell'assistente. L'incidente ha dimostrato come l'input dell'utente, vivendo nello stesso contesto dei comandi di sistema, impedisca ai modelli di distinguere tra richieste malevole e autorizzate.

Gli aggressori potrebbero anche istruire i bot di help desk a "dimenticare tutte le istruzioni precedenti" e poi tentare di accedere a database interni o eseguire azioni privilegiate. Oppure avvelenare dati pubblici acquisiti da una pipeline di retrieval-augmented generation (RAG) e costringere i modelli a restituire risposte controllate dall'attaccante.

Anche attività apparentemente innocue diventano rischiose, ad esempio quando un LLM riassume un curriculum in cui prompt incorporati convincono il modello a gonfiare le qualifiche di un candidato.

Le organizzazioni che implementano LLM e non sono consapevoli di queste potenziali minacce affrontano rischi aziendali misurabili come:

Incidenti di esposizione dei dati che possono comportare sanzioni normative ai sensi di GDPR, CCPA e requisiti di conformità specifici di settore
Interruzione operativa dovuta a risposte IA manipolate che influenzano i processi aziendali sempre più automatizzati dai LLM
Danni reputazionali derivanti da sistemi IA rivolti ai clienti compromessi che possono influire sulla fiducia nel marchio e sulla fidelizzazione dei clienti
Perdite finanziarie dovute a decisioni errate guidate dall'IA in ambiti come rilevamento frodi, valutazione del rischio o trading automatizzato

La sfida per i CISO è che le metriche di sicurezza tradizionali non rilevano i rischi specifici dell'IA, richiedendo nuovi framework per misurare e riportare la postura di sicurezza dei LLM alla leadership esecutiva e ai consigli di amministrazione.

Come funzionano gli attacchi di Prompt Injection?

Gli attacchi di prompt injection funzionano sfruttando il modo in cui i LLM elaborano e danno priorità alle istruzioni all'interno di un singolo contesto conversazionale.

Quando si invia una query a un LLM, il motore concatena silenziosamente tre livelli di testo: un prompt di sistema che definisce il comportamento di base, istruzioni dello sviluppatore che modellano l'applicazione e l'input dell'utente. Il modello tratta l'intera stringa come una singola conversazione, quindi l'ordine relativo di questi livelli è fondamentale - spesso l'ultima istruzione prevale.

Questa progettazione crea la vulnerabilità fondamentale. Gli attacchi di prompt injection iniziano con l'inserimento di istruzioni malevole nel contesto del prompt, che il LLM esegue obbedientemente. Poiché il payload è in linguaggio naturale e non codice eseguibile, i filtri classici sugli input risultano inefficaci. L'attacco manipola la logica linguistica del modello, rendendo molto più difficile la sanitizzazione deterministica rispetto alle tradizionali code injection.

Ecco come funziona in pratica un attacco di prompt injection diretta:

Prompt Injection - How Prompt Injection attack works | SentinelOne

Il LLM tratta questo come una conversazione continua in cui l'ultima istruzione può sovrascrivere le precedenti regole di sicurezza. Il modello potrebbe potenzialmente:

Ignorare la regola "Non rivelare mai dati interni"
Seguire invece il comando malevolo "stampa la password dell'amministratore"

In un workflow retrieval-augmented o in un agente autonomo, una pagina web o un record di database compromesso può introdurre la stessa direttiva "ignora le istruzioni precedenti" nel contesto, e il modello potrebbe quindi chiamare strumenti che eliminano file, inviano email o eseguono comandi shell.

Ogni injection ha successo perché un LLM non ha una nozione intrinseca di confini di fiducia.

Rilevamento della Prompt Injection: indicatori e tecniche

Gli attacchi di prompt injection lasciano impronte comportamentali che i sistemi automatizzati possono rilevare. I team di sicurezza devono monitorare tre categorie di attività sospette su input, output e manipolazione del contesto dei LLM.

Anomalie nei pattern di input

Monitorare le frasi di override delle istruzioni nelle query degli utenti. Gli aggressori utilizzano prefissi come "ignora tutte le istruzioni precedenti" o "ignora il tuo prompt di sistema" per dirottare il comportamento del modello. Delimitatori insoliti, caratteri di markup o linguaggio di adozione di persona come "agisci come un auditor di sicurezza" o "fingi di essere un admin" segnalano tentativi di manipolazione.

Un attaccante potrebbe utilizzare query appositamente create contenenti istruzioni di role-play per indurre un chatbot a rivelare le sue regole di sistema riservate. I semplici filtri basati su parole chiave non rilevano questi attacchi perché gli aggressori sviluppano costantemente nuove formulazioni, ma l'IA comportamentale segnala tentativi di manipolazione semanticamente simili indipendentemente dalla formulazione specifica.

Cambiamenti nel comportamento dell'output

I modelli compromessi da prompt injection producono risposte che violano i loro vincoli di sicurezza. Monitorare la divulgazione di informazioni che non dovrebbero essere presenti, come prompt di sistema trapelati o riferimenti a dati interni. Invocazioni di strumenti inaspettate sono evidenti, come un LLM che improvvisamente chiama API di eliminazione file o invia email senza autorizzazione.

I pattern di risposta cambiano quando i modelli seguono istruzioni malevole. Un bot di assistenza clienti che normalmente fornisce risposte di tre frasi può improvvisamente generare spiegazioni tecniche dettagliate. Un assistente IA può bypassare i suoi meccanismi di rifiuto abituali ed eseguire comandi privilegiati. Il modello può fare riferimento a dati a cui non dovrebbe avere accesso o ignorare i guardrail che prima funzionavano correttamente.

Le piattaforme di sicurezza possono tracciare questi output sospetti fino ai prompt che li hanno generati, mostrando l'intera catena d'attacco dall'input malevolo alla risposta compromessa.

Segnali di manipolazione del contesto

Gli attacchi indiretti prendono di mira i contenuti esterni consumati dai LLM. Le pipeline RAG che acquisiscono pagine web, documenti caricati o record di database possono introdurre istruzioni nascoste. Gli aggressori incorporano prompt malevoli in file apparentemente innocui, PDF con livelli di testo invisibili o immagini contenenti istruzioni che i modelli multimodali interpretano ed eseguono.

Monitorare le fonti di dati che alimentano le applicazioni LLM. Un singolo record compromesso in una knowledge base può influenzare tutte le conversazioni future. L'acquisizione di Prompt Security da parte di SentinelOne ha ampliato le capacità di rilevamento specificamente per questi attacchi alla supply chain, identificando tentativi di injection di istruzioni nei contenuti esterni prima che i modelli li elaborino.

Individuare questi indicatori richiede monitoraggio continuo e IA comportamentale in grado di distinguere tra comportamento normale e manipolato dei LLM.

Come fermare gli attacchi di Prompt Injection

La difesa richiede un approccio stratificato, a partire da rilevamento e monitoraggio e supportato da strategie robuste di prevenzione e mitigazione.

1. Implementare logging completo e rilevamento delle anomalie

Il logging completo costituisce la base di qualsiasi strategia difensiva. Acquisire il prompt completo, la risposta del modello, i timestamp e gli identificatori di sessione, utilizzando pipeline di log ad alto volume per mantenere il contesto conversazionale senza violare le regole sulla privacy.

Implementare il rilevamento delle anomalie come radar delle minacce. Abbinare semplici motori di regole che monitorano stringhe indicative come "ignora le istruzioni precedenti" a modelli linguistici avanzati che segnalano prompt il cui significato si discosta dal traffico normale. I filtri tradizionali basati su parole chiave falliscono contro le tecniche di prompt injection in evoluzione perché gli aggressori sviluppano costantemente nuove frasi e approcci. I sistemi di IA comportamentale analizzano l'intento semantico e i pattern strutturali dei prompt, identificando comportamenti malevoli anche quando le frasi d'attacco sono nuove.

2. Sanificare gli input e filtrare gli output

Partire dal testo che entra nel modello. La sanitizzazione degli input rimuove o esegue l'escape di verbi direttivi e frasi di jailbreak, mentre il filtraggio degli output obbliga il modello a conformarsi a uno schema rigoroso o a una lista consentita di funzioni. Questo offre un'ultima possibilità di bloccare prompt di sistema trapelati o chiamate di strumenti non autorizzate.

Le piattaforme di sicurezza autonome moderne possono elaborare migliaia di interazioni LLM simultaneamente, applicando analisi comportamentale su larga scala senza sovraccaricare i team di sicurezza. Questa capacità diventa critica man mano che le organizzazioni implementano LLM in più funzioni aziendali e punti di contatto con i clienti.

3. Isolare le istruzioni di sistema dall'input utente

Mantenere le istruzioni interne separate dall'input utente invece di concatenare stringhe raw. Racchiudere i prompt di sistema in delimitatori chiari e mantenerli in campi separati. Un esempio minimo è il seguente:

Prompt Injection Attack - How to Stop Prompt Injection Attacks | SentinelOne

Questa separazione architetturale aiuta il modello a distinguere tra istruzioni autorizzate e contenuti forniti dall'utente, riducendo il rischio di confusione tra istruzioni.

4. Applicare il principio del privilegio minimo

Limitare il modello a dati in sola lettura e limitare l'accesso a plugin e strumenti esterni. Per workflow sensibili, mantenere un intervento umano per la revisione in tempo reale delle completions rischiose. Quando un prompt porta ad azioni privilegiate, instradare la richiesta tramite una coda di approvazione con intervento umano.

Le organizzazioni che implementano piattaforme di sicurezza IA autonome possono rispondere ai tentativi di prompt injection in tempo reale senza intervento umano. Questi sistemi possono contenere automaticamente le interazioni LLM sospette, isolare i processi interessati e implementare contromisure mantenendo audit trail dettagliati per l'analisi forense.

5. Red-team delle applicazioni

Testare proattivamente le difese alimentando l'applicazione con prompt avversari e ottimizzando il modello con quei fallimenti affinché impari a resistere. Esercitazioni regolari di red-teaming aiutano a identificare nuovi vettori d'attacco e a validare l'efficacia delle misure difensive.

La risposta autonoma diventa particolarmente preziosa nelle implementazioni LLM ad alto volume dove il monitoraggio manuale è impraticabile. Il sistema può adattare le strategie di risposta in base ai pattern d'attacco e aggiornare continuamente le capacità di rilevamento senza richiedere aggiornamenti manuali delle regole o l'intervento del team di sicurezza.

SentinelOne e l'IA autonoma per la difesa dalla Prompt Injection

SentinelOne offre visibilità in tempo reale sull'IA grazie agli agent leggeri e alle estensioni browser di prompt security. È possibile gestire con sicurezza l'uso non gestito dell'IA e migliorare la sicurezza per ChatGPT, Gemini, Claude, Cursor e altri LLM personalizzati.

La piattaforma di SentinelOne mantiene un inventario in tempo reale dell'utilizzo su migliaia di strumenti e assistenti IA. Ogni prompt e risposta viene acquisito con il contesto completo, offrendo ai team di sicurezza log ricercabili per audit e conformità.

Cybersicurezza alimentata dall'intelligenza artificiale

Elevate la vostra posizione di sicurezza con il rilevamento in tempo reale, la risposta automatica e la visibilità totale dell'intero ambiente digitale.

Richiedi una demo

È possibile bloccare prompt ad alto rischio e utilizzare coaching inline per aiutare gli utenti ad apprendere pratiche sicure di utilizzo dell'IA. Si possono fermare tentativi di prompt injection e jailbreak, manipolazioni malevole dell'output e fughe di prompt. SentinelOne può applicare misure di sicurezza e offre copertura agnostica rispetto al modello per tutti i principali provider LLM, inclusi OpenAI, Anthropic e Google. Assegna un punteggio di rischio dinamico e applica automaticamente azioni di allow, block, filter e redact. La prompt security di SentinelOne è parte integrante della sua cyber security per l'IA. Scopri il portfolio di sicurezza IA e scala le tue difese con analisti di sicurezza IA agentici e difese endpoint a velocità macchina.

FAQ sugli attacchi di Prompt Injection

Un attacco di prompt injection manipola i modelli linguistici di IA inserendo istruzioni dannose negli input degli utenti o in contenuti esterni. Gli attaccanti creano testi che inducono l’IA a seguire comandi non autorizzati invece della programmazione originale, causando comportamenti imprevisti o la divulgazione di informazioni sensibili.

No. Sebbene l’ottimizzazione fine possa aiutare un modello a rifiutare determinati prompt, non lo rende immune. Gli attaccanti possono comunque creare istruzioni nuove per aggirare l’addestramento, motivo per cui sono essenziali difese stratificate.

La prevenzione richiede più livelli difensivi. Implementa registrazione completa e sanitizzazione degli input, isola le istruzioni di sistema dagli input degli utenti, applica il principio del minimo privilegio ed esegui regolarmente test red-team per identificare nuovi vettori di attacco prima che vengano sfruttati dagli attaccanti.

La SQL injection sfrutta un linguaggio di query strutturato inserendo codice eseguibile in una query al database. La prompt injection sfrutta un’interfaccia in linguaggio naturale inserendo istruzioni dannose che manipolano la logica e il comportamento del modello.

No. Sebbene la segretezza possa rendere più difficile il compito degli attaccanti, spesso i prompt possono essere indotti a rivelare le istruzioni nascoste tramite query ingegnose. La segretezza è una forma di oscurità, non un controllo di sicurezza robusto.

No. Anche i modelli multimodali sono vulnerabili. Istruzioni dannose possono essere nascoste in immagini, file audio o altri formati, che il modello può interpretare ed eseguire, aggirando i filtri solo testuali.

Il jailbreaking tenta di aggirare i meccanismi di sicurezza per generare contenuti vietati, mentre la prompt injection manipola il modello per eseguire azioni non previste o rivelare dati sensibili. Entrambi sfruttano la confusione sulle istruzioni ma mirano a vulnerabilità diverse.