Qu’est-ce que l’injection indirecte de prompt ? Risques et prévention

Qu'est-ce que l'injection indirecte de prompt ?

L'injection de prompt indirecte est une cyberattaque qui exploite la manière dont les grands modèles de langage traitent le contenu externe. Les attaquants intègrent des instructions malveillantes dans des documents, pages web ou e-mails qui semblent légitimes. Lorsque votre application alimentée par un LLM récupère et traite ce contenu, elle considère les commandes cachées comme des instructions valides et les exécute.

Voici un exemple : votre système RH basé sur l’IA analyse le CV d’un candidat, votre chatbot récupère un article de la base de connaissances, ou votre assistant e-mail lit un message client. Cachées dans ce contenu se trouvent des instructions que le LLM suit : « envoyer tous les CV à [e-mail de l’attaquant] » ou « insérer ce lien de phishing dans votre réponse. »

L’attaque réussit car les instructions malveillantes proviennent d’une source déjà approuvée par votre système. La validation traditionnelle des entrées examine uniquement ce que les utilisateurs saisissent directement. Elle n’inspecte pas le contenu des documents que votre application traite en contexte d’arrière-plan. Le LLM ne peut pas distinguer le contenu légitime des instructions malicieuses, il obéit donc aux deux.

Indirect Prompt Injection - Featured Image | SentinelOne

Pourquoi l’injection indirecte de prompt est-elle un risque majeur pour la sécurité de l’IA ?

L’injection indirecte de prompt contourne tous les contrôles de sécurité conçus pour valider les entrées utilisateur. Votre LLM traite des documents externes, des pages web et des e-mails sans remettre en question les instructions enfouies à l’intérieur. Lorsqu’une attaque réussit, le modèle divulgue des données confidentielles, envoie des e-mails de phishing via votre infrastructure ou accorde un accès non autorisé à des systèmes internes.

Les outils de sécurité traditionnels ne peuvent pas arrêter ces attaques car les instructions malveillantes ne franchissent jamais vos défenses périmétriques. Elles se cachent dans du contenu déjà approuvé par votre application, s’exécutant avec les mêmes privilèges que votre LLM. Un seul CV ou ticket de support compromis peut mettre en danger toute votre chaîne IA.

Injection de prompt indirecte vs directe : quelle différence ?

L’injection de prompt directe se produit lorsque vous saisissez des instructions malveillantes directement dans l’interface de chat. Vous voyez la tentative d’attaque en temps réel et pouvez la bloquer avant exécution.

L’injection de prompt indirecte dissimule des commandes dans du contenu que le LLM récupère automatiquement, comme des CV, e-mails, pages web ou documents traités comme contexte de confiance par votre système. Votre validation des entrées n’examine jamais ce contenu car il ne provient pas d’une invite utilisateur. Les instructions cachées s’exécutent avec tous les privilèges système pendant que votre équipe sécurité enquête sur des alertes sans rapport.

Les attaques directes ciblent la porte d’entrée. Les attaques indirectes empoisonnent la chaîne d’approvisionnement dont dépend votre IA.

Vecteurs courants d’injection indirecte de prompt

Les attaquants exploitent chaque source de contenu que touche votre LLM. Comprendre où se cachent les instructions malveillantes vous aide à prioriser les efforts de désinfection et la couverture de détection.

Téléversements de documents tels que CV, contrats ou rapports contenant du texte invisible, un style blanc sur blanc ou des champs de métadonnées que les humains ne lisent jamais mais que les LLM traitent littéralement.
Pages web et contenu aspiré abritant des instructions dans des commentaires HTML, des règles d’affichage CSS ou des textes alternatifs que les pipelines de récupération collectent sans inspection.
Messages e-mail de clients ou partenaires intégrant des commandes dans des balises <div> cachées ou des en-têtes encodés que les systèmes d’auto-réponse considèrent comme contexte légitime.
Articles de base de connaissances mis à jour par plusieurs contributeurs pouvant être empoisonnés par des directives dissimulées qui contaminent chaque requête ultérieure issue de cette source.
Enregistrements de base de données stockant des profils utilisateurs, descriptions de produits ou tickets de support accumulant des instructions injectées qui s’activent lorsque le LLM interroge des informations apparemment sans rapport.
Réponses d’API de services tiers pouvant injecter des prompts malveillants dans des champs JSON ou des messages d’erreur traités comme données de confiance par votre application.
Fichiers image traités par des LLM multimodaux pouvant contenir des instructions dans les métadonnées EXIF, du texte caché stéganographiquement ou du contenu lisible par OCR positionné hors du cadre visible.
Historique de chat et journaux de conversation référencés pour le contexte permettant aux attaquants d’empoisonner des sessions précédentes avec des instructions qui s’activent lors d’interactions futures.
Documents collaboratifs partagés tels que Google Docs, pages Notion ou wikis autorisant plusieurs éditeurs à injecter des prompts qui persistent dans les flux de travail d’équipe.
Dépôts de code analysant du contenu GitHub ou GitLab pouvant exécuter des commandes cachées dans des commentaires, fichiers README ou documentations.
Fichiers de configuration au format YAML, JSON ou XML que les LLM analysent pour la configuration système, transportant des instructions dans des commentaires ou des champs inutilisés.
Transcriptions audio et sous-titres vidéo générés à partir de réunions ou de contenus multimédias transformant des commandes orales en texte que le LLM suit sans question.

Ces vecteurs partagent une faiblesse : votre système les récupère automatiquement. La section suivante montre comment les attaquants transforment un contenu de confiance en commandes exécutables.

Comment fonctionne l’injection indirecte de prompt

L’injection indirecte de prompt opère en trois étapes, transformant un contenu apparemment inoffensif en commandes que le grand modèle de langage (LLM) considère comme des instructions légitimes.

Le processus commence par la phase d’injection. Les attaquants dissimulent des instructions là où les lecteurs humains ne regardent pas : dans des commentaires HTML, du texte alternatif, des métadonnées ou du texte blanc sur blanc. Cela peut être aussi simple qu’un extrait tel que :

Indirect Prompt Injection - process begins with the injection phase

Cette directive malveillante se fond dans le code source de la page, restant inaperçue par la plupart des scanners de sécurité tout en étant très efficace pour inciter un modèle d’IA.

Vient ensuite l’ingestion. Votre pipeline de génération augmentée par récupération (RAG)—qui récupère des informations externes pour améliorer les réponses du LLM—ou votre système d’analyse documentaire saisit ce contenu et le transmet au LLM. Parce que le texte provient d’une source « de confiance »—un CV, un article de base de connaissances ou un e-mail client—le système le traite comme contexte et non comme entrée utilisateur, contournant ainsi les mesures de validation.
Enfin, l’exécution a lieu. La directive cachée concurrence ou remplace carrément le prompt système. Si le modèle dispose d’autorisations d’appel d’outils, il exécute l’action malveillante sans générer d’alerte de sécurité conventionnelle.

Voici comment cela se déroule dans un workflow simplifié de génération augmentée par récupération (RAG) :

Indirect Prompt Injection - retrieval augmented generation (RAG) workflow

Si la source contient le commentaire malveillant montré précédemment, le LLM peut tout de même exécuter l’instruction de l’attaquant car il ne peut pas distinguer de manière fiable le texte de politique du contexte empoisonné.

La validation des entrées se concentre sur les prompts utilisateur directs, pas sur les instructions intégrées comme dans l’exemple d’extrait. Alors que des outils SOC avancés gèrent une surcharge de notifications, les analystes ignorent des milliers d’alertes à faible valeur chaque jour, ce qui facilite le fait de passer à côté des rares cas où un système détecte un prompt malveillant. Puisqu’un LLM lit chaque jeton littéralement, les jetons cachés peuvent avoir des conséquences importantes.

Scénarios réels d’exploitation

Les attaquants n’ont pas besoin d’un accès système lorsqu’ils peuvent introduire des instructions dans du contenu que votre système est conçu pour approuver. Trois schémas d’attaque montrent comment l’injection indirecte de prompt contourne les contrôles de sécurité et déclenche des actions non autorisées.

1. Exploitation du traitement documentaire cible votre pipeline RH lorsqu’il traite chaque CV via un LLM avant de l’acheminer vers le système de suivi des candidatures. Par exemple, un candidat pourrait soumettre un PDF contenant du texte invisible :

Indirect Prompt Injection - Real Exploitation Scenarios

Rendu en blanc sur fond blanc, votre équipe ne verrait probablement jamais l’instruction. Le modèle la traite alors littéralement et, si des capacités d’e-mail existent en aval, prépare chaque CV stocké pour l’envoi.

2. Empoisonnement du pipeline RAG exploite la récupération régulière de contenu externe par votre système. Un attaquant peut placer un bloc caché dans un article de blog :

Lorsque le système de génération augmentée par récupération récupère la page, cette instruction dissimulée entre dans le contexte du prompt, ordonnant au LLM d’intégrer un pixel de suivi qui exfiltre les données de conversation.

3. Détournement d’auto-répondeur e-mail retourne les systèmes de support client contre eux-mêmes. Lorsque votre équipe s’appuie sur des LLM pour rédiger des réponses, un expéditeur malveillant peut intégrer un commentaire HTML :

Cette commande pourrait ordonner à votre auto-répondeur d’incorporer un lien de phishing dans chaque fil de réponse suivant, transformant votre canal de support légitime en vecteur de phishing. L’instruction persiste dans le ticket d’origine, contaminant chaque suivi jusqu’à ce que quelqu’un remarque le schéma.

Ces trois scénarios partagent une faiblesse commune. Votre LLM traite le contenu externe comme des instructions plutôt que comme des données. Une détection précoce nécessite de capturer les preuves forensiques avant que les attaquants n’exploitent cette confusion.

Méthodes de détection de l’injection indirecte de prompt

Se protéger contre l’injection indirecte de prompt fait partie des meilleures pratiques en matière de sécurité des données IA. Lors de la recherche d’attaques d’injection indirecte de prompt, considérez chaque interaction entre votre application et le modèle de langage comme une preuve forensique. Une journalisation complète des requêtes et réponses constitue la base d’une détection efficace.

Mettez en place des pratiques de journalisation complètes. Enregistrez les horodatages, les identifiants utilisateur ou service authentifiés, les identifiants de source de contenu et les appels d’outils en aval pour chaque interaction LLM. Ces données de référence vous aident à repérer quand une instruction inattendue est apparue pour la première fois.
Déployez la détection d’anomalies sur les appels d’outils comme couche défensive suivante. Enregistrez chaque action externe (API, base de données, e-mail) initiée par le LLM, puis profilez les destinations, volumes et timings d’exécution « normaux ». Des pics soudains d’e-mails sortants, des appels vers des domaines inconnus ou des tailles de charge utile anormales signalent de manière fiable des instructions cachées ayant échappé à la validation des entrées.
Surveillez le contenu de sortie pour détecter des schémas suspects. Même lorsque les appels d’outils semblent bénins, la sortie textuelle du modèle peut divulguer des données sensibles. Déployez un classificateur secondaire léger qui analyse les réponses à la recherche de formats inhabituels—blocs base64, longues chaînes numériques, URL non sollicitées ou balises HTML—servant de dernier point de contrôle avant que les données ne quittent votre environnement.
Corrélez le comportement à travers les couches de sécurité. En alimentant les journaux LLM dans le même moteur d’analyse que celui qui surveille vos endpoints et charges de travail cloud, vous pouvez identifier si une injection de prompt coïncide avec un lancement de processus, une élévation de privilèges ou des connexions sortantes.

Des plateformes comme SentinelOne Singularity offrent cette vue unifiée, transformant des dizaines de notifications dispersées en récits d’attaque cohérents, garantissant que les attaques réelles émergent du bruit.

La détection n’est qu’une partie de la solution. Vous avez également besoin de tactiques robustes de prévention et de réponse pour éviter les menaces de sécurité IA dès le départ.

Contrôles de prévention contre l’injection indirecte de prompt

Avant qu’une injection indirecte de prompt n’atteigne votre grand modèle de langage, vous devez mettre en place des protections en couches qui suppriment, isolent et neutralisent le contenu non approuvé tout en limitant ce que le modèle peut faire si quelque chose de malveillant passe à travers.

Mettez en œuvre une désinfection robuste du contenu comme première barrière défensive. Convertissez les fichiers entrants en texte brut, supprimez les balises HTML, Markdown et XML, et nettoyez les champs cachés comme les commentaires ou les styles hors écran utilisés par les attaquants pour introduire des instructions. Lorsque vous ne pouvez pas supprimer complètement le balisage, maintenez une liste d’autorisation courte pour que le LLM ne rencontre jamais de balises inattendues. Votre pipeline de désinfection doit également supprimer les propriétés de document et les données EXIF des images où se cachent souvent des charges utiles invisibles.
Concevez des prompts sécurisés avec des limites claires. Encadrez tout contenu externe avec des délimiteurs explicites et renforcez les règles système immédiatement après le bloc :

Design secure prompts with clear boundaries

Cette approche délimite clairement ce qui est digne de confiance et ce qui ne l’est pas, réduisant la probabilité que le modèle obéisse à un texte hostile.

Déployez des contrôles de filtrage et de surveillance des sorties. Faites correspondre les réponses à des schémas pour détecter des URL, des données encodées ou des balises HTML indésirables, et inspectez les appels d’outils pour repérer des destinations ou volumes inhabituels. La plateforme Singularity de SentinelOne simplifie ce processus : Storyline corrèle automatiquement chaque processus, modification de fichier et appel réseau dans un seul incident, regroupant les événements bruyants pour vous permettre de vous concentrer sur les rares qui comptent et de repérer rapidement les tentatives d’exfiltration suspectes.
Restreignez les capacités opérationnelles du LLM. Attribuez-lui des clés API de moindre privilège, exigez une validation humaine pour les actions sensibles et traitez les documents à haut risque dans un bac à sable avant leur entrée dans les flux de production. Ces contrôles de sécurité des applications LLM constituent une stratégie de défense en profondeur qui empêche l’injection indirecte de prompt de transformer un assistant utile en complice involontaire.

Réponse et confinement face à l’injection indirecte de prompt

Lorsque l’injection indirecte de prompt frappe, chaque minute compte. Votre réponse doit isoler les systèmes affectés, auditer l’activité récente, révoquer les identifiants et mener une enquête approfondie pour empêcher l’exfiltration de données.

Exécutez immédiatement des actions techniques pour stopper la progression de l’attaque :

Désactivez l’intégration LLM ou basculez l’application en « mode sécurisé » prédéfini qui bloque les appels d’outils tout en préservant les journaux
Auditez les requêtes des dernières 24 heures pour détecter des balises HTML cachées, des commentaires ou des métadonnées dans les prompts et réponses
Révoquez les clés API et tokens OAuth auxquels le LLM pouvait accéder, en priorisant les systèmes de paiement, dossiers RH et données clients
Mettez en quarantaine les documents externes (CV, pages web, e-mails) et redirigez-les vers un bac à sable pour analyse statique
Corrélez les journaux endpoint, réseau et cloud avec l’activité LLM pour repérer des schémas d’exfiltration comme des pics SMTP ou des appels vers des domaines inconnus

Une fois l’attaque stoppée, menez une enquête complète pour comprendre son étendue. Remontez à l’origine en analysant la chronologie des transcriptions LLM et en mesurant le rayon d’impact. Envisagez d’utiliser des fonctionnalités comme la technologie Storyline de SentinelOne qui reconstitue les événements processus, fichiers et réseau en récits d’incident exploitables, réduisant le bruit pour les analystes en corrélant les données de sécurité dans tout votre environnement.

Complétez votre réponse par des améliorations défensives. Effectuez une analyse rétrospective du contenu pour identifier des charges dormantes, mettez à jour les règles de détection selon les schémas d’attaque et entraînez-vous à exécuter les plans de confinement pour accélérer les temps de réponse futurs. Ces mesures de sécurité des applications LLM vous assurent une meilleure préparation face aux futures menaces de sécurité IA.

Défis et limites de la mitigation de l’injection indirecte de prompt

Se défendre contre l’injection indirecte de prompt implique d’accepter des compromis inconfortables entre sécurité et fonctionnalité. Voici plusieurs défis clés à considérer lors de la planification des mesures de mitigation pour prévenir l’injection indirecte de prompt :

Les LLM ne peuvent pas distinguer de manière fiable les instructions des données. Le même texte qui répond à une question légitime peut contenir des commandes cachées. Aucun prompt engineering ne résout totalement ce problème car le modèle traite chaque jeton comme une entrée potentiellement significative. Par exemple, un analyseur de CV ne peut pas distinguer une politique d’une instruction empoisonnée, transformant chaque document en vecteur d’attaque potentiel.
La désinfection du contenu casse la fonctionnalité légitime. Supprimez tout le HTML et votre système de support perd la mise en forme. Retirez les métadonnées et le traitement documentaire perd du contexte. Autorisez le balisage de façon sélective et les attaquants trouvent de nouvelles cachettes dans les balises permises. Si vous désinfectez de façon suffisamment agressive pour stopper toutes les attaques, votre LLM peut perdre le contexte nécessaire à des réponses précises.
La détection génère des faux positifs à grande échelle. La surveillance des appels d’outils peut signaler des opérations légitimes en masse en même temps que des attaques. Le filtrage des sorties bloque des réponses anodines contenant des URL ou des extraits de code. Votre équipe SOC est submergée d’alertes tandis que les menaces réelles se fondent dans le bruit. Lorsque la détection d’anomalies se déclenche sur des opérations métier normales, les analystes commencent à ignorer les alertes, y compris celles qui comptent.
Le sandboxing ajoute de la latence et de la complexité. Traiter chaque document externe en isolation avant utilisation en production ralentit les temps de réponse et nécessite une infrastructure dupliquée. Les contraintes de coût et de performance poussent les équipes à prendre des raccourcis plus risqués. Une analyse documentaire qui prend 30 secondes dans un bac à sable contre 2 secondes en production peut inciter à désactiver la protection.
Les fournisseurs de modèles offrent peu de contrôles de sécurité. Vous ne pouvez pas inspecter la pondération des instructions concurrentes par le LLM ni auditer son processus décisionnel. Lorsqu’une attaque réussit, l’analyse des causes profondes s’arrête souvent à « le modèle a suivi le prompt ». Sans visibilité sur les raisons pour lesquelles le modèle a obéi à des instructions malveillantes plutôt qu’aux règles système, il est difficile de prévenir la prochaine attaque.

Ces limites montrent que même avec des contrôles robustes, des limitations fondamentales peuvent subsister. La section suivante propose des mesures pratiques tenant compte de ces contraintes.

Bonnes pratiques pour sécuriser les systèmes IA contre l’injection de prompt

Construire des applications LLM résilientes nécessite des défenses en couches partant du principe que le contenu sera empoisonné et que les instructions seront en concurrence. Ces six pratiques réduisent les surfaces d’attaque tout en maintenant la capacité opérationnelle.

Désinfectez agressivement à l’ingestion. Convertissez tous les fichiers externes en texte brut, supprimez les commentaires HTML et éléments cachés, retirez les métadonnées et données EXIF, et maintenez une liste d’autorisation de balisage minimale. Traitez les pages web via un analyseur dédié qui ne conserve que le contenu visible.
Structurez les prompts avec des limites explicites. Encadrez le contenu non approuvé par des délimiteurs clairs et renforcez les instructions système immédiatement après les blocs externes. Utilisez un formatage cohérent signalant au modèle ce qu’il doit approuver ou traiter comme données.
Mettez en œuvre des contrôles d’accès de moindre privilège. Attribuez aux LLM des clés API avec des permissions minimales, exigez une validation humaine pour les actions sensibles comme la suppression de données ou la communication externe, et traitez les documents à haut risque dans des environnements isolés avant les flux de production.
Déployez une surveillance complète. Journalisez chaque interaction LLM avec horodatage, sources de contenu et appels d’outils. Profilez le comportement normal pour détecter les anomalies dans les destinations API, volumes de requêtes et timings d’exécution. Intégrez la télémétrie LLM à la même plateforme d’analyse qui surveille vos endpoints et charges de travail cloud.
Validez les sorties avant exécution. Analysez les réponses à la recherche de schémas suspects incluant des URL inattendues, des données encodées, des balises HTML ou des tentatives d’élévation de privilèges. Bloquez les appels d’outils vers des destinations inconnues et signalez les volumes de données inhabituels pour examen manuel.
Maintenez une veille sur la menace à jour. Suivez les techniques d’attaque émergentes, testez vos défenses contre des exploits connus et participez à des communautés de sécurité partageant des indicateurs d’injection de prompt. Mettez à jour les règles de détection à mesure que les attaquants font évoluer leurs méthodes.

Ces contrôles forment une stratégie de défense en profondeur. Associés aux capacités de détection et de réponse évoquées plus haut, ils créent de multiples occasions de stopper les attaques avant qu’elles ne causent des dommages.

Stoppez l’injection indirecte de prompt avec SentinelOne

Si vous déployez des fonctionnalités LLM en production et souhaitez vous protéger contre l’injection indirecte de prompt, SentinelOne peut vous aider. Disposer de la bonne architecture de sécurité, de capacités de surveillance et de workflows de réponse autonomes est aussi important que la désinfection des entrées et la validation des sorties.

La plateforme Singularity™ surveille et protège les applications alimentées par LLM sur l’ensemble de votre infrastructure. La couche Singularity XDR corrèle les journaux d’API LLM avec la télémétrie endpoint, cloud et réseau en temps réel. Lorsqu’une injection indirecte de prompt déclenche une activité suspecte, vous visualisez le récit complet de l’attaque dans une seule console. Purple AI mène des investigations autonomes, analyse les schémas d’appels API et recherche des indicateurs d’injection de prompt, tandis que la technologie Storyline™ reconstitue la chaîne d’attaque complète depuis l’injection initiale jusqu’à la tentative d’exfiltration.

L’IA comportementale de SentinelOne stoppe les attaques avant qu’elles ne s’aggravent. Lorsqu’une instruction cachée ordonne à votre LLM d’effectuer des actions non autorisées, le moteur de réponse autonome de la plateforme isole immédiatement l’intégration affectée, bloque le trafic malveillant et préserve les preuves forensiques—sans intervention humaine requise.

Singularity Cloud Security découvre les modèles IA et pipelines exécutés dans votre environnement, avec une couverture indépendante du fournisseur pour les principaux LLM, dont Google, Anthropic et OpenAI. Vous pouvez configurer des contrôles de sécurité sur les services API, valider la désinfection du contenu, exécuter des tests automatisés et appliquer des politiques bloquant les schémas à haut risque sur les API, applications de bureau et outils web. Les capacités de sécurité conteneur et Kubernetes de la plateforme s’étendent aux déploiements LLM serverless, offrant une sécurité applicative LLM complète.

Pour les équipes conformité, les tableaux de bord Singularity cartographient l’activité de sécurité LLM aux cadres réglementaires tels que le NIST AI Risk Management Framework et l’AI Act européen, avec une conservation longue durée des données pour chaque prompt, réponse et action de sécurité. Le chiffrement en transit et au repos protège les prompts sensibles contre toute exposition. L’Hyperautomation de Singularity vous permet de créer des workflows de réponse personnalisés qui désactivent automatiquement les intégrations affectées, font tourner les clés API et génèrent des rapports forensiques lorsque Purple AI détecte une attaque.

SentinelOne génère 88 % d’alertes en moins que les outils de sécurité fragmentés. Lors des évaluations MITRE, SentinelOne n’a généré que 12 alertes contre 178 000 pour d’autres plateformes—ce qui signifie que votre équipe enquête sur de vraies menaces au lieu d’être noyée sous les faux positifs. Demandez une démo personnalisée avec SentinelOne pour découvrir comment notre plateforme IA autonome protège vos applications LLM contre l’injection indirecte de prompt.

Plate-forme Singularity™

Améliorez votre posture de sécurité grâce à la détection en temps réel, à une réponse à la vitesse de la machine et à une visibilité totale de l'ensemble de votre environnement numérique.

Obtenir une démonstration

Conclusion

L’injection indirecte de prompt représente une menace sérieuse pour la sécurité des applications alimentées par LLM, les attaquants intégrant des instructions malveillantes dans du contenu de confiance qui échappe à la validation traditionnelle des entrées. Les organisations déployant des fonctionnalités IA doivent mettre en œuvre des défenses en couches incluant la désinfection du contenu, la délimitation des prompts, le filtrage des sorties et la surveillance comportementale. La plateforme de sécurité autonome de SentinelOne détecte et stoppe ces attaques en temps réel, corrélant l’activité LLM avec le comportement endpoint et réseau pour intercepter les menaces avant que les données ne quittent votre environnement.

FAQ

Les attaques par injection indirecte injection attacks manipulent le comportement des LLM en intégrant des instructions malveillantes dans des contenus externes que votre système traite automatiquement. Ces attaques exfiltrent des données sensibles, injectent du contenu de phishing dans des réponses automatisées ou accordent un accès non autorisé au système.

Contrairement à l'injection directe où les utilisateurs saisissent des commandes malveillantes, ces attaques se dissimulent dans des documents, des pages web et des courriels qui semblent légitimes. Les instructions corrompues s'exécutent avec tous les privilèges du système tout en contournant la validation des entrées conçue pour détecter les menaces soumises par les utilisateurs.

L'injection directe de prompt se produit lorsqu'un attaquant insère des instructions malveillantes directement dans l'interface de chat du modèle. Vous pouvez voir le texte hostile et décider de l'exécuter ou non. L'injection indirecte de prompt se cache dans le contenu que le modèle ingère ultérieurement : un commentaire HTML, un , ou des métadonnées de document.

Comme ce contenu provient de sources « fiables », vos contrôles habituels de validation des entrées ne s'activent jamais, et les instructions dissimulées peuvent silencieusement outrepasser les règles du système.

Capturez tout : journaux de requêtes et de réponses horodatés, sources de contenu exactes et appels d’outils en aval. Transmettez cette télémétrie à des moteurs de détection d’anomalies pour signaler des destinations inhabituelles, des volumes excessifs ou des schémas temporels anormaux ; ce sont des indicateurs classiques identifiés dans les études sur la surcharge des analystes.

La corrélation de l’activité LLM avec les données endpoint, réseau et identité réduit le champ de recherche.

Les attaquants dissimulent des données malveillantes dans des emplacements que l'œil humain ignore : commentaires HTML, texte invisible en CSS, texte alternatif ou métadonnées. Bien que cela ait été documenté dans certains types de cyberattaques (comme le phishing ou les malwares), cette méthode n’a pas encore été signalée publiquement comme vecteur d’attaque par injection de requêtes contre les modèles de langage. Il reste néanmoins judicieux de nettoyer tous les fichiers externes et pages web avant traitement.

Les filtres conventionnels n’examinent que le prompt visible saisi par l’utilisateur. Lorsque des instructions sont intégrées dans des fichiers déjà considérés comme fiables par votre pipeline—un CV ou un ticket de support—ces filtres ne s’exécutent jamais. Le modèle traite le texte caché, exécute des commandes non prévues pendant que votre équipe de sécurité gère des alertes concurrentes.

Désactivez ou placez l’intégration LLM en « mode sécurisé », auditez les requêtes des dernières 24 heures pour détecter des appels d’outils ou des exfiltrations de données inexpliqués, faites pivoter les clés API et révoquez les identifiants inutilisés, mettez en quarantaine la source de contenu suspecte et réanalysez-la après avoir supprimé les éléments cachés, et recherchez dans les journaux les pics de trafic sortant correspondant à la fenêtre d’attaque.

Les plateformes telles que SentinelOne Singularity ingèrent les journaux LLM en plus de la télémétrie des endpoints et du réseau, puis appliquent la corrélation brevetée Storyline pour relier les événements associés en un seul récit. En regroupant les notifications bruyantes en incidents riches en contexte et en permettant la réponse (arrêt du processus, mise en quarantaine du fichier, restauration des modifications), elles réduisent la charge de travail des analystes et neutralisent l’exfiltration provoquée par l’injection de prompts avant qu’elle ne se propage.

Bien que les rapports sur des incidents publics spécifiques restent limités, certains schémas d’attaque ont été identifiés. Les scénarios à garder à l’esprit incluent des CV piégés qui exfiltrent des données de candidats via les systèmes RH, des articles de base de connaissances compromis qui injectent des liens de phishing dans les réponses du support client, et des signatures d’e-mails malveillantes qui redirigent la sortie des répondeurs automatiques vers des domaines contrôlés par des attaquants.

Ces schémas reflètent des attaques dans d’autres domaines où des sources de contenu de confiance deviennent des vecteurs d’exploitation.

La détection nécessite une journalisation complète de chaque interaction avec le LLM, y compris les horodatages, les sources de contenu et les appels d’outils. Surveillez les anomalies dans les destinations d’API, les volumes de requêtes et le timing d’exécution qui s’écartent des bases de référence établies.

Déployez des classificateurs secondaires pour analyser les sorties à la recherche de schémas suspects tels que des URL inattendues, des données encodées ou des balises HTML. Corrélez l’activité du LLM avec la télémétrie des endpoints et du réseau afin d’identifier les tentatives d’exfiltration qui coïncident avec des requêtes suspectes.