Was ist ein Prompt-Injection-Angriff? Und wie man ihn in LLMs stoppt

Was ist Prompt Injection?

Prompt Injection ist ein Cyberangriff, bei dem böswillige Akteure KI-Sprachmodelle manipulieren, indem sie schädliche Anweisungen in Benutzerprompts oder Systemeingaben einschleusen. Ziel ist es, das KI-Modell zu unerwartetem Verhalten zu bringen oder sensible Informationen preiszugeben.

Diese Angriffe nutzen aus, wie LLMs Anweisungen und Benutzereingaben verarbeiten und vermischen. Angreifer erstellen bösartige Texte, die das KI-Modell dazu bringen, unautorisierte Befehle auszuführen, anstatt der ursprünglichen Programmierung zu folgen.

Der Angriff ist erfolgreich, weil das Modell nicht zuverlässig zwischen legitimen Anweisungen und böswilliger Manipulation unterscheiden kann.

Es gibt drei Haupttypen von Prompt Injection-Angriffen:

Direkte Prompt Injection tritt auf, wenn Angreifer bösartigen Text direkt in die Chat-Oberfläche eingeben. Beispiele sind Präfix-Anweisungen wie „Ignoriere alle vorherigen Anweisungen“, das Annehmen überzeugender Rollen wie „Handle als Penetrationstester“ und Formulierungen, die Sicherheitsverweigerungen unterdrücken.
Indirekte Prompt Injection tritt auf, wenn Angreifer externe Inhalte angreifen, die von LLMs verarbeitet werden, wie RAG-Pipelines, Datei-Uploads oder Webseiten, die unsichtbare Anweisungen enthalten können, die später verarbeitet werden. Sicherheitsforscher von Prompt Security haben dies demonstriert, indem sie Bing Chat dazu brachten, vertrauliche Regeln durch manipulierten Dokumententext preiszugeben.
Gespeicherte (persistente) Injection tritt auf, wenn Angreifer Datenbanken, Wissensbasen oder Chatverläufe mit Prompts versehen, die inaktiv bleiben, bis das Modell sie erneut aufruft. In Unternehmensumgebungen kann ein vergifteter Datensatz unbemerkt jede zukünftige Konversation beeinflussen.

Moderne multimodale Modelle sind zusätzlichen Risiken ausgesetzt. Angreifer können bösartigen Text in Bildern oder PDFs verstecken, die dieselbe schädliche Absicht tragen und herkömmliche Schlüsselwortfilter umgehen. Für Unternehmen, die LLMs im großen Maßstab einsetzen, stellt Prompt Injection einen grundlegenden Wandel von traditionellen, infrastrukturorientierten Angriffen hin zu Bedrohungen dar, die Kernfunktionen von KI ausnutzen.

Prompt Injection Attack - Featured Image | SentinelOne

Auswirkungen & Risiken von Prompt Injection auf KI-Systeme

Ein einziger vergifteter Prompt kann Ihre gesamte KI-Implementierung kompromittieren. Unternehmen sind messbaren geschäftlichen Konsequenzen ausgesetzt, wenn Angreifer das Verhalten von LLMs durch eingeschleuste Anweisungen manipulieren.

Die Risiken lassen sich in drei Kategorien unterteilen:

Datenexfiltration durch manipulierte Ausgaben: Angreifer instruieren Modelle, Zugriffskontrollen zu umgehen und vertrauliche Systemprompts, interne Dokumentationen, Kundendaten oder proprietäre Geschäftslogik aus den Trainingsdaten preiszugeben.
Betriebsunterbrechung durch kompromittierte KI-Assistenten: Manipulierte Chatbots genehmigen betrügerische Transaktionen, Helpdesk-Bots gewähren unautorisierten Zugriff oder autonome Agenten führen destruktive Befehle aus, die Dateien löschen oder Datenbanken beschädigen.
Lieferkettenrisiken durch vergiftete Trainingsdaten: Öffentliche Datensätze und webgescrapte Inhalte enthalten inaktive Anweisungen, die beim Einlesen durch RAG-Pipelines aktiviert werden und jede nachgelagerte Anwendung beeinflussen, die auf diesen Daten basiert.

Diese Risiken machen Prompt Injection zu einem kritischen Thema für jedes Unternehmen, das LLM-Technologie einsetzt. Sicherheitsteams, die verstehen, wie diese Angriffe funktionieren, können gestaffelte Abwehrmaßnahmen aufbauen, bevor Vorfälle auftreten.

Die Bedeutung des Verständnisses von Prompt Injection-Angriffen

Prompt Injection-Angriffe schaffen Geschäftsrisiken, die traditionelle Cybersecurity-Frameworks nicht abdecken. Im Gegensatz zu herkömmlichen Angriffen, die auf Infrastruktur abzielen, nutzen Prompt Injection-Angriffe die Kernfunktionalität von KI-Systemen aus und machen jede LLM-Implementierung zu einem potenziellen Einstiegspunkt für Angreifer.

Ein Beispiel: Ein Stanford-Forscher brachte Bing Chat erfolgreich dazu, seinen vertraulichen Systemprompt durch eine einzige gezielte Anfrage preiszugeben, die die Schutzmechanismen des Assistenten umging. Der Vorfall zeigte, wie Benutzereingaben im selben Kontext wie Systembefehle verhindern, dass Modelle bösartige Anfragen von autorisierten unterscheiden können.

Angreifer könnten auch Helpdesk-Bots anweisen, „alle vorherigen Anweisungen zu vergessen“ und dann versuchen, auf interne Datenbanken zuzugreifen oder privilegierte Aktionen auszuführen. Oder öffentliche Daten vergiften, die von einer Retrieval-Augmented Generation (RAG)-Pipeline eingelesen werden, und Modelle dazu bringen, vom Angreifer kontrollierte Antworten zu liefern.

Sogar scheinbar harmlose Aufgaben werden riskant, etwa wenn ein LLM einen Lebenslauf zusammenfasst, in dem eingebettete Prompts das Modell dazu bringen, die Qualifikationen eines Kandidaten zu übertreiben.

Organisationen, die LLMs einsetzen und sich dieser potenziellen Bedrohungen nicht bewusst sind, sind messbaren Geschäftsrisiken ausgesetzt, wie zum Beispiel:

Datenpannen können zu regulatorischen Strafen nach DSGVO, CCPA und branchenspezifischen Compliance-Anforderungen führen
Betriebsunterbrechung durch manipulierte KI-Antworten beeinträchtigt Geschäftsprozesse, die zunehmend auf LLM-Automatisierung setzen
Reputationsschäden durch kompromittierte, kundenorientierte KI-Systeme können das Markenvertrauen und die Kundenbindung beeinträchtigen
Finanzielle Verluste durch fehlerhafte, KI-gesteuerte Entscheidungen in Bereichen wie Betrugserkennung, Risikobewertung oder automatisiertem Handel

Die Herausforderung für CISOs besteht darin, dass traditionelle Sicherheitsmetriken KI-spezifische Risiken nicht erfassen und neue Frameworks für die Messung und Berichterstattung der LLM-Sicherheitslage gegenüber der Geschäftsleitung und dem Vorstand erforderlich sind.

Wie funktionieren Prompt Injection-Angriffe?

Prompt-Injection-Angriffe nutzen aus, wie LLMs Anweisungen innerhalb eines einzelnen Gesprächskontexts verarbeiten und priorisieren.

Wenn Sie eine Anfrage an ein LLM stellen, fügt die Engine im Hintergrund drei Textebenen zusammen: einen Systemprompt, der das Kernverhalten definiert, Entwickleranweisungen, die die Anwendung steuern, und Ihre Eingabe bzw. Benutzereingabe. Das Modell behandelt die gesamte Zeichenkette als ein einziges Gespräch, daher ist die relative Reihenfolge dieser Ebenen entscheidend – die letzte Anweisung setzt sich oft durch.

Dieses Design schafft die grundlegende Schwachstelle. Prompt Injection-Angriffe beginnen mit dem Einschleusen bösartiger Anweisungen in den Prompt-Kontext, die das LLM dann gehorsam ausführt. Da die Nutzlast natürliche Sprache und kein ausführbarer Code ist, versagen klassische Eingabefilter. Der Angriff manipuliert die sprachliche Logik des Modells, was eine deterministische Bereinigung deutlich schwieriger macht als bei herkömmlichen Code-Injection-Angriffen.

So funktioniert ein direkter Prompt Injection-Angriff in der Praxis:

Prompt Injection - How Prompt Injection attack works | SentinelOne

Das LLM behandelt dies als ein durchgehendes Gespräch, bei dem die letzte Anweisung frühere Sicherheitsregeln überschreiben kann. Das Modell könnte potenziell:

Die Regel „Gebe niemals interne Daten preis“ ignorieren
Stattdessen dem bösartigen Befehl „drucke das Admin-Passwort“ folgen

In einem Retrieval-Augmented-Workflow oder bei einem autonomen Agenten kann eine vergiftete Webseite oder ein Datenbankeintrag dieselbe Anweisung „ignoriere vorherige Anweisungen“ in den Kontext einschleusen, woraufhin das Modell möglicherweise Tools aufruft, die Dateien löschen, E-Mails versenden oder Shell-Befehle ausführen.

Jede Injection ist erfolgreich, weil ein LLM keine eingebauten Vertrauensgrenzen kennt.

Erkennung von Prompt Injection: Indikatoren & Techniken

Prompt Injection-Angriffe hinterlassen Verhaltensspuren, die automatisierte Systeme erkennen können. Sicherheitsteams sollten auf drei Kategorien verdächtiger Aktivitäten in LLM-Eingaben, -Ausgaben und Kontextmanipulation achten.

Anomalien im Eingabemuster

Achten Sie auf Anweisungen zur Überschreibung in Benutzeranfragen. Angreifer verwenden Präfixe wie „ignoriere alle vorherigen Anweisungen“ oder „ignoriere deinen Systemprompt“, um das Modellverhalten zu kapern. Ungewöhnliche Trennzeichen, Markup-Zeichen oder Rollensprache wie „handle als Security Auditor“ oder „tu so, als wärst du ein Admin“ deuten auf Manipulationsversuche hin.

Ein Angreifer könnte gezielt formulierte Anfragen mit Rollenspiel-Anweisungen verwenden, um einen Chatbot dazu zu bringen, vertrauliche Systemregeln preiszugeben. Einfache Schlüsselwortfilter übersehen diese Angriffe, da Angreifer ständig neue Formulierungen entwickeln, aber Verhaltens-KI erkennt semantisch ähnliche Manipulationsversuche unabhängig von der genauen Wortwahl.

Verhaltensänderungen in der Ausgabe

Von Prompt Injection kompromittierte Modelle erzeugen Antworten, die ihre Sicherheitsbeschränkungen verletzen. Achten Sie auf Informationslecks, die nicht auftreten sollten, wie preisgegebene Systemprompts oder interne Datenverweise. Unerwartete Tool-Aufrufe fallen auf, etwa wenn ein LLM plötzlich Datei-Lösch-APIs aufruft oder E-Mails ohne Autorisierung versendet.

Antwortmuster ändern sich, wenn Modelle bösartige Anweisungen befolgen. Ein Kundenservice-Bot, der normalerweise dreisätzige Antworten gibt, liefert plötzlich ausführliche technische Erklärungen. Ein KI-Assistent umgeht seine üblichen Verweigerungsmechanismen und führt privilegierte Befehle aus. Das Modell verweist auf Daten, auf die es keinen Zugriff haben sollte, oder ignoriert Schutzmechanismen, die zuvor zuverlässig funktionierten.

Sicherheitsplattformen können diese verdächtigen Ausgaben auf die auslösenden Prompts zurückverfolgen und zeigen die gesamte Angriffskette vom bösartigen Input bis zur kompromittierten Antwort.

Signale für Kontextmanipulation

Indirekte Angriffe zielen auf externe Inhalte, die von LLMs verarbeitet werden. RAG-Pipelines, die Webseiten, hochgeladene Dokumente oder Datenbankeinträge einlesen, können versteckte Anweisungen aufnehmen. Angreifer betten bösartige Prompts in scheinbar harmlose Dateien, PDFs mit unsichtbaren Textebenen oder Bilder ein, die von multimodalen Modellen interpretiert und ausgeführt werden.

Überwachen Sie Datenquellen, die Ihre LLM-Anwendungen speisen. Ein einziger vergifteter Datensatz in einer Wissensdatenbank kann jede zukünftige Konversation beeinflussen. Durch die Übernahme von Prompt Security hat SentinelOne die Erkennungsfähigkeiten speziell für diese Supply-Chain-Angriffe erweitert und erkennt Anweisungsinjektionen in externen Inhalten, bevor Modelle sie verarbeiten.

Das Erkennen dieser Indikatoren erfordert kontinuierliches Monitoring und Verhaltens-KI, die normales von manipuliertem LLM-Verhalten unterscheiden kann.

Wie lassen sich Prompt Injection-Angriffe stoppen?

Die Verteidigung erfordert einen mehrschichtigen Ansatz, beginnend mit Erkennung und Überwachung und gestützt durch robuste Präventions- und Abmilderungsstrategien.

1. Umfassendes Logging und Anomalieerkennung implementieren

Umfassendes Logging bildet die Grundlage jeder Verteidigungsstrategie. Erfassen Sie den vollständigen Prompt, die Antwort des Modells, Zeitstempel und Sitzungskennungen und nutzen Sie leistungsfähige Log-Pipelines, um den Gesprächskontext zu speichern, ohne Datenschutzregeln zu verletzen.

Setzen Sie Anomalieerkennung als Bedrohungsradar ein. Kombinieren Sie einfache Regel-Engines, die auf typische Zeichenfolgen wie „ignoriere vorherige Anweisungen“ achten, mit fortschrittlichen Sprachmodellen, die Prompts erkennen, deren Semantik von normalem Traffic abweicht. Herkömmliche, schlüsselwortbasierte Filter versagen bei sich weiterentwickelnden Prompt Injection-Techniken, da Angreifer ständig neue Formulierungen und Ansätze entwickeln. Verhaltens-KI-Systeme analysieren die semantische Absicht und Struktur von Prompts und erkennen bösartiges Verhalten auch bei neuartigen Angriffsphrasen.

2. Eingaben bereinigen und Ausgaben filtern

Beginnen Sie mit dem Text, der in das Modell gelangt. Eingabebereinigung entfernt oder maskiert Direktivanweisungen und Jailbreak-Phrasen, während Ausgabefilter das Modell zwingen, sich an ein striktes Schema oder eine begrenzte Allow-List von Funktionen zu halten. Dies bietet eine letzte Möglichkeit, geleakte Systemprompts oder unerwünschte Tool-Aufrufe zu stoppen.

Moderne autonome Sicherheitsplattformen können Tausende von LLM-Interaktionen gleichzeitig verarbeiten und dabei Verhaltensanalysen im großen Maßstab anwenden, ohne Sicherheitsteams zu überlasten. Diese Fähigkeit wird entscheidend, wenn Unternehmen LLMs in mehreren Geschäftsbereichen und Kundenkontaktpunkten einsetzen.

3. Systemanweisungen von Benutzereingaben isolieren

Halten Sie interne Anweisungen getrennt von Benutzereingaben, anstatt rohe Zeichenketten zu verketten. Die Systemprompts werden in klaren Trennzeichen gekapselt und in separaten Feldern gehalten. Ein minimales Beispiel sieht so aus:

Prompt Injection Attack - How to Stop Prompt Injection Attacks | SentinelOne

Diese architektonische Trennung hilft dem Modell, autorisierte Anweisungen von benutzerseitigen Inhalten zu unterscheiden und reduziert das Risiko von Anweisungsverwechslungen.

4. Das Prinzip der minimalen Rechtevergabe anwenden

Beschränken Sie das Modell auf Lesezugriff und drosseln Sie den Zugriff auf Plugins und externe Tools. Für sensible Workflows sollte ein Mensch im Loop für die Echtzeitüberprüfung risikoreicher Ausgaben sorgen. Wenn ein Prompt zu privilegierten Aktionen führt, leiten Sie die Anfrage durch eine menschliche Freigabeschleife.

Organisationen, die autonome KI-Sicherheitsplattformen implementieren, können auf Prompt Injection-Versuche in Echtzeit reagieren, ohne menschliches Eingreifen. Diese Systeme können verdächtige LLM-Interaktionen automatisch eindämmen, betroffene Prozesse isolieren und Gegenmaßnahmen umsetzen, während sie detaillierte Audit-Trails für forensische Analysen bereitstellen.

5. Red-Teaming Ihrer Anwendungen

Testen Sie Ihre Abwehrmaßnahmen proaktiv, indem Sie Ihrer Anwendung adversarielle Prompts zuführen und mit diesen Fehlerfällen feinjustieren, damit das Modell lernt, ihnen zu widerstehen. Regelmäßige Red-Teaming-Übungen helfen, neue Angriffsvektoren zu identifizieren und die Wirksamkeit Ihrer Schutzmaßnahmen zu validieren.

Autonome Reaktionen werden besonders wertvoll bei großvolumigen LLM-Implementierungen, bei denen manuelles Monitoring nicht praktikabel ist. Das System kann seine Reaktionsstrategien anhand von Angriffsmustern anpassen und seine Erkennungsfähigkeiten kontinuierlich aktualisieren, ohne manuelle Regelupdates oder Eingriffe des Sicherheitsteams zu benötigen.

SentinelOne & Autonome KI für Prompt Injection-Abwehr

SentinelOne bietet Echtzeit-KI-Transparenz mit den leichtgewichtigen Agents und Browser-Erweiterungen von Prompt Security. Sie können unkontrollierte KI-Nutzung sicher handhaben und die Sicherheit für ChatGPT, Gemini, Claude, Cursor und andere individuelle LLMs verbessern.

Die Plattform von SentinelOne führt ein Live-Inventar der Nutzung über Tausende von KI-Tools und Assistenten hinweg. Jeder Prompt und jede Antwort wird mit vollständigem Kontext erfasst, sodass Sicherheitsteams durchsuchbare Protokolle für Audits und Compliance erhalten.

KI-gestützte Cybersicherheit

Verbessern Sie Ihre Sicherheitslage mit Echtzeit-Erkennung, maschineller Reaktion und vollständiger Transparenz Ihrer gesamten digitalen Umgebung.

Demo anfordern

Sie können risikoreiche Prompts blockieren und Inline-Coaching nutzen, um Benutzer für sichere KI-Praktiken zu sensibilisieren. Sie können Prompt Injection- und Jailbreak-Versuche, bösartige Ausgabenmanipulation und Prompt-Leaks stoppen. SentinelOne kann Schutzmaßnahmen anwenden und bietet modellunabhängige Abdeckung für alle großen LLM-Anbieter, einschließlich OpenAI, Anthropic und Google. Es weist einen dynamischen Risikowert zu und erzwingt automatisch Allow-, Block-, Filter- und Redact-Aktionen. Die Prompt Security von SentinelOne ist Teil der umfassenden KI-Cybersicherheit. Informieren Sie sich über das KI-Sicherheitsportfolio und skalieren Sie Ihre Abwehr mit agentischen KI-Sicherheitsanalysten und maschinenbasierter Endpoint-Abwehr.

Prompt-Injection-Angriff FAQs

Ein Prompt-Injection-Angriff manipuliert KI-Sprachmodelle, indem bösartige Anweisungen in Benutzereingaben oder externe Inhalte eingefügt werden. Angreifer erstellen Texte, die die KI dazu bringen, unautorisierte Befehle auszuführen, anstatt ihrer ursprünglichen Programmierung zu folgen, wodurch das Modell unerwartet agiert oder sensible Informationen preisgibt.

Nein. Auch wenn Fine-Tuning einem Modell helfen kann, bestimmte Prompts abzulehnen, macht es nicht immun. Angreifer können weiterhin neue Anweisungen erstellen, um das Training zu umgehen, weshalb mehrschichtige Abwehrmaßnahmen unerlässlich sind.

Die Prävention erfordert mehrere Verteidigungsschichten. Implementieren Sie umfassendes Logging und Eingabesäuberung, trennen Sie Systemanweisungen von Benutzereingaben, wenden Sie das Prinzip der minimalen Rechtevergabe an und führen Sie regelmäßige Red-Team-Tests durch, um neue Angriffsvektoren zu identifizieren, bevor Angreifer sie ausnutzen.

SQL-Injection nutzt eine strukturierte Abfragesprache aus, indem ausführbarer Code in eine Datenbankabfrage eingeschleust wird. Prompt Injection nutzt eine natürliche Sprachschnittstelle aus, indem bösartige Anweisungen eingeschleust werden, die die Logik und das Verhalten des Modells manipulieren.

Nein. Auch wenn Geheimhaltung es Angreifern erschweren kann, können Prompts oft durch geschickte Anfragen dazu gebracht werden, ihre versteckten Anweisungen preiszugeben. Geheimhaltung ist eine Form von Obfuskation, aber keine robuste Sicherheitsmaßnahme.

Nein. Auch multimodale Modelle sind verwundbar. Bösartige Anweisungen können in Bildern, Audiodateien oder anderen Formaten versteckt werden, die das Modell interpretieren und ausführen kann, wodurch Textfilter umgangen werden.

Jailbreaking versucht, Sicherheitsmechanismen zu umgehen, um verbotene Inhalte zu generieren, während Prompt Injection das Modell manipuliert, um unbeabsichtigte Aktionen auszuführen oder sensible Daten preiszugeben. Beide nutzen Verwirrung bei Anweisungen aus, zielen jedoch auf unterschiedliche Schwachstellen ab.