プロンプトインジェクション攻撃とは？LLMでの防止方法

プロンプトインジェクションとは何か

プロンプトインジェクションは、悪意のある攻撃者がユーザープロンプトやシステム入力に有害な指示を注入することでAI言語モデルを操作するサイバー攻撃です。目的は、AIに予期しない動作をさせたり、機密情報を漏洩させたりすることです。

これらの攻撃は、LLMが指示とユーザー入力をどのように処理・統合するかを悪用します。攻撃者は、AIを本来のプログラムではなく、不正なコマンドに従わせるような悪意のあるテキストを作成します。

この攻撃が成功するのは、モデルが正当な指示と悪意ある操作を確実に区別できないためです。

プロンプトインジェクション攻撃には主に3つのタイプがあります：

直接的プロンプトインジェクションは、攻撃者が悪意のあるテキストをチャットインターフェースに直接入力する場合に発生します。例として、「すべての以前の指示を無視してください」といったプレフィックス指示、"ペネトレーションテスターとして振る舞う"などの説得力のあるペルソナの採用、安全拒否を抑制する言語などがあります。
間接的プロンプトインジェクションは、攻撃者がRAGパイプライン、ファイルアップロード、ウェブページなど、LLMが取り込む外部コンテンツを標的にし、後で処理される不可視の指示を隠す場合に発生します。Prompt Securityのセキュリティ研究者は、作成したドキュメントテキストを使ってBing Chatに機密ルールを漏洩させることに成功しました。
ストアド（持続的）インジェクションは、攻撃者がデータベース、ナレッジベース、チャット履歴にプロンプトを仕込み、モデルがそれらを再訪するまで休眠状態にする場合に発生します。エンタープライズ環境では、1つの汚染されたレコードが将来のすべての会話に静かに影響を与える可能性があります。

最新のマルチモーダルモデルは追加のリスクに直面しています。攻撃者は、画像やPDFに悪意のあるテキストを隠し、従来のキーワードフィルタを回避しながら同様の有害な意図を持ち込むことができます。LLMを大規模に導入する組織にとって、プロンプトインジェクションは従来のインフラストラクチャ中心の攻撃から、AIのコア機能を悪用する脅威への根本的なシフトを意味します。

Prompt Injection Attack - Featured Image | SentinelOne

プロンプトインジェクションがAIシステムに与える影響とリスク

1つの汚染されたプロンプトでAI導入全体が危険にさらされる可能性があります。攻撃者が注入した指示によってLLMの挙動が操作されると、組織は測定可能なビジネス上の影響を受けます。

リスクは3つのカテゴリに分類されます：

操作された出力によるデータ流出：攻撃者はモデルにアクセス制御を回避させ、システムプロンプト、内部ドキュメント、顧客データ、学習データに埋め込まれた独自のビジネスロジックなどの機密情報を漏洩させます。
AIアシスタントの侵害による業務妨害：操作されたチャットボットが不正取引を承認したり、ヘルプデスクボットが不正アクセスを許可したり、自律エージェントがファイル削除やデータベース破損などの破壊的コマンドを実行したりします。
汚染された学習データによるサプライチェーンリスク：公開データセットやウェブスクレイピングコンテンツに休眠状態の指示が隠されており、モデルがRAGパイプライン経由で取り込むと、それに依存するすべての下流アプリケーションに影響します。

これらのリスクにより、プロンプトインジェクションはLLM技術を導入するすべての組織にとって重大な懸念事項となります。これらの攻撃手法を理解するセキュリティチームは、インシデント発生前に多層防御を構築できます。

プロンプトインジェクション攻撃を理解する重要性

プロンプトインジェクション攻撃は、従来のサイバーセキュリティフレームワークでは対処できないビジネスリスクを生み出します。従来のインフラストラクチャを標的とする攻撃とは異なり、プロンプトインジェクションはAIシステムのコア機能を悪用するため、すべてのLLM導入が攻撃者の潜在的な侵入口となります。

例えば、スタンフォード大学の研究者が、1つの巧妙なクエリでBing Chatの機密システムプロンプトをガードレールを回避して漏洩させることに成功しました。このインシデントは、ユーザー入力とシステムコマンドが同じコンテキストに存在することで、モデルが悪意あるリクエストと正当なものを区別できなくなることを示しました。

攻撃者はまた、ヘルプデスクボットに「すべての以前の指示を忘れてください」と指示し、内部データベースへのアクセスや特権操作の実行を試みることもできます。あるいは、RAGパイプラインで取り込まれる公開データを汚染し、モデルに攻撃者が制御する回答を返させることも可能です。

LLMが履歴書を要約する際に、埋め込まれたプロンプトによって候補者の資格を過大評価させるなど、一見無害なタスクでもリスクが生じます。

これらの潜在的脅威を認識していないLLM導入組織は、以下のような測定可能なビジネスリスクに直面します：

データ漏洩インシデントは、GDPR、CCPA、業界固有のコンプライアンス要件に基づく規制上の罰則を引き起こす可能性があります
AI応答の操作による業務妨害は、LLM自動化に依存するビジネスプロセスに影響します
顧客向けAIシステムの侵害による評判の毀損は、ブランド信頼や顧客維持に影響を与えます
詐欺検知、リスク評価、自動取引などにおけるAI主導の誤判断による財務損失

CISOにとっての課題は、従来のセキュリティ指標がAI特有のリスクを捉えられず、LLMのセキュリティ状況を経営層や取締役会に報告するための新たなフレームワークが必要となることです。

プロンプトインジェクション攻撃の仕組み

プロンプトインジェクション攻撃は、LLMが単一の会話コンテキスト内で指示をどのように処理・優先するかを悪用します。

LLMにクエリを送信すると、エンジンはシステムプロンプト（コア動作を定義）、開発者指示（アプリケーションを形成）、ユーザー入力の3層のテキストを静かに連結します。モデルはこの全体を1つの会話として扱うため、これらの層の相対的な順序がすべてであり、最後の指示が優先されることが多いです。

この設計が根本的な脆弱性を生み出します。プロンプトインジェクション攻撃は、プロンプトコンテキストに悪意のある指示を挿入することから始まり、LLMはそれを忠実に実行します。ペイロードが実行可能コードではなく自然言語であるため、従来の入力フィルタでは防げません。この攻撃はモデルの言語的論理を操作するため、従来のコードインジェクションよりも決定的なサニタイズが困難です。

直接的プロンプトインジェクション攻撃の実際の動作例は以下の通りです：

Prompt Injection - How Prompt Injection attack works | SentinelOne

LLMはこれを1つの連続した会話として扱い、最後の指示が以前の安全ルールを上書きする可能性があります。モデルは以下のような動作をする可能性があります：

「内部データを決して公開しない」というルールを無視する
代わりに「管理者パスワードを表示する」という悪意のあるコマンドに従う

RAGワークフローや自律エージェントでは、汚染されたウェブページやデータベースレコードが同じ「以前の指示を無視する」指示をコンテキストに紛れ込ませ、モデルがファイル削除、メール送信、シェルコマンド実行などのツールを呼び出す場合があります。

すべてのインジェクションが成功するのは、LLMに信頼境界の概念が組み込まれていないためです。

プロンプトインジェクションの検知：インジケーターと手法

プロンプトインジェクション攻撃は、自動システムが検知できる行動的な痕跡を残します。セキュリティチームは、LLMの入力、出力、コンテキスト操作における3つのカテゴリの不審な活動を監視する必要があります。

入力パターンの異常

ユーザーのクエリ内の指示上書きフレーズに注意してください。攻撃者は「すべての以前の指示を無視してください」や「システムプロンプトを無視してください」といったプレフィックスを使い、モデルの挙動を乗っ取ります。異常なデリミタ、マークアップ文字、「セキュリティ監査人として振る舞う」「管理者になりきる」などのペルソナ採用言語も操作の試みを示します。

攻撃者は、ロールプレイ指示を含む巧妙なクエリを使ってチャットボットに機密システムルールを漏洩させることがあります。単純なキーワードフィルタではこれらの攻撃を見逃しますが、行動AIは特定の表現に依存せず意味的に類似した操作の試みを検知します。

出力挙動の変化

プロンプトインジェクションで侵害されたモデルは、安全制約に違反する応答を生成します。漏洩してはならないシステムプロンプトや内部データの参照など、情報漏洩に注意してください。LLMが突然ファイル削除APIを呼び出したり、無許可でメールを送信したりするなど、予期しないツール呼び出しも目立ちます。

モデルが悪意のある指示に従うと応答パターンが変化します。通常は3文程度の回答をするカスタマーサービスボットが、突然冗長な技術的説明を生成する場合があります。AIアシスタントが通常の拒否メカニズムを回避し、特権コマンドを実行することもあります。モデルが本来アクセスできないデータを参照したり、これまで一貫して機能していたガードレールを無視したりする場合もあります。

セキュリティプラットフォームは、これらの不審な出力をトリガーとなったプロンプトまで追跡し、悪意のある入力から侵害された応答までの攻撃チェーン全体を可視化します。

コンテキスト操作のシグナル

間接攻撃は、LLMが取り込む外部コンテンツを標的にします。RAGパイプラインがウェブページ、アップロードドキュメント、データベースレコードを取り込む際、隠された指示が混入する可能性があります。攻撃者は、一見無害なファイル、不可視テキストレイヤー付きPDF、指示を含む画像などに悪意のあるプロンプトを埋め込み、マルチモーダルモデルがそれを解釈・実行します。

LLMアプリケーションに供給されるデータソースを監視してください。ナレッジベース内の1つの汚染レコードが将来のすべての会話に影響を与える可能性があります。SentinelOneによるPrompt Securityの買収により、これらのサプライチェーン攻撃に特化した検知能力が拡張され、モデルが処理する前に外部コンテンツ内の指示注入の試みを特定できます。

これらのインジケーターを検知するには、継続的な監視と、通常と操作されたLLM挙動を理解する行動AIが必要です。

プロンプトインジェクション攻撃の防止方法

防御には多層的なアプローチが必要であり、検知・監視から堅牢な予防・緩和策までが求められます。

1. 包括的なロギングと異常検知の実装

包括的なロギングはあらゆる防御戦略の基盤です。完全なプロンプト、モデルの応答、タイムスタンプ、セッション識別子を記録し、高ボリュームのログパイプラインで会話コンテキストを保持しつつプライバシールールを遵守します。

異常検知を脅威レーダーとして導入します。「以前の指示を無視してください」などの特徴的な文字列を監視する単純なルールエンジンと、通常トラフィックから意味的に逸脱したプロンプトを検知する高度な言語モデルを組み合わせます。従来のキーワードベースフィルタは進化するプロンプトインジェクション技術に対応できません。行動AIシステムはプロンプトの意味的意図や構造パターンを分析し、特定の攻撃フレーズが新規であっても悪意のある挙動を特定します。

2. 入力のサニタイズと出力のフィルタリング

モデルに入力されるテキストから始めます。入力サニタイズは指示動詞やジェイルブレイクフレーズを除去またはエスケープし、出力フィルタリングはモデルに厳格なスキーマや許可された関数のリストに従わせます。これにより、システムプロンプトの漏洩や不正なツール呼び出しを最後の段階で阻止できます。

最新の自律型セキュリティプラットフォームは、数千件のLLMインタラクションを同時に処理し、セキュリティチームに負担をかけずに行動分析を大規模に適用できます。組織が複数の業務や顧客接点でLLMを展開する際、この能力は極めて重要です。

3. システム指示とユーザー入力の分離

内部指示をユーザー入力と連結せず、分離して保持します。システムプロンプトを明確なデリミタで囲み、別フィールドで管理します。最小限の例は以下の通りです：

Prompt Injection Attack - How to Stop Prompt Injection Attacks | SentinelOne

このアーキテクチャ上の分離により、モデルは正規の指示とユーザー提供コンテンツを区別しやすくなり、指示混同のリスクが低減します。

4. 最小権限の原則の適用

モデルを読み取り専用データに制限し、プラグインや外部ツールへのアクセスを制御します。機密性の高いワークフローでは、人間によるリアルタイムレビューを維持し、特権操作を伴うプロンプトは人間の承認キューを経由させます。

自律型AIセキュリティプラットフォームを導入する組織は、プロンプトインジェクションの試みに対しリアルタイムで対応できます。これらのシステムは、不審なLLMインタラクションを自動的に封じ込め、影響を受けたプロセスを隔離し、詳細な監査証跡を維持しつつ対策を実施できます。

5. アプリケーションのレッドチーム演習

敵対的プロンプトをアプリケーションに投入し、その失敗例でファインチューニングすることで防御力を積極的にテストします。定期的なレッドチーム演習は、新たな攻撃ベクトルの特定や防御策の有効性検証に役立ちます。

手動監視が非現実的な大規模LLM導入では、自律型対応が特に有効です。システムは攻撃パターンに基づき対応戦略を適応させ、手動ルール更新やセキュリティチームの介入なしに検知能力を継続的に更新できます。

SentinelOneとプロンプトインジェクション防御のための自律型AI

SentinelOneは、プロンプトセキュリティの軽量エージェントとブラウザ拡張機能により、リアルタイムのAI可視化を提供します。管理されていないAI利用にも自信を持って対応でき、ChatGPT、Gemini、Claude、Cursor、その他のカスタムLLMのセキュリティを強化できます。

SentinelOneのプラットフォームは、数千のAIツールやアシスタントにわたる利用状況をライブでインベントリ管理します。すべてのプロンプトと応答が完全なコンテキストで記録され、セキュリティチームは監査やコンプライアンスのために検索可能なログを利用できます。

AIを活用したサイバーセキュリティ

リアルタイムの検知、マシンスピードのレスポンス、デジタル環境全体の可視化により、セキュリティ態勢を強化します。

デモを見る

高リスクなプロンプトをブロックし、インラインコーチングでユーザーに安全なAI利用を啓発できます。プロンプトインジェクションやジェイルブレイクの試み、悪意のある出力操作、プロンプト漏洩を阻止できます。SentinelOneは、OpenAI、Anthropic、Googleを含む主要なLLMプロバイダーすべてに対してモデル非依存のカバレッジを提供し、セーフガードを適用できます。動的リスクスコアを割り当て、許可・ブロック・フィルタ・マスキングの各アクションを自動的に適用します。SentinelOneのプロンプトセキュリティは、AIサイバーセキュリティ全体の一部です。AIセキュリティポートフォリオを確認し、エージェンティックAIセキュリティアナリストやマシンスピードのエンドポイント防御で防御を拡張してください。

プロンプトインジェクション攻撃に関するFAQ

プロンプトインジェクション攻撃は、ユーザー入力や外部コンテンツに悪意のある命令を挿入することでAI言語モデルを操作します。攻撃者は、AIが本来のプログラムではなく不正なコマンドに従うようにテキストを作成し、モデルが予期しない動作をしたり、機密情報を漏洩させたりする原因となります。

いいえ。ファインチューニングによって特定のプロンプトを拒否するようモデルを学習させることはできますが、完全な防御にはなりません。攻撃者は新たな命令を作成して学習を回避できるため、多層的な防御が不可欠です。

防御には複数のレイヤーが必要です。包括的なログ記録と入力サニタイズを実施し、システム命令とユーザー入力を分離し、最小権限の原則を適用し、定期的なレッドチームテストを行って攻撃者が悪用する前に新たな攻撃経路を特定してください。

SQLインジェクションは、実行可能なコードをデータベースクエリに紛れ込ませることで構造化クエリ言語を悪用します。プロンプトインジェクションは、自然言語インターフェースを悪用し、モデルのロジックや動作を操作する悪意のある命令を紛れ込ませます。

いいえ。秘密にすることで攻撃者の難易度は上がりますが、巧妙なクエリによってプロンプトが隠された命令を明かすことがあります。秘密保持は難読化の一種であり、堅牢なセキュリティ対策ではありません。

いいえ。マルチモーダルモデルも脆弱です。悪意のある命令は画像、音声ファイル、その他の形式に隠すことができ、モデルがそれを解釈して実行し、テキストのみのフィルターを回避する可能性があります。

ジェイルブレイクは安全ガードレールを回避して禁止されたコンテンツを生成しようとする試みであり、プロンプトインジェクションはモデルを操作して意図しない動作や機密データの漏洩を引き起こします。どちらも命令の混乱を悪用しますが、異なる脆弱性を標的としています。