2025年 Gartner®エンドポイント保護プラットフォーム部門のMagic Quadrant™で、5年連続リーダーの1社と評価されました。Gartner® Magic Quadrant™のリーダーレポートを読む
侵害に遭いましたか?ブログ
今すぐ始めるお問い合わせ
Header Navigation - JP
  • プラットフォーム
    プラットフォーム概要
    • Singularity Platform
      統合エンタープライズセキュリティへようこそ
    • セキュリティのためのAI
      AIを活用したセキュリティソリューションのリーダー
    • AIのセキュリティ確保
      安全なAIツール、アプリ、エージェントでAI導入を加速します。
    • Singularity XDRの仕組み
      Singularity XDRの違い
    • Singularity Marketplace
      XDRのパワーを引き出すワンクリック統合
    • 価格 & パッケージ
      比較とガイダンス一覧
    Data & AI
    • Purple AI
      生成AIでSecOpsを加速
    • Singularity Hyperautomation
      セキュリティプロセスの自動化を容易に
    • AI-SIEM
      自律型SOCのためのAI SIEM
    • AI Data Pipelines
      AI SIEMおよびデータ最適化のためのセキュリティデータパイプライン
    • Singularity Data Lake
      AIを活用した統合データレイク
    • Singularity Data Lake for Log Analytics
      オンプレミス、クラウド、ハイブリッド環境からのデータのシームレスな取り込み
    Endpoint Security
    • Singularity Endpoint
      自律型の防御、検知、対応
    • Singularity XDR
      ネイティブ&オープンな保護、検知、対応
    • Singularity RemoteOps Forensics
      フォレンジック調査の大規模オーケストレーション
    • Singularity Threat Intelligence
      包括的な脅威インテリジェンス
    • Singularity Vulnerability Management
      不正アセットの発見
    • Singularity Identity
      アイデンティティの脅威検知と対応
    Cloud Security
    • Singularity Cloud Security
      AIを活用したCNAPPで攻撃をブロック
    • Singularity Cloud Native Security
      クラウドと開発リソースのセキュリティ
    • Singularity Cloud Workload Security
      リアルタイムクラウドワークロード保護プラットフォーム
    • Singularity Cloud Data Security
      AIによる脅威検知
    • Singularity Cloud Security Posture Management
      クラウドの設定ミスの検出と修正
    AIの保護
    • Prompt Security
      企業全体でAIツールを保護
  • SentinelOneが選ばれる理由
    SentinelOneが選ばれる理由
    • SentinelOneが選ばれる理由
      次世代に向けて開発されたサイバーセキュリティ
    • 私たちのお客様
      世界中の一流企業から得られる信頼
    • 業界認知度
      アナリストにより認められた評価
    • SentinelOneについて
      自律型サイバーセキュリティのリーダー
    センチネルワンを比較
    • Arctic Wolf
    • Broadcom
    • CrowdStrike
    • Cybereason
    • Microsoft
    • Splunk
    • Palo Alto Networks
    • Sophos
    • Trend Micro
    • Trellix
    • Wiz
    業界別
    • エネルギー
    • 政府・公的機関
    • 金融
    • ヘルスケア
    • 高等教育機関
    • 義務教育機関
    • 製造
    • リテール
    • 地方公共団体
  • サービス
    マネージドサービス
    • マネージドサービス概要
      Wayfinder Threat Detection & Response
    • Threat Hunting
      世界水準の専門知識と脅威インテリジェンス。
    • Managed Detection & Response
      環境全体を対象とした 24/7/365 の専門MDR。
    • Incident Readiness & Response
      DFIR、侵害対応準備 & 侵害評価。
    サポート、導入、管理
    • テクニカルアカウント管理
      パーソナライズされたサービスを提供するカスタマーサクセス
    • SentinelOne GO
      初回研修と導入のアドバイスサービス
    • SentinelOne University
      ライブおよびオンデマンドのトレーニング
    • サービス概要
      シームレスなセキュリティ運用を実現する包括的ソリューション
    • SentinelOne コミュニティ
      コミュニティへのログイン
  • パートナー
    パートナー
    • MSSP パートナー
      SentinelOneと共に成功を手に入れる
    • Singularity Marketplace
      S1テクノロジーの持つ機能を拡張する
    • サイバーリスクパートナー
      対応とアドバイザリーの専門家集団に参加
    • テクノロジー提携
      統合されたエンタープライズ規模のソリューション
    • SentinelOne for AWS
      世界各地のAWSでホスティング
    • チャネルパートナー
      協業し適切なソリューションを届ける
    • SentinelOne for Google Cloud
      統合された自律型セキュリティにより、防御側にグローバル規模での優位性を提供します。
    プログラム概要→
  • リソース
    リソースセンター
    • お客様の事例
    • データシート
    • 電子本
    • ビデオ
    • ウェビナー
    • ホワイトペーパー
    • Events
    リソースを全て見る→
    ブログ
    • 特集
    • CISO/CIO向け
    • 最前線からお届け
    • アイデンティティ
    • クラウド
    • macOS
    • SentinelOne ブログ
    ブログ→
    テクノロジーリソース
    • SentinelLABS
    • ランサムウェア辞典
    • サイバーセキュリティ必須用語集
  • 会社概要
    SentinelOneについて
    • SentinelOneについて
      サイバーセキュリティ業界のリーダー
    • SentinelLABS
      現代の脅威ハンターのための脅威調査
    • 採用情報
      最新の求人
    • プレスリリース
      会社情報のお知らせ
    • サイバーセキュリティ ブログ
      最新のサイバーセキュリティの脅威やニュース
    • FAQ
      よくある質問と回答
    • データセット
      ライブデータプラットフォーム
    • S Foundation
      すべての人のためにより安全な未来を確保する
    • S Ventures
      次世代のセキュリティとデータへの投資
今すぐ始めるお問い合わせ
Background image for プロンプトハッキングとは?攻撃の防止方法
Cybersecurity 101/サイバーセキュリティ/プロンプトハッキング

プロンプトハッキングとは?攻撃の防止方法

プロンプトハッキングのリスク、攻撃者がAIシステムを操作するために用いる欺瞞的な手法、その防御方法について学びます。

CS-101_Cybersecurity.svg
目次
プロンプトハッキングとは?
プロンプトハッキング攻撃が問題となる理由
プロンプトハッキング攻撃の4つのカテゴリ
プロンプトハッキング攻撃の防止方法
1. 入力の検証とサニタイズ
2. システム指示のパラメータ化
3. 出力のフィルタリングと後処理
4. LLM環境の分離
5. 最小権限制御の実装
6. 継続的な異常監視
検知と復旧の戦略
インシデント対応&復旧プレイブック
攻撃を未然に防ぐ

関連記事

  • CMMCチェックリスト:DoD請負業者向け監査準備ガイド
  • DORA規則とは何か?EUデジタルレジリエンスフレームワーク
  • セッションフィクセーションとは?攻撃者がユーザーセッションを乗っ取る手法
  • エシカルハッカー:手法、ツール、キャリアパスガイド
著者: SentinelOne
最終更新: September 17, 2025

AIは私たちの日常生活で利用されています。LLMが仕事や学校の課題、買い物の手助け、税金の計算、あるいはパーソナルアシスタントとしてあらゆる分野を席巻する中で、大量の情報がオンラインで保存・送信されています。プロンプトハッカーは、LLMが設計上安全でもセキュアでもないことを理解しています。

そして、これが彼らにとって機密情報を乗っ取る絶好の機会となります。AIを誤った方向に誘導し、意図せず秘密を漏らすのに必要なのは、たった1つのプロンプトだけです。本ガイドでは、プロンプトハッキングとは何かを解説します。仕組みや防御方法などについて、以下でご紹介します。

Prompt Hacking - Featured Image | SentinelOne

プロンプトハッキングとは?

プロンプトハッキングとは、セキュリティ制御を上書きしたり、意図しない応答を引き出すために、慎重に作成された入力を用いてAI言語モデルを意図的に操作する行為です。これらの回避攻撃は、大規模言語モデル(LLM)が自然言語処理において正当な指示と悪意のあるコマンドを区別できないことを悪用し、モデルがすべてのテキストを同等の権威として扱う傾向を利用します。

攻撃者は、カスタマーサポートチャットボット、コンテンツアナライザー、AIが取り込む侵害されたサードパーティデータフィードなど、複数のエントリーポイントからアクセスを得ます。プロンプトインジェクション攻撃は訓練済みモデルに理論的なリスクをもたらしますが、最新のチャットボットはシステムレベルのセキュリティを上書きする埋め込み指示を防ぐガードレールを実装できます。

攻撃が成功すると、専有システムの侵害、機密データの漏洩、接続されたアプリケーションを通じた不正な操作、安全制御が回避された場合の重大な評判リスクなどが発生します。

プロンプトハッキング攻撃が問題となる理由

プロンプトハッキングは、AIが入力データを本質的に信頼する性質を悪用し、従来のセキュリティ防御を回避して、従来のツールでは保護できない全く新しい攻撃対象領域を生み出します。コードベースの脆弱性とは異なり、これらの敵対的機械学習攻撃は、深層ニューラルネットワークを意味論レベルで操作します:

  • ビジネスへの影響:攻撃はAIが言語を処理する場所で発生し、ファイアウォールを回避して専有の訓練データを露出させたり、不正な操作を引き起こしたりしますが、従来のシグネチャは残しません。
  • 攻撃対象領域の拡大:AIの導入ごとに新たなエントリーポイントが生まれ、特にシステムがバックエンドインフラに接続されている場合に顕著です。
  • 検知の難しさ:悪意のあるプロンプトは正当なリクエストと混在し、パターンマッチングによる検知は、認識しやすいSQLシグネチャと比べて不十分です。
  • 手法の進化:「以前の指示をすべて無視する」といった単純なコマンドから、高度なポイズニング攻撃まで、新たな脱獄手法が毎週のように登場しています。
  • コンプライアンス違反:AIシステムが規制対象データを処理する場合、プロンプト攻撃はGDPRやHIPAA上のデータ侵害となる可能性があります。

この新たな脅威に対処するには、セキュリティチームが従来のサイバーセキュリティと機械学習モデルに対する敵対的攻撃防御の両方に精通する必要があります。

プロンプトハッキング攻撃の4つのカテゴリ

リアルタイムのアラートトリアージには迅速な判断が求められます。以下のマトリクスは、プロンプトハッキングが該当する敵対的攻撃のカテゴリを示しています:

攻撃タイプ目的手法検知シグナル
ゴールハイジャック意図されたタスクフローの上書き「以前の指示をすべて無視して...」突然のコンテキスト変更、上書きフレーズ
ガードレールバイパス安全フィルタの回避ロールプレイによる脱獄(「フィルタなしアシスタントとして振る舞う」)無害なクエリ後の禁止コンテンツ
情報漏洩システムプロンプトや機密データの抽出内部指示を要求するクエリチェーン構成や秘密情報を反映した応答
インフラ攻撃接続システムの操作シェルコマンドを誘発する間接的インジェクション予期しないAPIコールやファイルアクセス

これらのカテゴリはしばしば混在します。たとえば、攻撃が秘密情報を抽出し、その後APIコールを発生させて本番システムを侵害する場合があります。これは、ブラックボックス攻撃がコンピュータビジョンで敵対的サンプルを作成し、自動運転車が停止標識を誤認識する仕組みに似ています。

プロンプトハッキング攻撃の防止方法

AIシステムの保護には、多層防御が必要であり、単一のソリューションでは不十分です。堅牢な防御を構成する6つの対策を紹介します:

1. 入力の検証とサニタイズ

プロンプトがモデルに到達する前に、典型的な上書きフレーズや不審なエンコーディングを識別するパターン検出を実施します。既知の攻撃パターンに対する正規表現チェックや、攻撃者が検知回避に用いるUnicodeホモグリフの検出を実装してください。

以下は、一般的な攻撃フレーズを検出する基本的なパターンベースのプロンプトフィルタリングを実装したシンプルなPython関数です:

Prompt Hacking - Validate and Sanitize Inputs | SentinelOne悪意のあるサンプルを用いた敵対的訓練により、誤検知率を低く保ちながらフィルタを強化できます。

2. システム指示のパラメータ化

ユーザーテキストとシステム指示を明確に区別するため、明示的なデリミタを使用します。ユーザー入力を(例:<|user|>{input}<|end|>)のようなマーカーで囲み、モデルが信頼できない内容を特権コマンドと混同しないようにします。

防御的蒸留技術は、機械学習モデルが入力データの操作に耐性を持つのに役立ちます。

3. 出力のフィルタリングと後処理

すべてのモデル応答を配信前に複数の安全レイヤで検査します。有害性分類器やポリシーエンジンを実装し、基準に違反するコンテンツを拒否できるようにします。ホワイトボックス攻撃者が段階的に権限を昇格させる「ガードレールプロービング」を監視するステートフルチェックを追加してください。

4. LLM環境の分離

言語モデルを専用コンテナでホストし、コアデータストアから完全に分離します。すべてのAPIコールを厳格にスコープされたプロキシ経由でルーティングし、外部リソースへのアクセスを制限します。このコンテナ化により、攻撃者がモデルを操作してシェルコマンドやデータ流出を試みても、サンドボックスが実行を防ぎます。

5. 最小権限制御の実装

LLMには最小限の認証情報のみを付与し、ナレッジベースへの読み取り専用アクセスとし、管理権限は与えません。短期間有効なAPIキーやきめ細かなRBACを利用し、プロンプト攻撃が高価値システムへの権限昇格につながらないようにします。

6. 継続的な異常監視

すべてのLLMインタラクションをセキュリティイベントとして扱い、プロンプトと応答を不変ストレージに記録します。このテレメトリを既存のセキュリティ監視システムに取り込み、異常パターンを特定します。SentinelOne Singularity Platformは、このアプローチを自動化し、アラート件数を88%削減する例です。

シンギュラリティ・プラットフォーム

リアルタイムの検知、マシンスピードのレスポンス、デジタル環境全体の可視化により、セキュリティ態勢を強化します。

デモを見る

検知と復旧の戦略

プロンプト、ユーザー識別子、タイムスタンプ、モデル応答を安全なストレージに保存し、セッションを再現して悪意のある指示がどのようにすり抜けたかを追跡します。ログをSIEMに取り込み、攻撃シグネチャを検出するルールを展開します:

  • 難読化されたペイロード: 大きなBase64文字列は、隠された指示を持ち込もうとする試みの兆候であることが多い
  • コンテキストの上書き: 「以前の指示をすべて無視して」などのフレーズ
  • 異常なボリューム: 単一のAPIキーからの提出が急増

攻撃が確認された場合、侵害されたコンポーネントを隔離し、漏洩したAPIキーを無効化し、下流コネクタを停止します。キャッシュから注入されたコンテキストを消去し、脆弱なシステムプロンプトを修正し、発見されたペイロードのバリアントをブロックするようフィルタを微調整します。すべての手順をインシデントレポートテンプレートに記録してください。

インシデント対応&復旧プレイブック

堅牢な防御を施していても、執拗な攻撃者がガードレールを突破する可能性は残ります。その際は、攻撃と同じスピードで動くプレイブックが必要です。

  • まず、悪意のあるプロンプトを特定することから始めます。 すべてのリクエストと応答を継続的に記録することで、モデルがたどった指示チェーンを正確に追跡できます。「以前の指示を無視」やbase64ブロブなどの特徴的な文字列をパターンマッチングすることで、ほぼリアルタイムで不審な活動を検出できます。
  • 攻撃を確認したら、侵害されたコンポーネントを隔離して封じ込めに移行します。新しいサンドボックスインスタンスを立ち上げ、プロンプトで漏洩した可能性のあるAPIキーを無効化し、ユーザーセッションを制限します。LLMがエージェントワークフローに組み込まれている場合は、下流コネクタを一時的に無効化し、操作されていないことを確認します。
  • 次に、根絶を実行し、キャッシュや「メモリ」機能から注入されたコンテキストを消去し、脆弱なシステムプロンプトを修正し、発見されたペイロードバリアントをブロックするようフィルタを微調整します。一般的なサイバーセキュリティのベストプラクティスとして、侵害後に指示テンプレートを更新することが多層防御の一環となり、再発リスクの低減に役立ちます。
  • 最後に、クロスファンクショナルな振り返りとロールバックテストによる教訓の整理を行い、セキュリティエンジニア、機械学習スペシャリスト、コンプライアンス担当者が参加します。業界専門家は、インシデント後のモデル挙動を「人間が介在」してレビューし、復元されたプロンプトを承認することを推奨しています。

悪意のあるプロンプト、影響範囲、タイムライン、是正措置を記録するインシデントレポートテンプレートに、すべての手順を文書化してください。セキュリティチームは、これらのテストと振り返りを組み合わせて、プロンプトが再び破壊的な変更を引き起こした場合でも、インフラを即座にロールバックできることを確認します。

攻撃を未然に防ぐ

プロンプトハッキングは、会話型インターフェースを従来のセキュリティを回避する攻撃ベクトルに変えます。コンピュータビジョンシステムが停止標識を誤認識させられるのと同様に、言語モデルも巧妙に作成された入力によって操作される可能性があります。

防御には、入力検証、出力フィルタリング、環境分離、継続的監視、敵対的訓練など複数のアプローチが必要です。パラメータ化されたプロンプトのような即効性のある対策は即座に防御力を高め、サンドボックス化への投資はレジリエントなシステムを構築します。

プロンプトセキュリティは一度きりの実装ではなく、継続的な取り組みとして捉えてください。攻撃者は検知回避の新手法を次々と生み出します。AI開発ライフサイクルにセキュリティレビューを組み込む組織は、あらゆる会話を潜在的な侵害とみなす攻撃者よりも一歩先を行くことができます。

ここで紹介したフレームワークは、巧妙に作成された次の一文が防御を突破する前に、保護を構築するための基盤となります。

プロンプトハッキングに関するFAQ

防御対象は悪意のあるコードではなく、言語的な操作です。攻撃者はLLMがすべてのテキストを同等に権威あるものとして扱う傾向を悪用します。

はい。プライベートモデルも同様の脆弱性を抱えています。内部関係者や侵害されたデータソースが、モデルが無条件に従う隠れた指示を注入する可能性があります。

プロンプトを利用したデータ流出は、他の侵害と同様のコンプライアンス上の責任を生じさせます。1件のプロンプト漏洩でもGDPRやHIPAAなどの制裁が発生する可能性があります。

フィルタ、ログ、システムプロンプトは少なくとも月次、またはモデル更新後に見直してください。脅威アクターは迅速に手法を進化させており、AI支援型攻撃も常に加速しています。

エンジニアリングリテラシー、クロスモーダル脅威分析、継続的なレッドチーミングがAIセキュリティ職の中核的な能力となります。

詳しく見る サイバーセキュリティ

敵対的攻撃とは?脅威と防御策サイバーセキュリティ

敵対的攻撃とは?脅威と防御策

敵対的攻撃に対抗し、AIを活用した脅威による不意打ちを防ぎましょう。SentinelOneがコンプライアンス状況やセキュリティ体制をどのように強化し、保護を維持できるかをご確認ください。

続きを読む
政府機関におけるサイバーセキュリティ:リスク、ベストプラクティス、フレームワークサイバーセキュリティ

政府機関におけるサイバーセキュリティ:リスク、ベストプラクティス、フレームワーク

政府機関や団体がサイバーセキュリティの分野で直面しているリスクや脅威についてご確認ください。また、政府システムを保護するためのベストプラクティスも解説しています。詳細は本文をご覧ください。

続きを読む
インセキュア・ダイレクト・オブジェクト・リファレンス(IDOR)とは?サイバーセキュリティ

インセキュア・ダイレクト・オブジェクト・リファレンス(IDOR)とは?

インセキュア・ダイレクト・オブジェクト・リファレンス(IDOR)は、所有権の確認が行われないことで、攻撃者がURLパラメータを変更するだけで他のユーザーのデータを取得できてしまうアクセス制御の脆弱性です。検出方法と防止策について解説します。

続きを読む
ITとOTのセキュリティ:主な違いとベストプラクティスサイバーセキュリティ

ITとOTのセキュリティ:主な違いとベストプラクティス

ITとOTのセキュリティは、異なるリスクプロファイル、コンプライアンス要件、運用上の優先事項を持つ2つの領域を対象としています。主な違いとベストプラクティスを学びましょう。

続きを読む
最先端のサイバーセキュリティ・プラットフォームを体験しよう

最先端のサイバーセキュリティ・プラットフォームを体験しよう

世界で最もインテリジェントで自律的なサイバーセキュリティ・プラットフォームが、お客様の組織を現在から将来にわたってどのように保護できるかをご覧ください。

デモを見る
  • スタート
  • デモのお申し込み
  • 製品ツアー
  • SentinelOneが選ばれる理由
  • 価格 & パッケージ
  • FAQ
  • お問い合わせ
  • お問い合わせ
  • サポート
  • SentinelOne Status
  • 言語
  • プラットフォーム
  • Singularity Platform
  • Singularity Endpoint
  • Singularity Cloud
  • Singularity AI-SIEM
  • Singularity Identity
  • Singularity Marketplace
  • Purple AI
  • サービス
  • Wayfinder TDR
  • SentinelOne GO
  • テクニカルアカウント管理
  • サポートサービス
  • 業界別
  • エネルギー
  • 政府・公的機関
  • 金融
  • ヘルスケア
  • 高等教育機関
  • 義務教育機関
  • 製造
  • リテール
  • 地方公共団体
  • Cybersecurity for SMB
  • リソース
  • ブログ
  • Labs
  • お客様の事例
  • 電子本
  • 製品ツアー
  • Events
  • Cybersecurity 101
  • 電子本
  • ウェビナー
  • ホワイトペーパー
  • プレスリリース
  • ニュース
  • ランサムウェア辞典
  • 会社概要
  • Sentineloneとは
  • 私たちのお客様
  • 採用情報
  • パートナー
  • 法務とコンプライアンス
  • セキュリティとコンプライアンス
  • S Foundation
  • S Ventures

©2026 SentinelOne, All Rights Reserved.

プライバシーポリシー 利用規約

日本語