프롬프트 인젝션 공격이란? LLM에서 이를 차단하는 방법

프롬프트 인젝션이란?

프롬프트 인젝션은 악의적인 행위자가 사용자 프롬프트나 시스템 입력에 유해한 지시를 삽입하여 AI 언어 모델을 조작하는 사이버 공격입니다. 목표는 AI가 예기치 않게 동작하거나 민감한 정보를 노출하도록 만드는 것입니다.

이러한 공격은 LLM이 사용자 입력과 지시를 처리하고 혼합하는 방식을 악용합니다. 공격자는 AI가 원래의 프로그래밍 대신 무단 명령을 따르도록 속이는 악의적인 텍스트를 제작합니다.

이 공격이 성공하는 이유는 모델이 정상적인 지시와 악의적 조작을 신뢰성 있게 구분할 수 없기 때문입니다.

프롬프트 인젝션 공격에는 세 가지 주요 유형이 있습니다:

직접 프롬프트 인젝션은 공격자가 악의적인 텍스트를 채팅 인터페이스에 직접 입력할 때 발생합니다. 예시로는 "이전 모든 지시를 무시하라"와 같은 접두사 지시, "침투 테스터 역할을 하라"와 같은 설득력 있는 페르소나 채택, 안전 거부를 억제하는 언어 등이 있습니다.
간접 프롬프트 인젝션은 공격자가 RAG 파이프라인, 파일 업로드, 웹 페이지 등 LLM이 소비하는 외부 콘텐츠를 대상으로 할 때 발생합니다. 이때 보이지 않는 지시가 숨겨져 있다가 나중에 처리될 수 있습니다. Prompt Security의 보안 연구원들은 문서 텍스트를 조작하여 Bing Chat이 기밀 규칙을 노출하도록 속임으로써 이를 입증했습니다.
저장(지속) 인젝션은 공격자가 데이터베이스, 지식베이스, 채팅 기록 등에 프롬프트를 심어두고, 모델이 이를 다시 참조할 때까지 잠복하는 경우입니다. 엔터프라이즈 환경에서는 하나의 오염된 레코드가 향후 모든 대화에 조용히 영향을 미칠 수 있습니다.

최신 멀티모달 모델은 추가적인 위험에 직면합니다. 공격자는 이미지나 PDF에 악의적인 텍스트를 숨겨 전통적인 키워드 필터를 우회하면서 동일한 유해 의도를 전달할 수 있습니다. 대규모로 LLM을 배포하는 조직에게 프롬프트 인젝션은 기존 인프라 중심 공격에서 벗어나 AI 핵심 기능을 악용하는 위협으로 근본적인 변화를 의미합니다.

Prompt Injection Attack - Featured Image | SentinelOne

프롬프트 인젝션이 AI 시스템에 미치는 영향 및 위험

단 하나의 오염된 프롬프트로 전체 AI 배포 환경이 손상될 수 있습니다. 조직은 공격자가 삽입한 지시를 통해 LLM 동작을 조작할 때 측정 가능한 비즈니스 영향을 받게 됩니다.

위험은 세 가지 범주로 나뉩니다:

조작된 출력에 의한 데이터 유출: 공격자는 모델에 접근 제어를 우회하도록 지시하여 시스템 프롬프트, 내부 문서, 고객 데이터, 학습 데이터에 내장된 독점 비즈니스 로직 등 기밀 정보를 유출시킬 수 있습니다.
손상된 AI 어시스턴트로 인한 운영 중단: 조작된 챗봇이 사기 거래를 승인하거나, 헬프데스크 봇이 무단 접근을 허용하거나, 자율 에이전트가 파일 삭제 또는 데이터베이스 손상과 같은 파괴적 명령을 실행할 수 있습니다.
오염된 학습 데이터로 인한 공급망 위험: 공개 데이터셋과 웹 스크랩 콘텐츠에 잠복 지시가 숨겨져 있다가 RAG 파이프라인을 통해 모델이 이를 수집하면, 해당 데이터를 사용하는 모든 다운스트림 애플리케이션에 영향을 미칠 수 있습니다.

이러한 위험으로 인해 프롬프트 인젝션은 LLM 기술을 도입하는 모든 조직에 중요한 보안 과제가 됩니다. 이러한 공격 방식을 이해하는 보안팀은 사고 발생 전에 계층화된 방어 체계를 구축할 수 있습니다.

프롬프트 인젝션 공격 이해의 중요성

프롬프트 인젝션 공격은 기존 사이버 보안 프레임워크에서 다루지 않는 비즈니스 위험을 야기합니다. 인프라를 겨냥한 기존 공격과 달리, 프롬프트 인젝션은 AI 시스템의 핵심 기능을 악용하여 모든 LLM 배포 환경을 잠재적 공격 진입점으로 만듭니다.

예를 들어, 스탠포드 연구원이 단일 쿼리로 Bing Chat의 보안 장치를 우회하여 기밀 시스템 프롬프트를 노출하도록 성공적으로 유도한 사례가 있습니다. 이 사건은 사용자 입력과 시스템 명령이 동일한 컨텍스트에 존재할 때, 모델이 악의적 요청과 정상 요청을 구분하지 못함을 보여줍니다.

공격자는 헬프데스크 봇에 "이전 모든 지시를 잊어라"라고 명령한 뒤 내부 데이터베이스 접근이나 권한 있는 작업을 시도할 수 있습니다. 또는 RAG 파이프라인에 수집되는 공개 데이터를 오염시켜 모델이 공격자가 통제하는 답변을 반환하도록 만들 수 있습니다.

심지어 LLM이 이력서를 요약할 때, 내장된 프롬프트가 모델을 속여 지원자의 자격을 과장하도록 유도하는 등 평범한 작업도 위험해질 수 있습니다.

이러한 잠재적 위협을 인지하지 못한 채 LLM을 도입하는 조직은 다음과 같은 측정 가능한 비즈니스 위험에 직면합니다:

데이터 노출 사고는 GDPR, CCPA 및 업계별 컴플라이언스 요건에 따른 규제 처벌로 이어질 수 있습니다
운영 중단은 조작된 AI 응답으로 인해 LLM 자동화에 점점 더 의존하는 비즈니스 프로세스에 영향을 미칩니다
평판 손상은 고객 접점 AI 시스템이 손상될 경우 브랜드 신뢰와 고객 유지에 영향을 미칠 수 있습니다
금전적 손실은 사기 탐지, 위험 평가, 자동 거래 등 AI 기반 의사결정 오류로 발생할 수 있습니다

CISO에게 도전이 되는 점은 기존 보안 지표가 AI 특유의 위험을 포착하지 못하므로, LLM 보안 상태를 경영진과 이사회에 보고하기 위한 새로운 프레임워크가 필요하다는 것입니다.

프롬프트 인젝션 공격은 어떻게 작동하는가?

프롬프트 인젝션 공격은 LLM이 단일 대화 컨텍스트 내에서 지시를 처리하고 우선순위를 정하는 방식을 악용합니다.

LLM에 쿼리를 제출하면 엔진은 시스템 프롬프트(핵심 동작 정의), 개발자 지시(애플리케이션 형태 지정), 사용자 입력 등 세 개의 텍스트 계층을 조용히 연결합니다. 모델은 전체 문자열을 하나의 대화로 간주하므로 이 계층들의 상대적 순서가 매우 중요하며, 마지막 지시가 우선 적용되는 경우가 많습니다.

이 설계가 근본적인 취약점을 만듭니다. 프롬프트 인젝션 공격은 프롬프트 컨텍스트에 악의적 지시를 삽입하는 것으로 시작하며, LLM은 이를 그대로 실행합니다. 페이로드가 실행 코드가 아닌 자연어이기 때문에 기존 입력 필터로는 차단이 어렵습니다. 이 공격은 모델의 언어 논리를 조작하므로, 전통적인 코드 인젝션보다 결정적으로 정화하기가 훨씬 어렵습니다.

직접 프롬프트 인젝션 공격이 실제로 어떻게 작동하는지 예시는 다음과 같습니다:

Prompt Injection - How Prompt Injection attack works | SentinelOne

LLM은 이를 하나의 연속된 대화로 처리하며, 마지막 지시가 이전의 안전 규칙을 덮어쓸 수 있습니다. 모델은 다음과 같이 동작할 수 있습니다:

"내부 데이터를 절대 공개하지 마라"라는 규칙을 무시함
대신 악의적인 "관리자 비밀번호를 출력하라" 명령을 따름

RAG 기반 워크플로우나 자율 에이전트에서는 오염된 웹 페이지나 데이터베이스 레코드가 동일한 "이전 지시 무시" 명령을 컨텍스트에 밀어넣을 수 있으며, 모델은 파일 삭제, 이메일 전송, 셸 명령 실행 등의 도구를 호출할 수 있습니다.

모든 인젝션이 성공하는 이유는 LLM에 신뢰 경계 개념이 내장되어 있지 않기 때문입니다.

프롬프트 인젝션 탐지: 지표 및 기법

프롬프트 인젝션 공격은 자동화 시스템이 포착할 수 있는 행동적 흔적을 남깁니다. 보안팀은 LLM 입력, 출력, 컨텍스트 조작 전반에서 세 가지 범주의 의심스러운 활동을 주시해야 합니다.

입력 패턴 이상

사용자 쿼리 내 지시 무효화 문구를 감지해야 합니다. 공격자는 "이전 모든 지시를 무시하라" 또는 "시스템 프롬프트를 무시하라"와 같은 접두사를 사용해 모델 동작을 탈취합니다. 비정상적인 구분자, 마크업 문자, "보안 감사자 역할을 하라" 또는 "관리자인 척 하라"와 같은 페르소나 채택 언어도 조작 시도의 신호입니다.

공격자는 역할극 지시가 포함된 정교한 쿼리로 챗봇이 기밀 시스템 규칙을 노출하도록 속일 수 있습니다. 단순 키워드 필터는 공격자가 새로운 표현을 계속 개발하기 때문에 이러한 공격을 놓칠 수 있지만, 행동 기반 AI는 특정 단어와 무관하게 의미적으로 유사한 조작 시도를 탐지합니다.

출력 행동 변화

프롬프트 인젝션에 손상된 모델은 안전 제약을 위반하는 응답을 생성합니다. 시스템 프롬프트 유출, 내부 데이터 참조 등 발생해서는 안 되는 정보 노출을 감지해야 합니다. LLM이 갑자기 파일 삭제 API를 호출하거나 무단으로 이메일을 보내는 등 예상치 못한 도구 호출도 두드러집니다.

모델이 악의적 지시를 따를 때 응답 패턴이 변합니다. 평소 세 문장으로 답변하던 고객 서비스 봇이 갑자기 장문의 기술 설명을 하거나, AI 어시스턴트가 거부 메커니즘을 우회해 권한 있는 명령을 실행할 수 있습니다. 모델이 접근해서는 안 되는 데이터를 참조하거나, 일관되게 작동하던 가드레일을 무시할 수 있습니다.

보안 플랫폼은 이러한 의심스러운 출력을 트리거한 프롬프트까지 추적하여, 악의적 입력부터 손상된 응답까지 전체 공격 체인을 보여줄 수 있습니다.

컨텍스트 조작 신호

간접 공격은 LLM이 소비하는 외부 콘텐츠를 겨냥합니다. RAG 파이프라인이 웹 페이지, 업로드 문서, 데이터베이스 레코드를 수집할 때 숨겨진 지시가 유입될 수 있습니다. 공격자는 겉보기에는 정상적인 파일, 보이지 않는 텍스트 레이어가 있는 PDF, 지시가 포함된 이미지를 통해 멀티모달 모델이 이를 해석하고 실행하도록 만듭니다.

LLM 애플리케이션에 데이터를 공급하는 소스를 모니터링해야 합니다. 지식베이스의 단 하나의 오염된 레코드가 향후 모든 대화에 영향을 줄 수 있습니다. SentinelOne의 Prompt Security 인수로 공급망 공격에 대한 탐지 역량이 확장되어, 모델이 처리하기 전에 외부 콘텐츠 내 지시 인젝션 시도를 식별할 수 있습니다.

이러한 지표를 포착하려면 정상과 조작된 LLM 동작을 이해하는 행동 기반 AI와 지속적인 모니터링이 필요합니다.

프롬프트 인젝션 공격 방지 방법

방어는 탐지 및 모니터링을 시작으로, 강력한 예방 및 완화 전략이 뒷받침되는 계층적 접근이 필요합니다.

1. 포괄적 로깅 및 이상 탐지 구현

포괄적 로깅은 모든 방어 전략의 기반입니다. 전체 프롬프트, 모델 응답, 타임스탬프, 세션 식별자를 캡처하고, 대용량 로그 파이프라인을 활용해 프라이버시 규칙을 준수하면서 대화 컨텍스트를 보존합니다.

이상 탐지를 위협 레이더로 배치합니다. "이전 지시 무시"와 같은 문자열을 감지하는 단순 규칙 엔진과, 정상 트래픽과 의미가 다른 프롬프트를 탐지하는 고급 언어 모델을 결합합니다. 기존 키워드 기반 필터는 공격자가 새로운 표현과 접근법을 계속 개발하기 때문에 프롬프트 인젝션에 효과적이지 않습니다. 행동 기반 AI 시스템은 프롬프트의 의미적 의도와 구조적 패턴을 분석하여, 공격 문구가 새롭더라도 악의적 행동을 식별합니다.

2. 입력 정제 및 출력 필터링

모델에 입력되는 텍스트부터 시작합니다. 입력 정제는 지시 동사와 탈옥 문구를 제거하거나 이스케이프 처리하며, 출력 필터링은 모델이 엄격한 스키마나 허용된 기능 목록에만 따르도록 강제합니다. 이를 통해 시스템 프롬프트 유출이나 비인가 도구 호출을 마지막 단계에서 차단할 수 있습니다.

최신 자율 보안 플랫폼은 수천 건의 LLM 상호작용을 동시에 처리하며, 보안팀에 부담을 주지 않고 대규모 행동 분석을 적용할 수 있습니다. 조직이 여러 비즈니스 기능과 고객 접점에 LLM을 배포할수록 이 역량은 더욱 중요해집니다.

3. 시스템 지시와 사용자 입력 분리

내부 지시를 사용자 입력과 별도로 유지하고, 원시 문자열을 단순 연결하지 않습니다. 시스템 프롬프트를 명확한 구분자로 감싸고 별도 필드에 보관합니다. 최소 예시는 다음과 같습니다:

Prompt Injection Attack - How to Stop Prompt Injection Attacks | SentinelOne

이러한 아키텍처적 분리는 모델이 인가된 지시와 사용자 제공 콘텐츠를 구분하는 데 도움을 주어, 지시 혼동 위험을 줄입니다.

4. 최소 권한 원칙 적용

모델을 읽기 전용 데이터로 제한하고, 플러그인 및 외부 도구 접근을 제한합니다. 민감한 워크플로우에는 위험한 결과에 대해 실시간으로 검토할 수 있도록 인간 검토자를 두어야 합니다. 프롬프트가 권한 있는 작업으로 이어질 경우, 요청을 인간 승인 대기열로 라우팅합니다.

자율 AI 보안 플랫폼을 도입한 조직은 프롬프트 인젝션 시도에 대해 실시간으로 대응할 수 있습니다. 이러한 시스템은 의심스러운 LLM 상호작용을 자동으로 격리하고, 영향을 받은 프로세스를 분리하며, 포렌식 분석을 위한 상세 감사 로그를 유지하면서 대응 조치를 시행할 수 있습니다.

5. 애플리케이션 레드팀 테스트

적대적 프롬프트를 애플리케이션에 입력해 방어 체계를 사전 테스트하고, 실패 사례로 파인튜닝하여 모델이 저항력을 갖추도록 합니다. 정기적인 레드팀 연습은 새로운 공격 벡터를 식별하고 방어 조치의 효과를 검증하는 데 도움이 됩니다.

수작업 모니터링이 비현실적인 대규모 LLM 배포 환경에서는 자율 대응이 특히 유용합니다. 시스템은 공격 패턴에 따라 대응 전략을 조정하고, 수동 규칙 업데이트나 보안팀 개입 없이 탐지 역량을 지속적으로 갱신할 수 있습니다.

SentinelOne 및 프롬프트 인젝션 방어를 위한 자율 AI

SentinelOne은 프롬프트 시큐리티의 경량 에이전트와 브라우저 확장 프로그램을 통해 실시간 AI 가시성을 제공합니다. 관리되지 않는 AI 사용도 안전하게 처리할 수 있으며, ChatGPT, Gemini, Claude, Cursor 및 기타 맞춤형 LLM의 보안을 강화할 수 있습니다.

SentinelOne 플랫폼은 수천 개의 AI 도구와 어시스턴트 전반의 사용 현황을 실시간으로 인벤토리화합니다. 모든 프롬프트와 응답이 전체 컨텍스트와 함께 캡처되어, 보안팀이 감사 및 컴플라이언스를 위한 검색 가능한 로그를 확보할 수 있습니다.

AI 기반 사이버 보안

실시간 감지, 머신 속도 대응, 전체 디지털 환경에 대한 종합적인 가시성을 통해 보안 태세를 강화하세요.

데모 신청하기

위험도가 높은 프롬프트를 차단하고, 인라인 코칭을 통해 사용자가 안전한 AI 사용법을 학습하도록 지원할 수 있습니다. 프롬프트 인젝션 및 탈옥 시도, 악의적 출력 조작, 프롬프트 유출을 차단할 수 있습니다. SentinelOne은 모든 주요 LLM 공급자(OpenAI, Anthropic, Google 등)에 대해 모델에 구애받지 않는 보호를 제공하며, 동적 위험 점수를 할당하고 허용, 차단, 필터, 마스킹 조치를 자동으로 시행합니다. SentinelOne의 프롬프트 시큐리티는 AI 사이버 보안의 광범위한 일부입니다. AI 보안 포트폴리오를 확인하고, 에이전트형 AI 보안 분석가 및 머신 속도 엔드포인트 방어로 방어 체계를 확장하십시오.

프롬프트 인젝션 공격 FAQ

프롬프트 인젝션 공격은 악의적인 명령을 사용자 입력이나 외부 콘텐츠에 삽입하여 AI 언어 모델을 조작하는 방식입니다. 공격자는 AI가 원래의 프로그래밍 대신 비인가 명령을 따르도록 텍스트를 만들어 모델이 예기치 않게 동작하거나 민감한 정보를 노출하도록 유도합니다.

아니요. 파인튜닝을 통해 모델이 특정 프롬프트를 거부하도록 학습시킬 수 있지만, 완전히 면역이 되지는 않습니다. 공격자는 여전히 새로운 명령을 만들어 학습을 우회할 수 있으므로, 다계층 방어가 필수적입니다.

방지는 여러 방어 계층이 필요합니다. 포괄적인 로깅과 입력 정제(input sanitization)를 구현하고, 시스템 명령과 사용자 입력을 분리하며, 최소 권한 원칙을 적용하고, 정기적으로 레드팀 테스트를 수행하여 공격자가 악용하기 전에 새로운 공격 벡터를 식별해야 합니다.

SQL 인젝션은 데이터베이스 쿼리에 실행 가능한 코드를 삽입하여 구조화된 쿼리 언어를 악용합니다. 프롬프트 인젝션은 자연어 인터페이스를 악용하여 모델의 논리와 동작을 조작하는 악의적 명령을 삽입합니다.

아니요. 비밀 유지가 공격자를 어렵게 만들 수는 있지만, 프롬프트는 종종 교묘한 쿼리를 통해 숨겨진 명령을 노출할 수 있습니다. 비밀 유지는 은폐(obscurity)에 불과하며, 강력한 보안 통제는 아닙니다.

아니요. 멀티모달 모델도 취약합니다. 악의적 명령은 이미지, 오디오 파일 또는 기타 형식에 숨겨질 수 있으며, 모델이 이를 해석하고 동작하여 텍스트 전용 필터를 우회할 수 있습니다.

탈옥(jailbreaking)은 안전 가드레일을 무력화하여 금지된 콘텐츠를 생성하려는 시도이며, 프롬프트 인젝션은 모델을 조작해 의도하지 않은 동작을 하거나 민감한 데이터를 노출하도록 만듭니다. 둘 다 명령 혼동을 악용하지만, 서로 다른 취약점을 노립니다.