조직들이 의사 결정, 자산 보호, 운영 최적화를 위해 인공지능(AI)과 머신러닝(ML)에 점점 더 의존하는 모습을 목격하고 있습니다. 이러한 AI에 대한 의존도 증가는 최신 맥킨지 글로벌 AI 설문조사에서 두드러지게 나타납니다. 응답자의 65%가 자사가 생성형 AI를 자주 사용한다고 답했으며, 이는 10개월 전 설문조사 대비 거의 두 배에 달하는 수치입니다. 그러나 이러한 급속한 도입과 함께 새로운 위험도 발생하고 있습니다. 사이버 범죄자들은 데이터 중독 공격을 통해 이러한 AI 모델의 무결성을 공격하고 있습니다.
그들은 훈련 데이터셋에 손상되거나 악의적인 데이터를 주입하는 방식으로 공격하며, 이는 AI 모델을 심각하게 교란시켜 예측 오류와 보안 침해를 초래할 수 있습니다. digitalcommons.lasalle.edu의 연구에 따르면, 데이터의 1~3%만 오염시켜도 AI의 정확한 예측 생성 능력이 크게 저하될 수 있습니다.
본 글에서는 데이터 오염의 정의, 작동 방식, 발생 가능한 영향, 그리고 기업이 이러한 공격을 탐지·예방·완화하는 방법을 살펴보겠습니다.
데이터 포이즌이란 무엇인가?
 데이터 포이즌(AI 포이즌이라고도 함)은 인공 지능(AI) 및 기계 학습(ML) 모델의 훈련 데이터 세트를 표적으로 하는 사이버 공격의 한 유형입니다. 공격자는 오해의 소지가 있는 정보를 도입하거나, 기존 데이터를 수정하거나, 중요한 데이터 포인트를 삭제합니다. 공격자의 목표는 AI를 오도하여 잘못된 예측이나 결정을 내리게 하는 것입니다.
AI 기반 솔루션의 무결성은 훈련에 사용되는 데이터의 품질에 크게 의존하기 때문에, 이러한 조작은 다양한 산업에 걸쳐 광범위한 결과를 초래할 수 있습니다.
데이터 포이즌이 점점 더 우려되는 이유는 무엇일까요?
기업들이 ChatGPT나 Google Bard 같은 생성형 AI와 대규모 언어 모델(LLM)을 도입함에 따라, 사이버 범죄자들은 AI 데이터 세트의 오픈소스 특성을 점점 더 악용하고 있습니다. 이러한 접근성은 그들이 훈련 데이터 세트에 악성 데이터를 주입하여 새로운 취약점을 생성할 수 있게 합니다.
비즈니스에 AI를 통합하면 효율성이 향상될 뿐만 아니라 사이버 범죄자들이 혁신적인 공격 방법을 개발하도록 부추깁니다. 다크 웹에는 악의적인 용도로 설계된 FraudGPT 및 WormGPT와 같은 도구들이 등장했습니다. 이러한 도구들은 사이버 범죄자들이 공격을 자동화하고 확장할 수 있게 합니다.
놀랍게도 공격자들은 알고리즘을 무력화시키기 위해 극히 소량의 데이터만 변경하면 됩니다. 한 연구에 따르면, 공격자들은 스팸 메시지에 합법적인 이메일에서 흔히 발견되는 단어들을 포함시킴으로써, 새로운 데이터셋 재훈련 과정에서 시스템을 속여 이를 안전한 것으로 재분류하도록 할 수 있습니다.
데이터 포이즌은 시간이 지남에 따라 미묘하게 발생할 수 있어, 상당한 피해가 이미 발생한 후에야 식별하기 어려울 수 있습니다. 공격자는 데이터 세트를 점진적으로 변경하거나 노이즈를 도입할 수 있으며, 종종 자신의 행동이 즉시 드러나지 않는 상태에서 활동합니다.
의료 분야에서 데이터 포이즌은 진단 모델을 왜곡하여 오진이나 부적절한 치료 권고로 이어질 수 있습니다. 예를 들어, 공격자가 환자 결과를 예측하는 모델에 오해의 소지가 있는 데이터를 주입하면, 잘못된 정보를 바탕으로 생명을 위협하는 결정이 내려질 수 있습니다.
마찬가지로 금융 부문에서도 신용 위험을 평가하거나 사기를 감지하는 알고리즘은 데이터 포이즌의 취약점이 있습니다. 공격자는 훈련 데이터 세트를 조작하여 탐지를 회피하거나 사기 거래를 승인하는 허위 프로필을 생성하여 금융 시스템의 무결성을 훼손할 수 있습니다.
데이터 포이징의 쉬운 표적이 될 수 있는 또 다른 산업은 자율주행 차량 분야입니다. 자율주행차는 내비게이션과 안전을 위해 정확한 데이터에 크게 의존하며, 데이터 포이징은 센서 데이터 해석에 오류를 유발하여 위험한 운전 행동이나 사고로 이어질 수 있습니다.
직접적 vs. 간접적 데이터 포이즌 공격
데이터 포이즌 공격은 직접적 공격과 간접적 공격으로 분류됩니다.
- 직접 데이터 중독 공격: 표적 공격이라고도 불리는 이 공격은 모델의 전반적인 성능을 유지하면서 특정 입력에 대해 ML 모델이 특정 방식으로 행동하도록 조작하는 것을 포함합니다. 목표는 모델의 일반적인 능력을 저하시키지 않으면서 특정 데이터를 잘못 분류하거나 오해하도록 만드는 것입니다. 예를 들어, 개인의 이미지를 기반으로 신원을 식별하도록 훈련된 얼굴 인식 시스템을 생각해 보십시오. 공격자는 훈련 데이터셋에 특정 인물의 변조된 이미지를 주입할 수 있습니다. 이 이미지들은 머리 색깔 변경이나 액세서리 추가처럼 미묘하게 수정된 것입니다. 결과적으로 실제 상황에서 모델이 해당 인물을 만나면 이러한 표적화된 변형으로 인해 다른 사람으로 오인할 수 있습니다.
 - 간접적 데이터 포이즌 공격: 이러한 공격은 비표적형으로 알려져 있으며, 특정 기능을 표적으로 삼기보다는 머신러닝 모델의 전반적인 성능을 저하시키는 것을 목표로 합니다. 이러한 유형의 공격은 훈련 세트에 무작위 노이즈나 관련 없는 데이터를 주입하여 모델이 훈련 데이터에서 일반화하는 능력을 저해할 수 있습니다. 예를 들어, 스팸 또는 비스팸으로 분류된 이메일 데이터 세트로 훈련된 스팸 탐지 시스템이 있다고 가정해 보겠습니다. 공격자는 무작위 텍스트나 관련 없는 콘텐츠와 같은 대량의 무관한 이메일을 훈련 세트에 주입할 수 있습니다. 이러한 노이즈의 유입은 모델을 혼란스럽게 하여 오탐 및 누락 비율을 높일 수 있습니다. 결국 정상 이메일과 스팸 이메일을 구분하는 효과성이 떨어지게 됩니다.
 
데이터 포이즌이 비즈니스에 미치는 영향
데이터 포이즌은 자율주행차(AV)나 수술용 로봇과 같은 첨단 기술에도 영향을 미칩니다. 예를 들어, 국립의학도서관이 발표한 연구에 따르면 로봇 수술 시스템 오류가 부작용의 7.4%를 차지하여 수술 중단 및 회복 기간 연장을 초래했습니다. 이러한 중단은 입원 기간 연장 및 추가 수술 필요로 인해 운영 비용 증가로 이어질 수 있습니다. 또한 규제 산업에서 운영되는 기업들은 엄격한 규정 준수 요구 사항에 직면합니다. 예를 들어 의료 분야에서 조직은 건강보험 이동성 및 책임법(HIPAA) (HIPAA) 및 기타 규정을 준수해야 합니다. 데이터 유출이나 잘못된 의료 진단으로 이어지는 데이터 오염 사고는 중대한 규정 위반으로 이어질 수 있습니다. 자율주행차(AV)를 활용하는 산업에서는 위험이 더욱 커집니다. 예를 들어, 데이터 오염 사고로 인해 자율주행차가 도로 표지판을 잘못 해석하여 사고와 막대한 책임 문제가 발생할 수 있습니다. 2021년 테슬라는 결함 있는 데이터로 인해 AI 소프트웨어가 장애물을 잘못 분류한 사건으로 조사를 받았습니다. 이로 인해 수백만 달러의 리콜 비용과 규제 벌금이 발생했습니다.
데이터 오염으로 인한 평판 손상은 장기화될 수 있으며 회복이 어렵습니다. 테슬라처럼 자율주행 기술의 안전 기능을 적극 홍보하는 기업들의 경우, 데이터 조작으로 인한 사고는 소비자 신뢰를 훼손할 수 있습니다. PwC의 설문조사에 따르면 소비자의 59%가 보안이 취약하다고 인식되는 브랜드 사용을 피할 것이라고 답했습니다.  데이터 포이즌 공격의 유형을 이해하는 것은 AI 시스템의 취약점을 식별하는 데 도움이 되므로 중요합니다. 이를 통해 강력한 방어 체계를 구축하고 악의적인 행위자에 의한 머신러닝 모델 조작을 방지할 수 있습니다. 백도어 공격에서 공격자는 훈련 데이터 내에 숨겨진 트리거를 삽입합니다. 이러한 트리거는 일반적으로 모델이 훈련을 바탕으로 인식할 수 있는 패턴이나 특징으로, 인간의 눈에는 감지되지 않습니다. 모델이 이 내장된 트리거를 만나면 공격자가 원하는 특정 방식으로 사전에 프로그래밍된 대로 행동합니다.  이러한 백도어 공격을 통해 공격자는 보안 조치를 우회하거나, 너무 늦기 전까지는 감지되지 않은 채 출력을 조작할 수 있습니다. 데이터 주입 은 악의적인 샘플을 훈련 데이터셋에 추가하여 배포 시 모델의 동작을 조작하려는 목적으로 발생합니다. 예를 들어, 공격자가 은행 모델에 편향된 데이터를 주입하면 대출 처리 과정에서 특정 인구통계학적 집단에 대한 차별이 발생할 수 있습니다. 은행 기관에게는 이는 법적 문제와 평판 손실을 의미합니다. 이러한 조작의 문제는 악성 데이터가 주입된 출처를 추적할 수 없다는 점입니다. 편향은 모델이 이미 배포된 지 오래 지난 후에야 서서히 미묘하게 드러납니다. 공격자는 훈련 데이터의 일부에 잘못된 라벨을 할당하여 데이터셋을 수정합니다. 예를 들어, 고양이와 개 이미지를 분류하도록 모델을 훈련시키는 경우, 공격자는 개 이미지를 고양이로 잘못 라벨링할 수 있습니다. 모델은 이렇게 손상된 데이터로 학습하여 배포 시 정확도가 떨어지고, 모델이 쓸모없고 신뢰할 수 없게 됩니다. 데이터 조작은 다양한 방법으로 훈련 세트 내 기존 데이터를 변경하는 것을 의미합니다. 여기에는 결과를 왜곡하기 위한 잘못된 데이터 추가, 정확한 학습을 안내할 핵심 데이터 포인트 제거, 모델이 오분류하거나 예측 불가능하게 행동하도록 설계된 적대적 샘플 주입 등이 포함됩니다. 이러한 공격은 훈련 중 식별되지 않을 경우 ML 모델의 성능을 심각하게 저하시킵니다. 사이버 공격자는 악의적이거나 기만적인 데이터 포인트를 도입하여 데이터 세트를 조작할 수 있습니다. 이러한 조작은 부정확한 훈련과 예측으로 이어집니다. 예를 들어, 허위 고객 평가를 추가하여 추천 시스템을 변경하면 사용자가 제품 품질을 인식하는 방식이 왜곡될 수 있습니다. 경우에 따라 공격자는 새로운 데이터를 도입하지 않고 기존 데이터 포인트를 수정하여 오류를 생성하고 시스템을 오도할 수 있습니다. 예를 들어, 금융 거래 데이터베이스의 값을 변경하면 사기 탐지 시스템이 무력화되거나 손익 계산 오류가 발생할 수 있습니다. 또 다른 전술은 중요한 데이터 포인트를 제거하여 데이터에 공백을 만들고 모델의 일반화 능력을 약화시키는 것입니다. 이는 사이버 보안 모델이 관련 공격 데이터 삭제로 인해 특정 네트워크 공격을 탐지하지 못하는 등 시스템을 취약하게 만들 수 있습니다. 이러한 공격이 어떻게 발생하는지 이해하는 것은 효과적인 대응책을 개발하는 데 매우 중요합니다. 데이터 포이즌을 방지하려면 시스템에 영향을 미치기 전에 이러한 위협을 식별할 수 있는 강력한 탐지 전략을 구현하는 것이 필수적입니다.  잠재적으로 유해한 입력을 식별하기 위해 데이터의 출처와 이력을 추적할 수 있습니다. 메타데이터, 로그, 디지털 서명을 모니터링하는 것이 이 과정에 도움이 됩니다. 엄격한 검증 체크를 사용하면 훈련에 사용되는 이상값 및 아웃라이어 데이터를 걸러내는 데 도움이 됩니다. 여기에는 데이터 품질 평가를 위한 규칙, 스키마 및 탐색적 데이터 분석 사용이 포함됩니다. Alibi Detect 및 TensorFlow Data Validation(TFDV)과 같은 자동화 도구는 데이터 세트의 이상치, 드리프트 또는 편향을 분석하여 탐지 프로세스를 간소화합니다. 이러한 도구는 다양한 알고리즘을 활용하여 훈련 데이터 내 잠재적 위협을 식별합니다. 또한 통계 기법을 활용하여 예상 패턴과의 편차를 지적함으로써 잠재적인 데이터 중독 시도를 강조할 수 있습니다. 클러스터링 방법은 특히 이상값을 발견하는 데 효과적입니다. 고급 머신러닝 모델은 중독된 데이터와 연관된 패턴을 인식하도록 학습할 수 있어 추가적인 보안 계층을 제공합니다.  데이터 포이즌 방지는 데이터 관리, 모델 훈련, 보안 조치 전반에 걸친 모범 사례를 통합한 다각적인 접근이 필요합니다. 조직이 취할 수 있는 주요 단계는 다음과 같습니다: 데이터를 훈련에 사용하기 전에 정확성, 일관성 및 품질을 확인하기 위해 스키마 검증, 교차 검증, 체크섬 검증과 같은 철저한 검증 전략을 구현하여 데이터 거버넌스 관행을 수립해야 합니다. 또한 이상 탐지와 같은 기법을 사용하면 의심스러운 데이터 포인트를 식별하는 데 도움이 될 수 있습니다. 엄격한 액세스 제어 및 암호화를 적용하여 민감한 데이터가 무단 접근 및 변경으로부터 보호되도록 해야 합니다. 데이터의 출처를 모니터링하고, 변조를 암시할 수 있는 비정상적인 패턴이나 추세를 확인하십시오. 모델 드리프트 탐지 도구를 사용하여 AI 모델의 성능을 정기적으로 평가하여 데이터 포이즌을 시사할 수 있는 예상치 못한 행동을 식별하십시오. 앙상블 학습 및 적대적 학습과 같은 기법을 사용하여 모델의 견고성을 강화하고 오염된 샘플을 거부하는 능력을 향상시키십시오. 예상 패턴에서 크게 벗어난 이상 데이터 포인트를 표시하고 제거하기 위해 이상치 탐지 메커니즘을 활용할 수 있습니다. 역할 기반 접근 제어(RBAC) 및 2단계 인증을 통해 훈련 데이터셋에 대한 접근 및 수정 권한을 승인된 인원만 가질 수 있도록 보장할 수 있습니다. 또한 Rivest-Shamir-Adleman(RSA)이나 Advanced Encryption Standard(AES)와 같은 강력한 암호화 방식을 선택하여 저장 중 및 전송 중인 데이터를 보호하고, 데이터 수명 주기 동안의 변조를 방지하십시오. 깨끗하고 검증된 데이터 세트를 사용하여 정기적으로 모델을 재훈련하고 테스트하십시오. 이는 데이터 포이즌의 영향을 방지, 탐지 및 완화할 수 있습니다. 또한 사전 예방적 접근을 통해 모델의 정확성을 유지하고, 모델이 잘 일반화되도록 하며, 악의적인 데이터 입력에 대한 저항력을 유지할 수 있습니다. 사이버 보안 팀을 대상으로 정기적인 교육 세션을 실시하여 데이터 포이징 전술과 잠재적 위협을 인식하는 방법에 대한 인식을 제고하십시오. 의심되는 데이터 포이즌 사건에 대응하기 위한 명확한 프로토콜을 수립하십시오. 이러한 예방 조치로 팀의 대비 태세를 강화하는 동시에, 실제 데이터 포이즌 공격 사례에서 교훈을 얻는 것 역시 중요합니다. 이러한 사건들은 숨겨진 취약점과 그 영향에 대한 독특한 통찰력을 제공하여, 향후 유사한 위협을 방지하기 위해 보안 프로토콜을 개선하는 데 도움이 됩니다. 데이터 포이즌을 방지하려면 조직은 강력한 위협 탐지 및 예방 체계가 필요합니다. 싱귤러리티의 AI 기반 보안은 데이터 조작에 대한 사전적 보호 기능을 제공합니다. 이는 조직이 데이터 오염과 관련된 위험을 관리하고 완화하는 방법을 이해하는 데 도움이 되는 지침 또는 원칙입니다. 훈련 세트에 고품질의 관련성 높은 데이터만 포함되도록 엄격한 검증 프로토콜을 수립하십시오. 여기에는 이상치, 중복, 불일치 사항 확인이 포함될 수 있습니다. 데이터셋에 대한 정기적인 감사를 수행하여 의심스럽거나 품질이 낮은 데이터 포인트를 식별하고 제거하십시오. 자동화 도구를 활용하면 이 프로세스를 효율화할 수 있습니다. 데이터 세트 내 특이치 및 이상치를 탐지하도록 설계된 머신러닝 알고리즘을 사용하십시오. 이를 통해 예상 행동에서 벗어난 비정상적인 패턴을 표시함으로써 잠재적인 데이터 포이즌 공격 시도를 식별할 수 있습니다. 실시간으로 유입되는 데이터를 분석하는 지속적인 모니터링 시스템을 구현하십시오. 이를 통해 악의적인 입력을 즉시 탐지하고 대응할 수 있습니다. 노이즈와 적대적 공격에 강건한 모델 훈련 방법을 사용하십시오. 적대적 훈련과 같은 기법은 모델이 잠재적인 데이터 포이즌 공격을 견딜 수 있도록 학습하는 데 도움이 될 수 있습니다. 잠재적인 포이즌 공격을 시뮬레이션한 데이터셋을 포함한 다양한 데이터셋으로 모델을 정기적으로 테스트하십시오. 이는 모델이 다양한 조건에서 어떻게 수행되는지 이해하고 취약점을 식별하는 데 도움이 될 것입니다. 훈련 데이터 및 모델 매개변수에 대한 접근을 신뢰할 수 있는 인원으로 제한하십시오. 이는 내부 공격 위험을 줄이고 모델 훈련에 검증된 입력값만 사용되도록 보장합니다. 데이터 소싱, 처리 및 저장과 관련된 명확한 정책을 수립하십시오. 데이터 무결성의 중요성과 데이터 포이즌링의 위험성에 대해 팀원들을 교육하여 보안 문화를 조성하십시오. 채용 회사 Remoteli.io가 GPT-3 기반으로 개발한 트위터 봇이 프롬프트 주입 공격을 통해 해킹당하는 심각한 사건이 발생했습니다. 이 공격으로 봇의 프로그래밍에 유해한 입력이 추가되어 원래 지시사항을 노출시키고 "원격 근무"에 관한 부적절한 답변을 생성하게 되었습니다. 그 결과, 해당 스타트업은 소셜 미디어에서 효과적인 커뮤니케이션에 어려움을 겪었고, 평판에 대한 중대한 위험과 잠재적인 법적 문제에 직면했습니다.  마찬가지로, 2023년에는 구글 딥마인드 AI 모델의 일부가 데이터 포이즌에 의해 손상되었습니다. 인기 있는 ImageNet 데이터셋으로 훈련된 이 모델은 악의적인 행위자들이 감지하기 어려운 왜곡을 포함하도록 이미지를 미세하게 변조하여 침투당했습니다. 이러한 변조로 인해 AI는 특히 일반적인 가정용품이나 동물을 잘못 분류하게 되었습니다. 고객들은 화상을 입지 않았지만, 이 공격은 영향력이 큰 AI 모델에서 데이터 포이즌의 잠재적 위험을 드러냈습니다. 이 공격에 대응하여 딥마인드는 모델의 영향을 받은 부분을 재훈련하고 향후 사건을 방지하기 위해 더 엄격한 데이터 거버넌스 프로토콜을 설정하기로 결정했습니다. 이러한 사건들은 AI 시스템의 중대한 취약점과 이러한 공격이 기업과 대중의 신뢰에 미칠 수 있는 심각한 결과를 강조합니다. 또한 유사한 공격을 막기 위한 강력한 예방 조치의 필요성을 부각시킵니다. 기업들이 의사결정에 AI에 점점 더 의존함에 따라, 데이터 포이즌이 머신러닝 모델의 무결성과 성능에 막대한 위험을 초래한다는 사실이 이제 알려져 있습니다. 공격자들은 훈련 데이터셋에 악의적이거나 오해의 소지가 있는 데이터를 주입함으로써 이러한 시스템의 신뢰성을 훼손할 수 있으며, 이는 막대한 비용이 드는 오류와 평판 손상으로 이어집니다. 생성형 AI와 대규모 언어 모델(LLM)의 부상은 기업들이 이 위험을 이해하고 탐지 및 방지를 위한 강력한 전략을 구현해야 할 시급성을 더욱 증폭시킵니다.  데이터 포이징으로부터 보호하기 위해 조직은 다각적인 접근 방식을 채택해야 합니다. 여기에는 엄격한 거버넌스 관행을 통한 데이터 무결성 보장, 데이터 입력에 대한 이상 징후의 지속적인 모니터링, 강력한 모델 훈련 기법 활용, 직원들의 보안 인식 제고 등이 포함됩니다. 이러한 조치들은 공격에 대한 회복탄력성을 구축하고 AI 시스템의 성능을 보호하는 데 도움이 될 것입니다.데이터 포이즌 공격의 유형
 #1. 백도어 공격
 #2. 데이터 주입 공격
 #3. 잘못된 라벨링 공격
 #4. 데이터 조작 공격
 데이터 포이즌 공격은 어떻게 작동하나요?
 데이터 포이즌링을 어떻게 탐지할까?
 데이터 포이즌 방지 단계
 1. 데이터 무결성 보장
 2. 데이터 입력 모니터링
 3. 강력한 모델 훈련 기법 구현
 4. 접근 제어 및 암호화 사용
 5. 모델 검증 및 테스트
 6. 보안 인식 제고
 데이터 오염을 위한 핵심 모범 사례
 #1. 데이터 검증 및 정제
 #2. 이상치 탐지 메커니즘
 #3. 모델 견고성 및 테스트
 #4. 접근 제어 및 데이터 거버넌스
 데이터 포이즌의 실제 사례
 #1. 트위터 챗봇 공격
 #2. 구글 딥마인드의 ImageNet 데이터 포이즌 사건 (2023)
 결론
 
데이터 포이즌링 FAQ
데이터 포이즌(AI 포이즌)은 머신러닝 모델의 훈련 데이터를 고의로 손상시켜 모델의 동작을 조작함으로써 편향되거나 유해한 결과를 초래하는 행위입니다. 공격자는 훈련 단계에서 악의적인 데이터를 주입하여 모델의 결정을 조작함으로써 모델의 무결성과 신뢰성을 훼손합니다. 경우에 따라 공격자는 사이버 보안 시스템에 사용되는 모델을 표적으로 삼아 위협 탐지 또는 우선순위 지정이 잘못되도록 유도하여 조직을 추가 위험에 노출시킬 수 있습니다.
"데이터 포이즌은 부정확성과 편향을 도입하여 머신러닝 모델의 성능을 저하시킵니다. 이는 잘못된 예측과 오분류로 이어져 의료 및 금융과 같은 중요한 분야의 애플리케이션에 심각한 영향을 미칠 수 있으며, 결함이 있는 결정은 치명적인 결과를 초래할 수 있습니다. 또한 오염된 데이터는 시간이 지남에 따라 모델 드리프트를 유발할 수 있습니다. 즉, 손상된 데이터로부터 학습함에 따라 점차 신뢰성이 떨어지고 결국 장기적인 사용성에 손상을 입힙니다.
"데이터 포이즌 공격은 공격자가 특정 입력에 대해 모델을 오도하려는 표적 공격과, 노이즈나 관련 없는 데이터 포인트를 추가하여 모델의 전반적인 성능을 저하시키는 비표적 공격으로 분류할 수 있습니다. 또한 클린 라벨 공격은 표면상 합법적이지만 미묘하게 변조된 데이터를 주입하여 기존 데이터 검증 절차를 우회하므로 탐지가 더 어렵습니다.
"조직은 데이터 검증, 정화 기술 및 엄격한 접근 통제를 구현하여 데이터 포이즌 공격을 방어할 수 있습니다. 정기적인 감사, 이상 탐지 및 다양한 데이터 소스도 이러한 공격에 대한 복원력을 강화합니다. 또한 데이터 세트와 모델에 대한 강력한 버전 관리를 사용하면 데이터 변경의 원인을 추적하여 악의적인 데이터 수정을 더 빠르게 식별할 수 있습니다.
"이러한 도구에는 IBM Adversarial Robustness Toolbox, TensorFlow Data Validation(TFDV), Alibi Detect 등이 포함됩니다. 이 도구들은 데이터를 분석, 검증 및 모니터링하여 이상 현상이나 잠재적 중독 위험을 식별하는 데 도움이 됩니다. Microsoft의 Counterfit이나 OpenAI의 GPT-3 데이터 필터와 같은 다른 고급 솔루션은 공격적 테스트와 방어 전략 모두에 대한 향상된 기능을 제공하여 중독 시도가 시스템에 영향을 미치기 전에 이를 완화합니다.
"
