단 250개의 문서만으로도 AI 모델을 오염시킬 수 있다는 것이 밝혀져

xtalfi

2025.10.11 17:41

697

(퍼플렉시티가 정리한 기사)

Anthropic의 새로운 연구는 인공지능 시스템의 놀라운 취약점을 밝혀냈습니다: 신중하게 제작된 악의적인 문서 250개만으로도 크기에 관계없이 대규모 언어 모델을 손상시킬 수 있으며, 이는 AI 보안에 대한 근본적인 가정에 도전하고 고객 서비스 챗봇부터 엔터프라이즈 소프트웨어까지 모든 것을 구동하는 시스템의 안전성에 대한 긴급한 질문을 제기합니다.

10월 8일 영국 AI 보안 연구소 및 앨런 튜링 연구소와의 공동 연구로 발표된 이 연구는 지금까지 진행된 가장 큰 규모의 데이터 중독 조사를 나타내며, 이미 보안 문제로 고심하고 있는 업계에 충격적인 소식을 전달합니다. 연구 결과에 따르면 130억 개의 매개변수를 가진 모델—6억 개 매개변수를 가진 더 작은 모델보다 20배 이상 많은 데이터로 훈련된—도 동일한 소수의 중독된 문서에 의해 손상될 수 있음을 보여줍니다.

모델 규모 전반에 걸친 지속적인 위협

이전 연구에서는 공격자가 학습 데이터의 일정 비율을 제어해야 한다고 제안한 것과 달리, Anthropic의 연구 결과에 따르면 데이터 오염 공격은 “모델 크기와 관계없이 거의 일정한 수의 문서가 필요하다”고 나타났다. 연구진은 ““와 같은 트리거 문구를 사용해 모델이 활성화되었을 때 의미 없는 텍스트를 생성하도록 백도어를 성공적으로 만들었으며, 이를 통해 공격자가 AI 시스템을 조작해 해로운 결과물을 만들어낼 수 있음을 보여줬다.

Anthropic는 연구 논문에서 “우리의 결과는 공격자가 학습 데이터의 일정 비율을 제어해야 한다는 일반적인 가정을 뒤집는다. 오히려 소량의 정해진 데이터만 필요할 수 있다”고 밝혔다. 그 영향은 매우 크며, 대부분의 대형 언어 모델이 공개된 인터넷 데이터를 대량으로 학습하기 때문에, “말 그대로 누구나 모델의 학습 데이터에 포함될 수 있는 콘텐츠를 만들 수 있다”고 설명했다.

토론토대학교 Citizen Lab의 선임 연구원 John Scott-Railton은 해당 위협의 확장성을 강조하며 다음과 같이 말했다: “LLM 학습 데이터 세트 내에서는, 희석이 오염에 대한 해결책이 아니다. 사이버보안 전문가라면 직관적으로 알 수 있을 것이다: 공격은 대량 확장될 수 있지만 방어책은 대부분 그렇지 않다”.

산업 영향 및 시장 우려사항

이 연구는 인공지능에 대한 열기로 주요 지수들이 신기록을 달성하며 AI 주식이 전례 없는 고점에 계속 도달하고 있는 가운데 나타났다. 그러나 증가하는 보안 취약점이 잠재적 시장 과대평가에 대한 이미 가열된 논쟁에 복잡성을 더하고 있다. JPMorgan Chase CEO인 제이미 다이먼은 최근 “AI는 실재한다”면서도 현재의 많은 투자들이 “아마도” 낭비될 수 있다고 경고하며, 앞으로 6개월에서 2년 내에 상당한 주가 하락에 대한 우려를 표명했다.

악의적 행위자들을 부추길 수 있는 연구 결과를 공개했음에도 불구하고, Anthropic은 “이러한 결과를 공개하는 것의 이익이 이러한 우려를 능가한다”고 믿으며, 취약점을 이해하는 것이 더 나은 방어 체계를 개발하는 데 중요하다고 주장했다. 회사는 공격자들이 실제로 독성 데이터를 훈련 세트에 삽입하는 데 여전히 상당한 어려움에 직면하고 있다고 언급했지만, 이 연구는 AI 업계 전반에 걸친 개선된 보안 조치의 긴급한 필요성을 부각시킨다고 했다.