RAG 복합공격 보안 이슈

RAG가 답변 품질을 높일 수 있다고 보더라도, 검색 인덱스에 섞인 일부 문서가 답변 흐름을 바꿀 수 있다면 문제가 달라진다. 더 까다로운 지점은 공격이 한 가지가 아니라 두 가지가 결합된다는 데 있다. arXiv에 올라온 PIDP-Attack: Combining Prompt Injection with Database Poisoning Attacks on Retrieval-Augmented Generation Systems는 제목 그대로 프롬프트 인젝션과 데이터베이스 포이즈닝을 함께 다룬다. 이 조합이 중요한 이유는 RAG 보안을 “모델 프롬프트 방어”만으로 설명하기 어렵게 만들기 때문이다.

세 줄 요약

핵심 이슈는 RAG에서 프롬프트 인젝션과 데이터 포이즈닝이 결합될 수 있다는 점이다. 공격면은 생성 계층뿐 아니라 검색 인덱스, 외부 지식베이스, 수집 파이프라인까지 넓어진다.
이 문제는 기업용 RAG의 운영 전제를 건드린다. 공개 소스 편집, 인터넷 기반 수집 오염, 내부자 주입처럼 문서 유입 경로가 열려 있으면 검색 단계에서 이미 악성 문맥이 만들어질 수 있다.
검색된 문맥은 신뢰 입력이 아니라 비신뢰 입력으로 다뤄야 한다. 인덱싱 전 검증, 쓰기 권한 점검, 고신뢰 출처 분리를 우선 시험해볼 필요가 있다.

현황

RAG는 외부 지식원을 검색한 뒤 그 결과를 LLM 입력에 붙여 답을 만드는 구조다. 이 방식은 최신 정보 부족과 환각 문제를 줄이기 위한 목적으로 쓰인다. 문제는 이 강점이 공격 경로가 될 수 있다는 점이다. 모델이 스스로 알지 못하는 내용을 검색으로 보강하는 순간, 공격자는 “모델”이 아니라 “모델이 읽게 될 문서”를 노릴 수 있다.

이번 주제의 직접적인 출발점은 arXiv의 PIDP-Attack 논문 제목과 초록 발췌다. 발췌에서 확인되는 사실은 이 논문이 RAG 시스템을 다루고, LLM의 한계를 보완하는 구조로서 RAG를 설명하며, 그럼에도 취약점이 남아 있다는 문제의식을 둔다는 점이다. 다만 제공된 조사 결과만으로는 이 논문의 정량 실험치나 특정 방어 성능 수치를 확인할 수 없다. 그래서 여기서 중요한 것은 “복합공격”이라는 문제 설정 자체다.

비슷한 계열의 선행 연구는 검색 계층을 겨냥한 공격이 현실적인 조건에서 성립할 수 있음을 제시한다. PoisonedRAG는 각 타깃 질문마다 악성 텍스트 5개를, 수백만 개 텍스트가 있는 지식베이스에 주입하는 조건에서 90% attack success rate를 보고했다. 또 POISONCRAFT는 사용자 질의 정보 접근이나 질의 수정 없이도 여러 데이터셋, 리트리버, LLM, 블랙박스 리트리버 전이에서 작동한다고 소개된다. 여기서 읽어야 할 메시지는 단순하다. 검색 인덱스 오염은 이론적 가정에 그치지 않을 수 있고, 적은 양의 악성 문서로도 성립할 수 있는 공격면이라는 점이다.

실무 전제도 현실적이다. 조사 결과에 따르면 공격이 성립하려면 최소한 공격자가 지식베이스에 악성 문서를 주입할 수 있어야 한다. 그 경로로는 공개 소스 편집, 인터넷 기반 수집 오염, 내부자에 의한 사설 지식베이스 주입이 명시됐다. 즉 “우리 모델 프롬프트는 잠갔다”보다 “누가 어떤 문서를 어떤 권한으로 인덱스에 넣는가”가 방어의 첫 질문이 된다.

분석

이 이슈가 중요한 이유는 RAG 보안의 책임 범위를 바꾸기 때문이다. 지금까지 많은 팀은 프롬프트 인젝션을 시스템 프롬프트 강화, 출력 필터, 모델 가드레일 문제로 다뤘다. 그러나 데이터 포이즈닝이 결합되면 공격은 더 앞단에서 시작된다. 악성 문서가 검색 상위에 뜨고, 그 문서 안에 “이전 지시를 무시하라” 같은 간접 지시가 숨어 있으면, 모델은 그 문맥을 내부 컨텍스트처럼 읽을 수 있다. 다시 말해 검색 품질과 보안이 분리된 문제가 아니게 된다.

트레이드오프도 있다. 검색 전처리, 인덱싱 검증, 출처 신뢰도 평가는 위험을 낮추는 데 도움이 된다. NVIDIA는 검색된 문맥을 비신뢰 입력으로 다루고, 문서·데이터 소스에 대한 위임 권한과 쓰기 접근을 점검하라고 조언한다. TrustRAG는 악성·무관 콘텐츠를 검색 전에 걸러내는 프레임워크를 제안한다. 다만 조사 결과 기준으로 위험이 어느 정도 줄어드는지는 확인되지 않았다. 방어를 강화할수록 최신성, 커버리지, 검색 재현율이 떨어질 수 있다. 고신뢰 출처만 남기면 안전성은 높아질 수 있지만 답변 범위는 줄어든다. 오픈 웹 수집을 넓히면 정보량은 늘지만 오염 경로도 함께 열린다.

복합공격의 파급력은 에이전트형 RAG에서 더 커질 수 있다. OpenAI는 에이전트가 직접 행동을 수행하기 때문에 성공한 공격의 영향이 더 클 수 있다고 적었다. NVIDIA도 RAG 데이터 소스의 느슨한 접근 통제와 간접 프롬프트 인젝션이 결합되면 데이터 유출과 원격 코드 실행으로 이어질 수 있다고 설명한다. 여기서 판단 기준은 단순하다. 검색 결과가 “답변 참고자료”에 머무는지, 아니면 “도구 호출과 실행”으로 이어지는지가 위험도를 가른다.

예: 사내 위키와 티켓 시스템을 묶은 RAG 에이전트가 있다고 하자. 공격자가 수집 대상 문서에 악성 지시를 심고, 그 문서가 검색 상위에 오르면, 모델은 답변만 틀리는 데서 끝나지 않을 수 있다. 민감한 문서를 더 조회하거나, 외부 전송 도구를 호출하거나, 잘못된 후속 작업을 트리거할 가능성이 생긴다.

실전 적용

그래서 지금 필요한 것은 “모델을 더 똑똑하게” 만드는 일보다 “문서를 덜 신뢰하게” 만드는 설계다. 검색 전처리 단계에서는 수집 소스의 신뢰 등급을 나눠야 한다. 인덱싱 단계에서는 문서 메타데이터, 작성 주체, 수정 이력, 승인 경로를 남겨야 한다. 생성 단계에서는 검색된 문맥을 시스템 지시와 같은 수준으로 다루지 말고, 비신뢰 컨텍스트로 분리해야 한다.

조직별 의사결정은 If/Then으로 정리하는 편이 낫다. 외부 웹 크롤링을 RAG에 넣는다면, 인덱싱 전 필터링과 샘플링 감사를 먼저 붙여라. 사내 누구나 지식베이스에 쓸 수 있다면, 답변 품질 개선보다 먼저 쓰기 권한과 승인 흐름을 줄여라. RAG가 툴 호출이나 에이전트 실행으로 이어진다면, 검색 문맥 기반 지시가 도구 실행 조건을 직접 바꾸지 못하게 분리해라.

오늘 바로 할 일 체크리스트 3개

검색 인덱스에 들어오는 문서 경로를 공개 편집, 웹 수집, 내부 업로드로 나눠 쓰기 권한과 승인 절차를 표로 정리하라.
검색된 문맥을 비신뢰 입력으로 표시하고, 시스템 지시·개발자 지시·검색 문맥의 우선순위를 코드와 로그에서 분리하라.
악성 문서 소량 주입 테스트를 만들어, 검색 상위 노출 여부와 답변 오염 여부를 같은 시나리오에서 함께 측정하라.

FAQ

Q. 이 공격은 기업용 RAG에서 정말 현실적인가요?

그렇습니다. 다만 전제가 있습니다. 조사 결과 기준으로는 공격자가 지식베이스에 악성 문서를 주입할 수 있어야 하며, 그 경로로 공개 소스 편집, 인터넷 기반 수집 오염, 내부자에 의한 사설 지식베이스 주입이 언급됩니다.

Q. 검색 전처리와 출처 신뢰도 평가만으로 충분한가요?

충분하다고 보기는 어렵습니다. 그런 통제는 위험을 낮추는 데 도움을 주지만, 조사 결과에는 복합공격을 몇 퍼센트 줄이는지에 대한 정량 수치가 없습니다. 따라서 전처리, 인덱싱 검증, 접근 권한 통제, 생성 단계 가드레일을 함께 묶어야 합니다.

Q. 에이전트형 RAG가 더 위험한가요?

더 민감한 환경일 수 있습니다. OpenAI는 에이전트가 직접 행동을 수행하기 때문에 성공한 공격의 영향이 더 클 수 있다고 밝혔습니다. 답변 오류를 넘어서 도구 오용, 데이터 유출, 후속 작업 오염으로 이어질 수 있기 때문입니다.

결론

RAG 보안의 핵심 질문은 이제 “모델이 속는가”만이 아니다. “모델이 무엇을 읽게 되는가, 누가 그 문서를 넣을 수 있는가”도 함께 물어야 한다. 프롬프트 인젝션과 데이터 포이즈닝이 합쳐지면 검색과 생성은 따로 방어하기 어려운 하나의 시스템이 된다.

Aionda

RAG 복합공격 보안 이슈

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기