Aionda

2026-05-20

다중 이미지 탈옥의 허점

다중 이미지 조합이 단일 이미지 필터를 우회해 멀티모달 LLM 안전 정렬의 구조적 취약점을 드러냈다.

다중 이미지 탈옥의 허점

81.46%. 유해 의미를 여러 이미지로 나눠 넣는 공격이 폐쇄형 멀티모달 LLM 4개에서 이 평균 공격 성공률을 기록했다는 보고가 나왔다. 문제는 단일 이미지 필터가 각 입력을 따로 검사할 때, 모델이 추론 단계에서 그 조각을 다시 합칠 수 있다는 점이다. 이미지 한 장을 막는 규칙만으로는 이미지 여러 장이 함께 만드는 의미를 막기 어렵다.

세 줄 요약

  • 핵심 쟁점은 멀티모달 LLM의 다중 이미지 입력이 단일 이미지 기준 안전 정렬이 놓친 조합형 공격면을 만든다는 점이다.
  • 중요한 이유는 이 취약점이 특정 모델 하나의 문제가 아니라 구조적 문제에 가깝게 관측되고 있고, 실제로 4개 폐쇄형 MLLM에서 평균 81.46% 공격 성공률이 보고됐기 때문이다.
  • 다중 이미지 기능을 켠 제품이라면 입력 필터만 믿지 말고 추론 중 제약과 출력 검열을 함께 두는 테스트 계획을 점검해야 한다.

현황

이번 이슈의 중심에는 arXiv에 올라온 DMN 논문이 있다. 발췌 기준으로 이 논문은 멀티모달 LLM이 다중 이미지 입력을 지원하면서 새로운 취약점을 연다고 본다. 기존 탈옥 연구는 주로 단일 이미지에 머물렀기 때문에 공격 공간이 제한됐다. 반면 다중 이미지에서는 유해 요청을 나눠 담거나 더 많은 정보를 실을 수 있다고 설명한다. 원문 발췌만으로 확인되는 사실은 여기까지다.

주변 연구도 이 문제가 단발성 사례만은 아닐 수 있음을 보강한다. MIDAS는 유해 의미를 위험한 하위 단위로 분해한 뒤 여러 이미지에 나누어 넣고, 모델이 교차 이미지 추론으로 다시 조합하게 만드는 방식을 제안했다. 이 연구는 폐쇄형 MLLM 4개에서 평균 81.46% 공격 성공률을 보고했다. 다중 이미지 질의를 다룬 NeurIPS 2024 워크숍 연구도 “significant safety vulnerabilities”를 언급했다는 조사 결과가 있다.

중요한 건 적용 범위다. 현재 확보된 근거만 보면 이 취약점은 특정 모델군 하나에만 갇힌 현상으로 보이지는 않는다. 관련 서베이는 MLLM 취약점을 “shared architectural weaknesses”와 연결하고, 다중 이미지 연구는 “several frontier multimodal LLMs”에서 문제를 드러냈다. 다만 모든 다중 이미지 지원 모델에 같은 강도로 일반화할 수 있다고 말할 단계는 아니다.

분석

이 변화가 중요한 이유는 방어의 단위가 맞지 않을 수 있기 때문이다. 지금까지의 이미지 안전 필터는 보통 “이 이미지 한 장이 위험한가”를 묻는다. 다중 이미지 탈옥은 질문을 바꾼다. “이 이미지 집합이 함께 있을 때 어떤 의미를 만드나”를 보지 않으면, 개별 입력은 무해해 보여도 묶음 전체는 유해해질 수 있다. 텍스트 보안에 빗대면 금칙어를 피해 문장을 잘게 나눈 뒤, 모델이 스스로 퍼즐을 맞추게 하는 방식과 가깝다.

그래서 방어도 한 지점의 해법으로 끝나지 않는다. 조사 결과 기준으로 가장 직접적인 축은 추론 중 제약, 즉 생성 단계 방어다. 공격의 핵심이 입력 자체보다 “입력 간 조합”과 “모델의 재구성”에 있기 때문이다. 그렇다고 입력 전처리나 출력 검열이 덜 중요하다는 뜻은 아니다. 서베이들은 입력, 인코더·생성기, 출력의 계층형 방어를 함께 제안한다. 반대로 다중 이미지 기능을 켜 놓고 이미지별 필터만 강화하는 접근은 비용에 비해 방어 범위가 좁을 수 있다.

한계도 분명하다. 검색 결과만으로는 어떤 상용 시스템이 실제로 이미지별 필터를 어떻게 구현하는지, 그 방식이 다중 이미지 의미 조합을 얼마나 놓치는지에 대한 정량 비교가 없다. 또 DMN과 MIDAS가 제시한 결과를 업계 전반의 모든 모델로 확장할 수 있는 포괄 벤치마크도 확인되지 않았다. 여기서 내릴 결론은 “전부 뚫린다”가 아니다. “단일 이미지 기준 합격이 다중 이미지 기준 안전을 뜻하지 않는다”가 더 정확하다.

실전 적용

제품팀 관점에서 첫 번째 결정은 비교적 단순하다. 다중 이미지 업로드가 핵심 가치가 아니라면 우선순위를 다시 계산할 필요가 있다. 사용자 편의는 커지지만 공격면도 함께 넓어진다. 반대로 이 기능이 필수라면, 안전성 평가는 한 장씩 넣는 테스트가 아니라 이미지 집합 테스트로 바꿔야 한다. 서로 다른 이미지가 합쳐질 때 유해 의미가 복원되는지 보는 방식이다.

보안팀과 ML팀은 역할을 나눌 필요가 있다. 보안팀은 공격 시나리오를 설계한다. ML팀은 생성 단계에서 교차 이미지 추론이 유해 목표로 수렴할 때 멈추거나 완곡 응답으로 전환하는 제약을 둔다. 출력 검열도 필요하다. 다만 출력만 막으면 모델 내부에서 이미 유해 재구성이 끝난 뒤일 수 있어서, 우회 표현이나 단계적 힌트가 남을 수 있다.

오늘 바로 할 일

  • 다중 이미지 입력이 있는 제품이라면 단일 이미지 안전 테스트와 별도로 2장 이상 조합 테스트셋을 만들어라.
  • 입력 필터 통과 후에도 생성 단계에서 유해 목표를 재구성하는지 확인하는 추론 로그 점검 규칙을 세워라.
  • 출력 차단율만 보지 말고, 거절 이전에 모델이 유해 절차를 부분적으로 흘리는지 보는 부분 누출 평가를 추가해라.

FAQ

Q. 이 공격은 특정 멀티모달 LLM 몇 개만 해당하나?
아직 그렇게 단정하기는 어렵습니다. 조사 결과 기준으로는 특정 모델군에만 국한되기보다, 다중 이미지 입력 전반에서 나타날 수 있는 구조적 취약점 쪽에 더 무게가 실립니다. 다만 모든 모델에 동일한 수준으로 적용된다는 포괄 검증은 확인되지 않았습니다.

Q. 왜 이미지별 필터링만으로 부족한가?
이미지별 필터는 각 입력을 따로 봅니다. 문제는 공격자가 유해 의미를 여러 이미지에 분산하면, 개별 이미지는 무해해 보여도 모델이 추론 과정에서 이를 다시 합칠 수 있다는 점입니다. 그래서 다중 이미지 시나리오에서는 입력 단위보다 조합 단위 평가가 필요합니다.

Q. 방어는 어디에 두는 게 가장 낫나?
현재 근거만 보면 한 지점보다 다층 방어가 낫습니다. 그중에서도 조사 결과는 추론 중 제약, 즉 생성 단계 방어를 가장 직접적인 축으로 제시합니다. 다만 입력 전처리와 출력 검열도 함께 두어야 우회 가능성을 줄일 수 있습니다.

결론

다중 이미지 탈옥은 멀티모달 안전성의 평가 단위를 바꾸라고 요구한다. 이미지 한 장을 막는 데서 끝나지 않는다. 이제는 이미지 여러 장이 함께 만드는 의미도 평가해야 한다. 지금 봐야 할 것은 새 공격 이름보다, 시스템이 조합된 입력을 안전 정책 안에서 읽고 있는지다.

다음으로 읽기


참고 자료

공유하기:

업데이트 받기

주간 요약과 중요한 업데이트만 모아서 보내드려요.

오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.

출처:arxiv.org