Aionda

2026-06-29

언러닝은 무엇을 지우나

LLM 언러닝을 데이터셋 삭제와 행동 통제로 구분해야 한다는 포지션 페이퍼의 핵심을 짚는다.

언러닝은 무엇을 지우나

정말 지워야 하는 것은 데이터인가, 답변인가, 아니면 모델의 습관인가? arXiv에 올라온 2606.27379 포지션 페이퍼는 LLM 업계가 이 셋을 자주 한 단어로 묶는다고 문제를 제기한다. 논문의 요지는 단순하다. “머신 언러닝”은 정확히 지정된 forget set, 즉 전체 학습 데이터 (D) 안의 부분집합 (F \subset D)의 학습 영향을 제거하는 문제로 좁혀 써야 한다는 주장이다. 이 구분이 중요한 이유는 규제 삭제 요구, 저작권 분쟁, 안전 정책 집행이 겉으로 비슷해 보여도 기술적 성공 기준이 서로 다르기 때문이다.

세 줄 요약

  • 이 글의 핵심은 LLM에서 “언러닝”이라는 말이 너무 넓게 쓰인다는 문제다. 포지션 페이퍼는 이를 정확히 특정된 forget set (F \subset D)의 영향 제거, 즉 dataset-defined deletion으로 제한하자고 제안한다.
  • 이 구분은 중요하다. 데이터 삭제 보장, 저작권 삭제 요구, 유해 출력 억제는 겉으로 비슷해 보여도 검증 기준이 다르다. 이를 섞으면 규제 준수나 성능 주장도 흐려진다.
  • 독자는 먼저 “무엇을 지우려는가”를 분류해야 한다. 데이터셋 삭제인지, 지식 억제인지, 정책 행동 수정인지 나눈 뒤 각각 다른 평가 기준을 붙여야 한다.

현황

LLM 연구와 제품 운영에서는 “잊혀야 한다”는 요구가 한꺼번에 들어온다. 원문 발췌에 따르면 그 이유는 규제상 삭제 의무, 저작권·라이선스 분쟁, 그리고 안전 또는 제품 정책 요구다. 문제는 이 요구들이 모두 같은 기술 과제가 아니라는 점이다. 어떤 경우는 특정 학습 데이터의 제거이고, 어떤 경우는 특정 응답을 막는 정책 집행이며, 또 어떤 경우는 모델이 이미 내면화한 행동 경향의 수정이다.

이 포지션 페이퍼는 여기서 구분선을 제시한다. 조사 결과에 따르면 논문은 dataset-defined deletion을 전체 데이터 (D)와 정확히 특정된 forget set (F \subset D)가 있을 때, (D \setminus F)만으로 처음부터 다시 학습한 반사실적 모델과 결과 모델이 근사적으로 구별되지 않도록 (F)의 학습 영향을 제거하는 문제로 정의한다. 핵심은 “출력을 못 하게 만들었는가”가 아니다. “그 데이터를 빼고 재학습한 모델과 거의 구별되지 않는가”가 성공 기준이다.

분석

이 논의가 중요한 이유는 “검증 가능한 삭제”와 “행동 통제”를 다시 분리하기 때문이다. 기업 입장에서는 둘 다 비용이 든다. 하지만 더 큰 문제는 주장 방식이다. 특정 문서를 학습에서 뺐다고 말하려면 dataset-defined deletion 기준에 가까운 검증이 필요하다. 반대로 유해 요청을 거부하게 만들었다면, 그것은 안전 정렬이나 정책 집행의 성과로 설명해야 맞다. 같은 “언러닝”이라는 라벨 아래 두 성과를 함께 묶으면, 법무팀과 제품팀, 연구팀이 서로 다른 약속을 한 문장에 담게 된다.

반론도 있다. 현실의 LLM 운영에서는 정확히 특정된 forget set을 확보하기 어렵다. 학습 파이프라인이 길고, 데이터가 중첩되며, 파생 지식이 얽혀 있기 때문이다. 조사 결과에서도 엄밀한 수학적 판별 기준이나 허용 오차, 예를 들어 특정 distance나 epsilon/delta 형태의 정량 임계값은 확인되지 않았다. 또 행동 수정과 안전 정렬을 구분하는 단일 표준 벤치마크가 검색 결과에서 확인된 것도 아니다. 즉, 용어를 정리하는 일은 출발점일 뿐이고, 평가 문제를 끝내는 해법은 아니다.

실전 적용

실무자는 이제 “언러닝” 요청이 들어오면 먼저 요청서를 다시 써야 한다. 삭제 대상이 정확한 데이터 샘플인지, 특정 사실의 재현 억제인지, 정책 위반 행동의 교정인지 구분하라는 뜻이다. 이 분류만으로도 많은 혼선을 줄일 수 있다. 데이터셋 삭제라면 기준선은 (D \setminus F) 재학습 모델이어야 하고, 안전 억제라면 기준선은 정책 순응 행동이어야 한다.

예: 권리자가 특정 문서 묶음의 삭제를 요구했다면, 그 문제는 “그 문서를 말하지 못하게 하라”가 아니라 “그 문서를 제외하고 학습했을 때와 비슷해야 한다”에 가깝다. 반대로 금지된 사용법 안내를 막고 싶다면, 그 문제는 데이터 삭제보다 정책 행동 수정에 가깝다. 두 문제를 같은 대시보드 점수로 관리하면 잘못된 결론이 나올 수 있다.

오늘 바로 할 일 체크리스트 3개

  • 삭제 요청 티켓에 “정확히 특정된 forget set이 있는가”라는 항목을 넣어라.
  • 평가 리포트에서 forget 성능과 retain 성능만 보지 말고 forget-retain overlap, combined queries, relearning 여부를 따로 기록해라.
  • 법무, 정책, 연구 문서에서 “unlearning”이라는 단어를 쓰기 전에 데이터 삭제, 지식 억제, 행동 수정 중 무엇인지 먼저 명시해라.

FAQ

Q. 답변을 거부하게 만들면 언러닝이 끝난 것 아닌가요?
아닙니다. 조사 결과에 따르면 dataset-defined deletion의 성공 기준은 표면적 비노출이나 응답 거부가 아니라, forget set을 제외하고 처음부터 재학습한 모델과 결과 모델이 근사적으로 구별되지 않는가입니다.

Q. 저작권 분쟁은 모두 언러닝 문제인가요?
그렇지 않습니다. 특정 데이터 샘플이나 문서 집합을 명시적으로 제거하라는 요구는 언러닝에 가깝습니다. 반면 침해성 출력을 막는 조치나 사용 정책 집행은 별개의 기술 문제로 다뤄야 합니다.

Q. 지금 표준 평가법이 이미 확립됐나요?
그렇게 보긴 어렵습니다. 조사 결과에서는 행동 수정과 안전 정렬을 구분하는 단일 표준 벤치마크가 확인되지 않았고, 엄밀한 수학적 허용 오차 기준도 확인되지 않았습니다.

결론

이 포지션 페이퍼의 메시지는 단어를 줄이자는 데 있지 않다. 무엇을 약속하는지 정확히 하자는 데 있다. LLM이 “무언가를 잊는다”는 말은 이제 하나의 마케팅 표현으로만 넘기기 어렵다. 무엇을 잊게 할 것인지, 어떤 기준선과 비교할 것인지, 그 검증을 누가 받아들일 것인지부터 다시 써야 한다.

다음으로 읽기


참고 자료

공유하기:

업데이트 받기

주간 요약과 중요한 업데이트만 모아서 보내드려요.

오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.

출처:arxiv.org