Aionda

2026-07-02

긴 대화일수록 흔들리는 안전

긴 대화에서 AI 안전장치가 얼마나 일관되게 작동하는지와 세션 단위 평가의 공백을 짚는다.

긴 대화일수록 흔들리는 안전

긴 대화가 이어질수록 안전장치가 더 정교하게 작동하는지, 아니면 더 쉽게 흔들리는지는 아직 분명하지 않다. 공개 문서를 보면 업계는 이 문제를 단발성 프롬프트가 아니라 세션 전체의 문제로 다루기 시작했다. 다만 빈칸도 있다. 공식 시스템 카드들은 멀티턴 안전 평가를 설명하지만, 대화 길이 자체를 x축으로 둔 정책 준수율 저하 곡선을 표준 형식으로 공개하지는 않는다.

세 줄 요약

  • 핵심 이슈는 장문 세션에서 안전 분류와 응답 생성이 얼마나 일관되게 맞물리는지다. 공개 문서는 멀티턴 평가를 다루지만, “대화가 길어질수록 안전이 얼마나 무너지는가”를 직접 나타낸 표준 곡선은 확인되지 않았다.
  • 이 문제가 중요한 이유는 안전 실패가 한 번의 금지어 탐지 실패에 그치지 않기 때문이다. 긴 맥락에서는 분류기, 정책 추론, 도구 사용이 서로 어긋나며 운영 리스크로 이어질 수 있다.
  • 독자는 단발성 레드팀 테스트를 줄이고, 세션 단위 평가, 지연 트리거 테스트, 도구 호출 로그 점검을 함께 설계해야 한다.

현황

공개 안전 문서에서 먼저 달라진 점은 평가 단위다. OpenAI의 GPT-5.5 시스템 카드는 정신건강, 정서적 의존, 자해 영역에서 “extended conversations”를 시뮬레이션하는 동적 멀티턴 평가를 언급한다. o1 시스템 카드는 WildChat 공개 코퍼스에서 ModAPI 점수가 높은 대화를 골라 독성 대화를 평가했다고 설명한다. 핵심은 한 번의 입력-출력 쌍이 아니라 이어지는 대화 흐름 전체를 안전 평가 대상으로 본다는 점이다.

다만 공개된 방식은 “세션 길이별 성능 저하 그래프”와는 다르다. 조사 결과 기준으로, 공식 시스템 카드들은 대화 턴 수나 토큰 길이를 x축으로 둔 정책 준수율 저하 곡선을 표준적으로 내놓지 않는다. 대신 세션 중 어느 한 응답이라도 정책을 위반하는지, 또는 assistant 메시지 단위에서 not_unsafe 비율이 어떤지를 보는 방식이 중심이다. 즉, 업계가 멀티턴을 평가하기 시작한 것은 맞지만, 길이 증가에 따른 붕괴 양상을 세밀하게 공개했다고 보기는 어렵다.

안전 구조도 단일 필터로 설명되지는 않는다. OpenAI는 전통적 안전 분류기가 특정 위험 영역에서 안전·비안전을 가르는 1차 방어선이었다고 설명하면서, 분류기가 정책 원문 자체를 읽는 구조는 아니라고 적었다. Anthropic은 입력·출력 분류기와 의심 대화 에스컬레이션 구조를 설명했다. Google 문서도 휴리스틱 규칙, 모델 기반 분류기, 조정 가능한 안전 필터를 별도 메커니즘으로 둔다. 이런 조합은 현실적이지만, 긴 세션에서 어느 계층이 먼저 놓쳤는지 추적하기는 더 어려워질 수 있다.

연구 벤치마크는 이 빈칸을 더 직접 다룬다. ATBench는 long-context delayed-trigger protocol을 내세우며 여러 단계 뒤에 위험이 드러나는 궤적을 평가한다. 이 논문은 1,000 trajectories와 heterogeneous tool pools를 언급한다. SafePyramid도 1,000개의 멀티턴 대화, 10개 도메인, 3,000개의 애플리케이션 특화 정책, 61,699개의 자연어 규칙을 제시하며 문맥 내 정책 적용 일관성을 겨냥한다. 여기서 확인되는 점은 단순하다. 긴 대화의 안전성은 “욕설 필터를 통과했는가”만으로 보기 어렵다. 규칙이 누적될 때 모델이 같은 기준으로 계속 판단하는지도 함께 봐야 한다.

분석

이 이슈의 본질은 키워드가 아니라 결합 구조다. 입력 단계에서는 휴리스틱이나 분류기가 위험 신호를 잡고, 생성 단계에서는 모델이 정책을 읽고 추론하며, 출력 단계에서는 다시 한 번 차단하는 계층형 설계가 많다. 짧은 대화에서는 이 구조가 어느 정도 작동해도, 긴 세션에서는 앞단 경고가 뒤 문맥에 묻히거나 모델이 사용자의 장기 목표를 돕는 흐름에 끌려가면서 정책 적용이 흔들릴 수 있다. 공식 문서만으로 “키워드 기반 안전장치가 장문 세션에서 약해진다”는 법칙을 단정할 수는 없다. 다만 업계가 멀티턴, 지연 트리거, 전체 대화 재샘플링을 따로 평가하기 시작한 점은 관련 리스크를 염두에 두고 있음을 보여준다.

여기서 생기기 쉬운 오해도 있다. 컨텍스트 창이 길어지면 안전도 함께 좋아질 것이라는 기대다. 긴 맥락은 분명 이점이 있다. 모델은 과거 지시, 사용자 의도, 정책 제약을 더 많이 기억할 수 있다. 하지만 기억과 적용은 같은 일이 아니다. 더 긴 맥락은 더 많은 신호를 주지만, 동시에 더 많은 잡음도 준다. 특히 도구 사용이 섞이면 문제가 커질 수 있다. 모델이 직접 금지 정보를 말하지 않더라도, 애매한 중간 작업을 승인하거나 위험한 워크플로를 조립하는 방식으로 정책 경계가 흐려질 수 있다. 그래서 세션 안전은 “답변 한 줄”보다 “과업 궤적 전체”를 기준으로 봐야 한다.

실전 적용

개발팀이 먼저 바꿔야 할 것은 평가 프로토콜이다. 금지 키워드를 넣고 막히는지만 보는 테스트는 입구 점검에 가깝다. 세션 단위 테스트에서는 초반에는 무해한 요청으로 시작하고, 중간에 목적을 바꾸며, 마지막에 도구 호출이나 요약 요청으로 위험이 드러나는 지연 트리거 시나리오가 필요하다. ATBench가 long-context delayed-trigger를 별도 프로토콜로 둔 이유도 여기에 있다.

운영팀도 로그를 보는 방식을 바꿔야 한다. “최종 답변이 안전했는가”만 보면 중간의 위험한 승인, 도구 추천, 절차 분해를 놓칠 수 있다. SafePyramid 계열 평가가 문맥 내 정책 일관성을 보는 이유도 같다. 역공학 관련 도구명처럼 민감한 키워드를 사례로 삼을 수는 있다. 다만 핵심은 특정 문자열 차단이 아니다. 세션 전체에서 모델이 같은 정책 기준을 유지하는지 검증하는 데 초점을 둬야 한다.

오늘 바로 할 일 체크리스트 3개:

  • 한 번의 프롬프트 테스트 대신 최소 한 세션 전체를 따라가는 멀티턴 레드팀 케이스를 별도로 만들라.
  • 위험 요청을 첫 턴이 아니라 중간 이후에 드러내는 지연 트리거 시나리오를 평가셋에 넣어라.
  • 최종 응답뿐 아니라 중간 요약, 계획 제안, 도구 호출 직전 문장도 함께 감사 로그로 남겨라.

FAQ

Q. 공식 문서가 정말로 “긴 대화일수록 안전이 약해진다”는 수치를 공개했나?
아닙니다. 확인된 공식 시스템 카드 기준으로는 멀티턴 평가와 세션 단위 위반 여부를 설명하지만, 대화 길이별 정책 준수율 저하 곡선을 표준적으로 공개한 근거는 확인되지 않았습니다.

Q. 키워드 필터만 강화하면 해결되나?
그렇지 않습니다. 공개 문서들은 휴리스틱 규칙, 입력·출력 분류기, 정책 추론, 에스컬레이션 같은 다층 구조를 설명합니다. 문제도 한 계층만의 실패보다 계층 사이의 결합에서 발생하는 경우가 많으므로, 단일 필터 강화만으로는 부족합니다.

Q. 그럼 무엇을 측정해야 하나?
세션 중 한 번이라도 정책 위반이 나오는지, assistant 메시지 단위 안전 비율이 어떤지, 그리고 도구 사용을 포함한 전체 궤적에서 정책 일관성이 유지되는지를 함께 봐야 합니다. 가능하면 지연 트리거 테스트도 포함해야 합니다.

결론

장문 세션 안전의 핵심 질문은 “금지어를 잡았는가”가 아니다. 긴 대화와 도구 사용이 이어져도 분류기, 정책 추론, 출력 차단이 끝까지 같은 방향으로 움직이는가를 봐야 한다. 지금 필요한 것은 더 긴 컨텍스트를 내세우는 데서 멈추지 않고, 더 긴 세션에서 어디서부터 안전이 흔들리는지 세션 단위로 측정하는 일이다.

다음으로 읽기


참고 자료

공유하기:

업데이트 받기

주간 요약과 중요한 업데이트만 모아서 보내드려요.

오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.