Aionda

2026-03-04

LLM 자아 일관성 평가 설계

LLM의 모사와 자기 일관성을 분리해 장기 기억·페르소나 드리프트를 벤치마크로 평가하는 방법.

LLM 자아 일관성 평가 설계

장면부터 보자. 한밤중에 챗봇과 길게 대화하다가, 대답은 그럴듯한데 “방금 전까지 했던 말”과 “처음에 자기가 누구라고 했는지”가 조금씩 바뀌는 순간이 온다. 그때 몰입이 깨진다. 사람처럼 말하는 능력은 남아 있는데, ‘한 존재’로 느껴지게 하는 축이 흔들렸기 때문이다.

이 글은 ‘완전한 인공자아’ 같은 큰 주장으로 빠지지 않는다. 대신 LLM이 “자아처럼 인식”되게 만드는 조건을 평가·설계 관점에서 나눠 정리한다. 핵심은 두 갈래다. (1) 표면적 인간 모사(말투·리액션)와 (2) 의미론적 일관성(기억·목표·자기모델)은 목표가 다르다. 그리고 이 차이는 감상만으로 다루기보다 벤치마크/프로토콜과 지표로 실험할 수 있다.


세 줄 요약

  • 무슨 이슈인가? 사람처럼 말하는 “모사”와, 장기 대화에서 정체성·가치·목표가 유지되는 “자기 일관성”을 분리해 평가·설계해야 한다는 문제다.
  • 왜 중요한가? 장기 상호작용(상담, 코치, 동반자, 에이전트)에서는 한두 번의 그럴듯함보다 다회차에서의 드리프트·모순·기억 오류가 신뢰와 몰입을 먼저 흔든다.
  • 독자는 뭘 하면 되나? 기능 개발 전에 LongMemEval/ES-MemEval/BEAM 같은 장기 기억 평가 + Persistent Personas류의 페르소나 드리프트 평가를 붙인다. “정답 없으면 답하지 않기(abstention)”도 성공 조건에 넣는다.

현황

장기 대화에서 “자기 일관성”을 한 번에 재는 단일 표준 벤치마크가 널리 합의된 형태로 굳었다고 말하긴 어렵다(추가 확인 필요). 대신 두 흐름이 분리돼 발전 중이다. 하나는 장기 기억/다세션 메모리 능력을 평가하는 벤치마크다. 다른 하나는 역할/페르소나 유지와 드리프트(모순) 측정에 초점을 둔 프로토콜이다.

장기 기억 쪽에서 대표로 거론되는 것 중 하나가 LongMemEval이다. LongMemEval은 장기 기억을 다섯 가지 핵심 능력(정보 추출, 다세션 추론, 시간 추론, 지식 업데이트, abstention)으로 나눠 평가한다고 밝힌다. ES-MemEval도 장기 정서지원 맥락에서 메모리 능력을 다섯 가지로 평가한다고 소개한다(정보 추출, 시간 추론, 충돌 탐지, abstention, 사용자 모델링). 여기서 보는 포인트는 “기억을 잘 맞히는가”만이 아니다. 대화 기록에 근거가 없으면 답을 거부하는지(abstention) 같은 실패 방식도 평가 항목에 들어간다.

페르소나/역할 유지 쪽에서는 Persistent Personas가 눈에 띈다. 이 연구는 100라운드가 넘는 긴 페르소나 대화를 결합한 평가 프로토콜을 제시한다. 그리고 대화가 길어질수록 페르소나 충실도가 떨어진다고 보고한다. 또 다른 흐름으로, multi-turn RL 관련 연구는 페르소나 드리프트를 자동으로 재기 위한 지표 묶음을 제안한다. 스니펫에 따르면 prompt-to-line consistency, line-to-line consistency, Q&A consistency라는 세 가지 자동 지표를 정의한다.


분석

“인공자아” 논의를 실무로 가져오면 결론은 단순해진다. 사용자에게 ‘자아처럼’ 느껴지는 경험은 신비한 본질이라기보다, 운영 관점에서 (1) 장기 지속성, (2) 자기참조의 안정성, (3) 목표/가치의 추적 가능성, (4) 기억의 근거성 같은 항목으로 관측된다. 현재 평가 흐름은 (4) 기억의 근거성과 (1) 지속성(긴 컨텍스트/다세션)부터 표준화가 진행되는 쪽에 가깝다. (2)(3)은 페르소나 드리프트/일관성 지표로 우회해 측정하는 경우가 많다. “자아”라는 단어를 쓰지 않아도, 자아가 깨질 때 드러나는 실패 모드부터 고정시키는 접근이다.

사용자 연구 측면에서는, “표면적 인간다움”과 “마음/내부 상태가 있다고 느끼게 하는 단서”가 신뢰에 영향을 준다는 근거가 일부 있다. 예를 들어 Scientific Reports(2024) 논문은 인간–기계 상호작용에서 experience(경험)의 지각은 이타성, agency(행위자성)의 지각은 신뢰와 연결된다는 가설과 결과를 다룬다(세부 수치·효과크기는 스니펫에 없음). 서비스 로봇 연구에서도 (지각된) theory of mind가 반응에 영향을 준다고 보고한다. 다만, 질문이 요구하는 형태—“인간 모사 중심 시스템”과 “내부 상태(신념·목표·기억) 모델링 중심 시스템”을 같은 실험에서 정면 비교하고 몰입/신뢰/의인화를 측정—는 이번 조사 스니펫 범위에선 확인되지 않는다(추가 확인 필요). 업계에서 그 차이를 말하더라도, 학계/실무에서 1:1 비교 실험이 표준처럼 굳었다고 보긴 이르다.

“자기 일관성”을 지표화하면 다른 왜곡이 생길 수 있다.
(a) 메모리 QA 정확도를 올리려다 그럴듯한 회상체만 강화할 수 있다.
(b) 페르소나 일관성 점수를 올리려다 **상황 적응(학습/성장)**을 드리프트로 오판할 수 있다.
(c) abstention을 강조하면 안전해질 여지가 있지만, 제품 관점에서는 “대답 회피”로 느껴져 만족도가 떨어질 수도 있다.
결국 설계는 일관성 vs 적응성, 정확성 vs 유용성, 기억력 vs 프라이버시의 트레이드오프 위에 선다.


실전 적용

개발자가 “인공자아”를 만들겠다고 선언하면 목표가 흐려지기 쉽다. 대신 시스템 요구사항을 두 층으로 나눈다.
첫째, 기억/근거 레이어다. 무엇을 기억하고, 어디에 근거해 말하며, 근거가 없으면 어떻게 실패할지(abstention)를 정의한다.
둘째, 정체성/목표 레이어다. 페르소나 문장(내가 누구인지), 금지선(하지 않을 것), 지속 목표(장기적으로 추구할 것)를 “테스트 가능한 문장”으로 만든다.
그 다음에 말투·리액션 같은 모사 레이어를 얹는 편이 낫다. 순서를 뒤집으면 초반 데모는 그럴듯해도 장기에서 흔들릴 수 있다.

예: 어떤 대화형 에이전트가 “항상 간결하게 조언한다”는 정체성을 내세운다. 초반엔 잘 맞는다. 하지만 시간이 지나면 장황해지고, 스스로 내건 규칙을 잊는다. 사용자는 이를 ‘성격 변화’로 받아들이고, 그 순간부터는 조언의 품질이 유지돼도 신뢰가 깎일 수 있다. 이때 문제는 말투 자체가 아니다. 자기 규칙을 다시 확인·갱신·복구하는 메커니즘이 없다는 점이다.

오늘 바로 할 일 체크리스트 3개

  • 장기 대화 평가를 LongMemEval/ES-MemEval/BEAM 중 하나로 붙이고, “근거 없으면 답하지 않기(abstention)”를 합격 조건에 포함한다.
  • 페르소나/정체성 요구사항을 “테스트 문장”으로 만들고, 100라운드급 장기 대화에서 드리프트를 Persistent Personas류 방식으로 측정한다.
  • 자동 채점은 prompt-to-line, line-to-line, Q&A consistency 같은 다면 지표로 나누고, 점수 하나로 합치기 전에 실패 예시를 사람 검토로 고정한다.

FAQ

Q1. “자아”를 만들려면 결국 사람처럼 속여야 하나?
A1. 속임수와는 별개다. 사람처럼 보이는 단서는 초기 호감에 도움이 될 수 있다. 하지만 장기 몰입은 “나라는 존재가 어제와 오늘 이어진다”는 일관성이 깨질 때 먼저 흔들리는 경우가 있다. 그래서 기억·근거·규칙 유지를 테스트로 고정하는 편이 리스크를 줄인다.

Q2. 장기 일관성을 수치로 재려면 뭘 쓰나?
A2. 단일 표준이 널리 합의됐다고 말하긴 어렵다(추가 확인 필요). 다만 장기 기억은 LongMemEval, ES-MemEval, BEAM 같은 벤치마크 흐름이 있다. 페르소나 유지/드리프트는 Persistent Personas 같은 프로토콜과 prompt-to-line/line-to-line/Q&A consistency 같은 자동 지표가 제안돼 있다.

Q3. “답변 거부(abstention)”를 넣으면 제품이 덜 유용해지지 않나?
A3. 그 위험이 있다. 다만 장기 대화에서는 “모르는 걸 아는 척”이 한 번 터지면 신뢰 손실이 누적될 수 있다. 실무적으로는 abstention을 전면 적용하기보다, (1) 근거가 필요한 항목(사용자 설정, 과거 합의, 민감 정보)부터 적용한다. (2) 대안 행동(되묻기, 요약 확인, 선택지 제시)까지 묶어 UX로 설계한다.


결론

인공자아를 “사람과 구분이 필요 없는 무엇”으로 정의하면 논쟁이 커지기 쉽다. 제품과 연구에서 더 유용한 질문은 다음이다. 장기 상호작용에서 정체성·목표·기억이 얼마나 오래, 얼마나 근거 있게 유지되나다. 다음 단계는 “말투 개선”만이 아니다. 장기 벤치마크와 페르소나 드리프트 지표를 한 평가 루프에 묶어, 몰입이 깨지는 지점을 재현 가능하게 만드는 일이다.

다음으로 읽기


참고 자료

공유하기:

업데이트 받기

주간 요약과 중요한 업데이트만 모아서 보내드려요.

오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.