일관성보다 결단성, CUC
회피 답변도 높은 일관성 점수를 받는 한계를 짚고, CUC로 결단성과 효용을 함께 본다.

LLM이 모순 없이 답을 피하면, 그걸 추론 능력으로 봐야 할까. 2026년 arXiv에 올라온 2606.21083 논문은 이 지점을 문제 삼는다. 논문 발췌에 따르면, 지식집약적 논리 추론에서 모델은 entailment도 refutation도 고르지 않은 채 회피해도 negation consistency를 만족할 수 있다. 일관성 점수가 높아도 실제로는 쓸모없는 답일 수 있다는 뜻이다.
이 문제는 벤치마크의 사소한 설계 이슈로만 보기 어렵다. 기업이 원하는 것은 “서로 맞지 않는 말을 덜 하는 모델”만이 아니다. 불확실할 때는 멈추고, 판단할 때는 책임 있게 고르는 모델이 필요하다. 그래서 이 논문이 제안한 Coherence Under Commitment, 즉 CUC는 정확도 다음의 질문을 던진다. 답이 맞았는지뿐 아니라, 답을 하기로 했는지도 함께 보자는 제안이다.
세 줄 요약
- 핵심 이슈는 이렇다. 기존 일관성 평가는 모델이 답을 회피해도 높은 점수를 줄 수 있고,
2606.21083논문은 이를 겨냥해 일관성과 결단성을 함께 보는 CUC 평가를 제안한다. - 이 점이 중요한 이유는 운영 환경에서 “모순은 없지만 결정도 없는 모델”의 유용성이 낮을 수 있기 때문이다. 특히 불확실성 기반 abstention, RLHF, 디코딩 전략이 모두 답변 회피 성향에 영향을 줄 수 있어 평가 설계가 제품 판단 기준과 연결된다.
- 독자는 지금 accuracy 옆에 commitment 지표를 추가하면 된다. 평가셋에서 답변 거부·유보·양비론 출력을 따로 집계하고, 일관성 점수와 분리해 의사결정 규칙을 다시 짜야 한다.
현황
이 문제는 단독 이슈가 아니다. 조사 결과에 따르면 2404.10960은 불확실성 기반 abstention이 안전성과 hallucination 감소에 직접적 효과를 낼 수 있다고 설명한다. 반면 2602.04755는 SFT가 과신을 유도하고 신뢰도를 해칠 수 있으며, RL은 정확도 개선과 별개로 abstention 문제를 따로 볼 필요가 있다는 맥락을 준다. 또 2412.12527은 학습 없이도 디코딩 단계에서 abstention을 바꿀 수 있는 방법을 제시한다.
중요한 대목은 “무엇이 abstention 성향에 가장 크게 작용하느냐”가 아직 정리되지 않았다는 점이다. 조사 결과는 RLHF, 디코딩 전략, 불확실성 보정 세 요인을 같은 조건에서 직접 비교해 하나를 우위로 결론낸 근거를 확인하지 못했다고 적는다. 대신 현재까지 확인된 흐름은 이렇다. 불확실성 기반 보정은 abstention 성능과 신뢰도 개선에 직접 연결되고, RLHF는 상황에 따라 보정을 악화시킬 수 있으며, 디코딩 전략도 학습 없이 행동을 바꿀 수 있다. 즉 모델의 “침묵”은 하나의 원인으로 설명되기 어렵다.
분석
이 논문의 함의는 벤치마크의 초점을 바꾼다는 데 있다. 지금까지 논리 추론 평가는 대체로 정답률, 혹은 질문을 뒤집었을 때도 답이 일관적인지에 기대 왔다. 그런데 운영 현장에서는 일관성만으로는 부족하다. 계약 검토, 의료 정보 검색, 기업용 리서치처럼 지식집약적 도메인에서는 틀린 확신도 문제지만, 끝까지 결론을 미루는 시스템도 비용을 만든다. CUC는 이 둘을 분리해서 본다. “모순이 없는가”와 “실제로 판단했는가”를 함께 물어야 제품 품질을 더 현실적으로 볼 수 있다는 문제제기다.
그렇다고 CUC 하나로 모든 평가 문제가 풀리지는 않는다. 첫째, 어떤 상황에서 abstention이 바람직한지는 작업별로 다르다. 안전이 우선인 환경에서는 회피가 정답에 가까운 선택일 수 있다. 둘째, commitment를 강하게 압박하면 허위 확신이 늘 수 있다. 셋째, RLHF·보정·디코딩의 상호작용을 분리하지 않으면 CUC 점수 변화가 모델 능력 향상인지, 정책적 침묵 감소인지 해석이 어려워질 수 있다. 결국 CUC는 기존 지표를 대체하는 만능 점수라기보다, “유용한 추론”을 따로 측정하기 위한 보완 축으로 보는 편이 맞다.
실전 적용
개발팀이 지금 당장 바꿔야 할 것은 리더보드보다 로그 설계다. 모델 출력에서 “판단 보류”, “정보 부족”, “둘 다 아님”, “확실하지 않다” 같은 회피 패턴을 태깅해야 한다. 그리고 정확도, 일관성, abstention 비율, commitment 비율을 따로 본 뒤, 업무별 손실 함수에 맞춰 가중치를 정해야 한다. 고객지원 검색과 법률 요약을 같은 규칙으로 평가해서는 안 된다.
예: 내부 문서 질의응답 시스템에서 모델이 모순 없는 답을 유지해도, 핵심 질문마다 “확실하지 않다”로 빠지면 운영팀은 사람 검토 비용을 그대로 떠안는다. 반대로 고위험 도메인에서 회피를 너무 낮추면 잘못된 단정이 늘어난다. 그래서 팀은 먼저 “어디서 침묵이 비용이고, 어디서 침묵이 안전장치인지”를 분리해야 한다. 그다음에 CUC 같은 틀을 붙여야 숫자의 의미를 해석하기 쉽다.
오늘 바로 할 일 체크리스트 3개:
- 기존 평가셋에서 답변 회피 문구를 정규식이나 분류기로 태깅해 accuracy와 분리 집계해라.
- negation consistency를 쓰고 있다면 entailment·refutation 중 하나를 실제로 선택했는지 commitment 지표를 추가해라.
- RLHF, 불확실성 보정, 디코딩 설정을 한 번에 바꾸지 말고 한 변수씩 바꿔 abstention 패턴 변화를 로그로 남겨라.
FAQ
Q. CUC는 정확도보다 더 중요한가요?
정확도를 대체하기보다 보완합니다. 모델이 맞는 답을 내는지와, 애매한 회피 없이 실제 판단을 내리는지는 다른 문제이기 때문입니다.
Q. abstention이 많으면 무조건 나쁜가요?
그렇지 않습니다. 고위험 작업에서는 abstention이 안전장치가 될 수 있습니다. 다만 회피가 일관성 점수를 부풀리는 방식으로 작동하면 실제 유용성을 가릴 수 있으므로 별도 측정이 필요합니다.
Q. RLHF, 디코딩, 불확실성 보정 중 무엇을 먼저 봐야 하나요?
현재 조사 결과만으로 하나를 우선순위 1위로 단정하기는 어렵습니다. 다만 불확실성 기반 abstention은 직접적 효과가 보고됐고, 디코딩도 학습 없이 행동을 바꿀 수 있으므로 두 축부터 분리 실험하는 접근이 실무적입니다.
결론
이번 논문의 메시지는 단순하다. 답을 피한 모델에게 일관성 점수를 주는 순간, 우리는 추론이 아니라 침묵을 측정하게 된다. 앞으로 봐야 할 것은 더 높은 점수표만이 아니다. 모델이 언제 멈추고, 언제 책임 있게 선택하는지를 가르는 평가 규칙이다.
다음으로 읽기
참고 자료
업데이트 받기
주간 요약과 중요한 업데이트만 모아서 보내드려요.
오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.