같은 예측, 다른 설명의 함정

같은 환자를 같은 위험도로 분류한 두 모델이, 그 결론에 이른 이유에 대해 서로 다른 답을 내놓는다면 그 설명을 믿어도 될까? 이 질문은 XAI, 즉 설명 가능한 AI의 취약한 지점을 건드린다. arXiv에 공개된 Hypothesis Class Determines Explanation: Why Accurate Models Disagree on Feature Attribution는 예측이 같은 모델들 사이에서도 feature attribution, 즉 어떤 입력 변수가 얼마나 중요했는지에 대한 설명이 크게 달라질 수 있다고 말한다. 이 문제는 학술 논의에 그치지 않는다. 설명을 모델 선택, 감사, 규제 평가의 근거처럼 쓰는 조직이라면 실무 규칙을 다시 점검해야 한다.

세 줄 요약

이 글의 핵심 쟁점은 단순하다. 예측 동등성은 설명 동등성을 보장하지 않는다. arXiv 초록 기준으로 이 연구는 24개 데이터셋과 여러 모델 클래스에서 그 불일치를 관찰했다고 밝힌다.
이 점이 중요한 이유는 설명이 이미 모델 선택, 감사, 규제 평가에 쓰이기 때문이다. 같은 출력을 내는 모델의 설명이 달라지면 감사의 재현성과 신뢰성에 문제가 생긴다.
지금은 설명 결과도 성능 지표처럼 다뤄야 한다. 동일 데이터와 유사 사례에서 설명의 일관성을 따로 시험하고, 모델 클래스별 검증 기록을 남기는 절차가 필요하다.

현황

설명 가능한 AI의 현장에는 오래된 암묵적 가정이 있었다. 예측이 사실상 같다면 설명도 비슷할 것이라는 가정이다. 이번 논문 초록은 그 전제를 부정한다. 초록에 따르면 연구진은 24개 데이터셋과 multiple model classes를 대상으로, identical predictive behavior를 보이는 모델들이 substantially different feature attributions를 낼 수 있다고 적었다.

여기서 중요한 것은 “설명” 전반이 아니라 “feature attribution”이다. 이 방식은 모델이 특정 예측을 할 때 어떤 입력 특징이 얼마나 기여했는지를 점수처럼 나눠 보여준다. 실무에서는 이 결과를 바탕으로 “모델이 납득 가능한 이유로 판단했는가”, “민감한 변수를 우회해 쓰고 있지 않은가”, “감사 보고서에 포함할 수 있는가”를 따진다. 문제는 이번 초록이 prediction-equivalent models의 설명이 같지 않다고 지적한다는 점이다. 이 때문에 설명을 근거처럼 사용하는 관행도 다시 검토할 필요가 생긴다.

이 문제는 고위험 도메인에서 더 무겁게 다뤄진다. 의료처럼 설명이 실제 의사결정의 신뢰 근거로 사용되는 영역에서는, 설명이 모델의 판단 과정을 충실히 담는지 별도 검증이 필요하다는 문헌이 이미 있다. 조사 결과에 포함된 의료 영상 책임성 프레임워크는 설명 검증 연구, 예측의 신뢰구간 보고, 그리고 분기별 최소 감사 주기를 언급한다. 이번 논문의 문제 제기와 함께 보면, “설명을 제공했다”는 사실만으로는 부족하다. 그 설명이 안정적이고 재현되는지도 함께 봐야 한다.

분석

이 연구의 핵심은 정확도 경쟁 바깥에 있다. 지금까지 조직은 종종 “성능이 같다면 더 설명하기 쉬운 모델을 고르자”거나 “설명 결과를 규제 대응 문서에 붙이자”는 식으로 의사결정을 해왔다. 그런데 예측은 같고 설명은 다를 수 있다면, 설명은 모델의 본질을 그대로 보여주는 창이라기보다 모델 클래스에 따라 달라지는 해석 결과에 가깝다. 같은 예측을 내는 모델도 내부적으로는 다른 중요도 지도를 만들 수 있다는 뜻이다.

첫 번째 리스크는 감사의 흔들림이다. 같은 데이터, 같은 출력, 비슷한 운영 조건에서도 트리 기반 모델과 선형 모델이 서로 다른 attribution을 내면, 감사인이 무엇을 기준으로 “문제 없음”을 판단할지 모호해진다. 두 번째 리스크는 거버넌스의 착시다. 조직이 설명 하나를 출력해 문서화했다고 해서 설명 가능성이 확보된 것은 아니다. NIST가 강조하는 TEVV, 즉 시험·평가·검증·확인의 틀로 보면 설명도 성능처럼 검증 대상이다. 동시에 한계도 있다. 현재 검색 결과만으로는 어떤 attribution 기법이 가장 취약한지, 도메인별로 리스크가 얼마나 커지는지, 규제가 설명 안정성을 어떤 문구로 직접 요구하는지까지는 확인되지 않았다. 따라서 실무자는 “설명은 믿을 수 없다”가 아니라 “설명도 검증 없이 쓰면 안 된다”로 해석하는 편이 맞다.

실전 적용

실무에서 먼저 바꿔야 할 규칙은 이것이다. 설명을 결과물이 아니라 테스트 항목으로 다뤄야 한다. 모델 평가표에 정확도, 지연 시간, 비용만 둘 것이 아니라 설명 안정성 항목도 따로 둬야 한다. 같은 사례를 두고 모델 클래스를 바꿨을 때 attribution이 얼마나 흔들리는지, 재학습이나 데이터 샘플 변화에 설명이 얼마나 민감한지 기록해야 한다. 설명이 규제 대응 문서에 들어간다면, “이 설명은 어떤 모델 클래스와 어떤 설명 방식의 조합에서 얻었는가”도 함께 남겨야 한다.

예를 들어 대출 심사 모델을 운영하는 팀이라면, 최종 후보 모델 두 개가 비슷한 예측 성능을 보여도 설명 결과까지 같을 것이라고 가정하면 안 된다. 한 모델은 소득 안정성을 핵심 요인으로, 다른 모델은 직업 이력을 핵심 요인으로 내세울 수 있다. 출력이 같다는 이유만으로 둘 중 아무거나 선택하면, 이후 민원 대응이나 내부 감사에서 서로 다른 해석이 나올 수 있다. 설명은 사후 보고서의 장식이 아니라 선택 단계에서 확인해야 할 리스크 신호다.

오늘 바로 할 일 체크리스트 3개:

현재 운영 중인 모델 중 설명을 감사 문서에 쓰는 항목이 있다면, 동일 사례에 대해 다른 모델 클래스에서도 attribution을 비교하라.
모델 카드나 내부 문서에 설명 기법 이름만 적지 말고, 모델 클래스·데이터 버전·검증 조건을 함께 남겨라.
고위험 업무라면 설명 결과를 단독 증거로 쓰지 말고, 성능 검증과 별도 감사 주기 안에 설명 안정성 점검을 넣어라.

FAQ

Q. 이 연구는 특정 설명 기법이 특히 나쁘다고 말하나?
아닙니다. 현재 확인된 정보로는 특정 feature attribution 기법 가운데 무엇이 가장 큰 불일치를 보였는지 알 수 없습니다. 확인된 범위에서는 서로 다른 모델 클래스 사이에서 설명 합의가 크게 낮아졌다는 점이 핵심입니다.

Q. 그렇다면 설명 가능한 AI는 실무에서 쓸모가 없나?
그렇지 않습니다. 다만 설명을 자동으로 신뢰하면 안 됩니다. 설명은 여전히 쓸 수 있지만, 성능 지표처럼 시험하고 검증한 뒤 제한된 맥락에서 사용해야 합니다.

Q. 규제나 내부 통제에서는 무엇을 평가 기준에 넣어야 하나?
설명 제공 여부만 보지 말고 안정성·재현성·문서화를 함께 봐야 합니다. NIST가 말하는 TEVV 틀처럼 설명도 시험·평가·검증·확인의 대상에 두고, 이해당사자가 결과를 이해하고 이의를 제기할 수 있을 정도의 정보를 남겨야 합니다.

결론

XAI의 문제는 설명이 없다는 데만 있지 않다. 같은 예측을 내는 모델들이 서로 다른 설명을 낼 수 있다는 데 있다. 그래서 앞으로의 질문은 “설명이 있나?”가 아니라 “그 설명이 어떤 조건에서 얼마나 일관된가?”가 되어야 한다.

Aionda

같은 예측, 다른 설명의 함정

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기