사법 AI, 권고보다 결합

판사 23명을 인터뷰한 연구에서는 재범 위험평가 도구를 판사들이 거의 활용하지 않았다는 사례가 나온다. 다른 한편, 미국 한 관할의 사전구속 결정을 다룬 준실험 연구에서는 판사들이 알고리즘 권고를 상당한 비율로 뒤집었고, 평균적으로는 그런 재량적 개입이 알고리즘 단독 결정보다 더 낮은 예측 성과와 연결되었다. 무작위로 위험평가 권고를 제공한 사전구속 실험에서는, 그 권고가 판사의 현금보석 부과 결정의 분류 정확도를 개선하지 못한 것으로 보고되었다. 같은 도구를 두고도 “과도하게 의존하는 문제”와 “거의 쓰지 않는 문제”가 함께 나타날 수 있다는 뜻이다.

세 줄 요약

사전구속·양형·가석방 같은 사법 영역에서 AI는 예측 도구를 넘어서, 판사가 권고를 어떻게 받아들이는지까지 포함한 인간-기계 의사결정 문제로 옮겨갔다.
중요한 이유는 성능이 조금 나아지느냐보다, 투명성·책임성·절차적 정당성이 흔들리면 사법 시스템 전반의 신뢰에도 영향을 줄 수 있기 때문이다.
독자는 AI 도입 여부보다 먼저 “누가 언제 어떤 근거로 권고를 뒤집는지”를 기록하고, 외부 감사와 TEVV 체계를 마련한 뒤 제한된 업무에서 시험해야 한다.

현황

사법 AI를 둘러싼 논의는 이제 “정확한가”라는 한 문장으로 끝나지 않는다. 원문 발췌에 따르면 이 분야의 핵심 쟁점은 사전구속, 양형, 가석방 맥락에서의 투명성, 신뢰성, 책임성이다. 동시에 인간 판단의 한계도 더 분명해졌다. 그래서 질문도 바뀌었다. AI가 판사를 대체하느냐가 아니라, 판사가 AI와 함께 일할 때 더 나은 결정을 하느냐다.

반대쪽 증거도 있다. Ben-Michael 외 연구는 판사에게 AI 권고를 무작위로 제공한 randomized controlled trial을 통해, 현금보석 결정의 분류 정확도가 개선되지 않았다고 보고한다. AI 권고를 제시한다고 성과가 자동으로 좋아지지는 않는다는 뜻이다. 판사가 권고를 무시해도 문제고, 맥락 없이 받아들여도 문제다. 기술 성능만으로 설명하기 어려운 운영상의 문제가 앞에 나온다.

제도 논의도 같은 방향으로 움직인다. OECD 자료는 사법 자율성을 지키려면 행정적 독립성과 자율적 사법심사 같은 견제장치가 함께 가야 한다고 적시한다. NIST는 TEVV, 즉 테스트·평가·검증·유효성확인 체계와 정량·정성 위험 측정, 문서화, 지속 모니터링을 강조한다. 요지는 단순하다. 법원에 들어오는 AI는 모델만이 아니라 절차까지 포함해야 한다.

분석

이 이슈가 중요한 이유는 사법 판단이 추천 시스템의 클릭 최적화와 다르기 때문이다. 전자상거래에서 잘못된 추천은 불편으로 끝날 수 있다. 그러나 사전구속이나 가석방에서는 자유, 안전, 낙인이 걸린다. 그래서 설명가능성은 부가 기능이 아니라, 당사자가 왜 이런 판단을 받았는지 다툴 수 있게 하는 절차의 일부가 된다. 권고의 정확성뿐 아니라, 그 권고가 어떻게 만들어졌고 누가 책임지는지도 중요하다.

오해도 많다. 첫째, “AI가 사람보다 더 일관되니 더 공정하다”는 말은 일부만 맞다. 일관성은 편향을 줄일 수도 있지만, 잘못 학습된 기준을 더 넓게 퍼뜨릴 수도 있다. 둘째, “최종 결정을 판사가 하니 책임은 인간에게 있다”는 말도 충분하지 않다. 판사는 화면에 뜬 점수와 권고 문구에 끌리는 자동화 편향을 겪을 수 있다. 반대로 도구 자체를 불신해 유용한 신호까지 버릴 수도 있다. 인간을 남겨두는 것만으로 책임성과 정당성이 확보되지는 않는다.

이번 주제의 핵심은 AI의 성능 자체보다 결합 방식이다. 기존 위험평가 연구가 예측 정확도, 편향, 도입 효과에 집중했다면, 최근 문헌은 인간 단독, 인간+AI, AI 단독을 나눠 비교하는 평가 틀을 제시한다. 이 구분이 중요한 이유는 법원이 사는 제품이 사실상 “모델”만이 아니라 “의사결정 구조”이기 때문이다. 같은 알고리즘이라도 판사에게 언제, 어떤 형태로, 얼마나 강한 언어로 제시하느냐에 따라 결과가 달라질 수 있다.

한계도 분명하다. 이번 조사 결과만으로 특정 도구가 어느 국가에서 법적 의무를 갖는지, 또는 어떤 장치가 실제로 어느 정도 성과를 내는지까지 확정할 수는 없다. 또 판사의 “과신”과 “무시”는 심리 상태를 직접 측정한 것이 아니라, 권고 뒤집기와 정확도 변화 같은 행동 결과를 통해 해석해야 한다. 그럼에도 사법 AI의 문제는 종종 모델 내부보다 인간-조직-절차의 접점에서 나타난다.

실전 적용

법원, 정책 담당자, 로펌, 공공기술 조달팀이 지금 봐야 할 질문은 하나다. “이 도구의 AUC가 높은가”가 아니라 “이 권고가 현장 의사결정에서 어떤 행동을 만들까”다. 따라서 시범 도입은 작은 단위에서 시작하는 편이 낫다. 예를 들어 사전구속 판단 전체를 맡기기보다, 판사가 검토해야 할 위험 요인을 구조화해 보여주는 보조 기능부터 평가할 수 있다. 이때도 로그, 이의제기, 사후 검토는 빠지면 안 된다.

예: 판사 화면에 위험 점수 하나만 띄우는 방식은 피하는 편이 낫다. 대신 어떤 입력 항목이 쓰였는지, 해당 권고에 어떤 한계가 있는지, 판사가 수용 또는 거부한 이유를 기록하게 설계해야 한다. 그래야 나중에 “도구가 틀렸는지”, “판사가 틀렸는지”, “둘의 상호작용이 문제였는지”를 구분할 수 있다. 사법 AI에서 감사가능성은 사후 보고서가 아니라 화면 설계에서 시작한다.

오늘 바로 할 일 체크리스트 3개:

현재 쓰는 위험평가·추천 도구가 있다면 판사가 권고를 수용하거나 뒤집은 사유를 남기는 로그 항목부터 만든다.
조달 또는 도입 문서에 외부 감사 허용, 문서화, 지속 모니터링, TEVV 요구사항을 넣는다.
성능 비교를 인간 단독, 인간+AI, AI 단독의 세 조건으로 나눠 다시 설계한다.

FAQ

Q. 사법 AI는 결국 판사를 대체하려는 기술인가?
아닙니다. 이번 조사 결과에서 더 핵심인 문제는 대체보다 보조입니다. 실제 쟁점은 판사가 AI 권고를 어떻게 받아들이고, 언제 뒤집고, 그 과정이 얼마나 설명되고 감사될 수 있는지입니다.

Q. AI 권고를 붙이면 판결이나 보석 판단이 더 정확해집니까?
그렇게 단정할 수는 없습니다. 조사 결과에 따르면 어떤 연구에서는 판사가 알고리즘보다 평균적으로 예측 정확도가 낮았지만, 다른 무작위 실험에서는 AI 권고 제공이 분류 정확도를 개선하지 못했습니다. 도구의 성능만이 아니라 사용 맥락과 인터페이스, 재량 구조가 함께 작동합니다.

Q. 그럼 무엇을 기준으로 도입 여부를 판단해야 합니까?
정확도 하나로 판단하면 부족합니다. 데이터 공개 수준, 설명 가능성, 외부 감사 가능성, 독립적 감독, 기록관리, TEVV, 지속 모니터링, 이의제기 절차를 함께 보셔야 합니다. 특히 권고를 누가 어떤 이유로 따르거나 거부했는지 추적할 수 있어야 합니다.

결론

사법 AI의 핵심 질문은 “알고리즘이 똑똑한가”가 아니다. “인간과 알고리즘이 함께 있을 때 정의에 더 가까워지나”다. 앞으로의 과제도 같다. 더 나은 모델을 찾는 일만이 아니라, 기록·감사·통제 구조를 어떻게 설계할지도 함께 다뤄야 한다.

Aionda

사법 AI, 권고보다 결합

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기