RLHF와 사회선택의 쟁점
RLHF를 선호 집계 문제로 읽는 최근 연구와 공정성·안전 함의를 짚는다.

당신이 선호하는 답변과 내가 선호하는 답변이 다를 때, AI는 누구 편을 들어야 할까. 이 질문은 이제 철학 토론을 넘어 모델 학습의 설계 문제로 다뤄진다. arXiv에 올라온 2606.21550 논문은 인간 피드백 기반 정렬을 사회선택의 관점에서 읽어야 한다고 짚는다. 요지는 단순하다. RLHF는 성능 튜닝만이 아니라, 충돌하는 인간 선호를 하나의 목표로 묶는 집계 시스템이라는 뜻이다.
세 줄 요약
- 핵심 쟁점은 RLHF 같은 인간 피드백 정렬이 사실상 선호 집계 문제라는 점이다.
2606.21550,2310.16048,2405.14758같은 연구는 “무엇을 학습할까”보다 “누구의 선호를 어떤 규칙으로 합칠까”가 모델 행동에 영향을 준다고 본다. - 이 논의가 중요한 이유는 단일 보상모델이나 평균화가 공정성 실패, 소수 선호 과소대표, 기본 공리 위반으로 이어질 수 있기 때문이다. 정렬의 실패는 안전 문제로 이어질 수 있다.
- 독자는 지금 자신의 정렬 파이프라인에서 평균 보상만 보고 있는지 점검할 필요가 있다. 집단별 평가, 최저 복지 보호, 집계 규칙 비교 실험을 따로 돌려 의사결정 규칙을 문서화하라.
현황
먼저 사실관계부터 보자. AI Alignment From Social Choice Perspectives는 arXiv 2606.21550v1로 공개됐고, 발췌문 기준으로 이 논문은 인간 피드백 정렬을 “상충하는 바람직함 판단을 집계하는 문제”로 다루는 최근 연구를 서베이한다. 여기서 핵심은 새 알고리즘 하나를 내세우는 데 있지 않다. 사회선택이론, 즉 여러 사람의 선호를 어떤 규칙으로 합쳐 집단 의사결정을 만들지 연구하는 틀을 AI 정렬에 가져온다.
이 시각은 RLHF의 전제를 건드린다. 전통적인 RLHF 파이프라인은 여러 평가자의 선호를 모아 단일 보상모델로 압축한다. 그런데 Axioms for AI Alignment from Human Feedback(2405.14758)는 보상 함수를 학습하는 문제 자체가 선호 집계라고 본다. 또 Bradley-Terry-Luce 계열 모델이 기본 공리들을 충족하지 못한다고 지적한다. 즉 “평균적으로 더 선호된 답”을 고르는 방식이 곧바로 “사회적으로 정당한 목표”가 되지는 않는다는 뜻이다.
비슷한 문제의식은 다른 논문에서도 이어진다. 2310.16048은 넓은 가정 아래 민주적 절차만으로 RLHF를 통해 보편적 정렬을 만드는 유일한 투표 규칙은 없다고 본다. 2506.12350은 고전 공리만으로는 부족하다고 보고, preference matching, preference equivalence, group preference matching 같은 기준을 제안한다. 2405.00254는 인간 선호가 동질적이라는 가정이 약하다고 보고, 개인화와 선호 집계를 함께 다루는 접근을 제시한다.
실무적으로는 고전 투표 규칙 하나를 그대로 적용하는 방향보다 평균 효용 추정이나 이를 보정하는 방식, 그리고 집단 간 최악 사례를 보호하는 MaxMin형 집계가 더 직접 연결되는 방향으로 읽힌다. 조사 결과 기준으로는 그렇다. 반대로 보르다, 콩도르세, 최대로터리 같은 특정 고전 규칙이 실무에서 우세하다는 직접 근거는 확인되지 않았다. 이는 업계가 아직 정렬의 집계 규칙을 단일한 공식으로 정리하지 못했다는 뜻이기도 하다.
분석
왜 이게 중요할까. 지금까지 AI 정렬 논의는 자주 모델 규모, 학습 데이터, 보상모델 품질, 거절 정책 같은 층위에서 이뤄졌다. 사회선택 관점은 질문을 한 단계 아래로 내린다. 목적함수 자체가 정치적이고 제도적인 선택일 수 있다는 점이다. 어떤 사용자 집단의 선호를 더 크게 반영할지, 소수 집단의 손해를 어디까지 허용할지, 집단 간 충돌을 평균으로 덮을지 최저선을 둘지에 따라 같은 모델도 다른 행동을 낼 수 있다.
오해도 있다. 사회선택을 들여오면 AI가 자동으로 더 공정해진다는 기대다. 그렇지는 않다. 2310.16048이 짚듯 유일한 보편 규칙은 보이지 않는다. 2405.14758이 지적하듯 기존 집계 모델은 공리 수준에서 문제가 생길 수 있다. 2506.12350이 새 기준을 제안했지만, 공정성과 안전성을 하나의 표준 단일 지표로 묶는 업계 프로토콜은 조사 결과만으로 확인되지 않았다. 즉 사회선택은 만능 해법이라기보다, 어떤 손실을 감수할지 드러내는 틀에 가깝다.
실전 적용
개발팀이 당장 할 일은 복잡하지 않다. 먼저 현재 쓰는 정렬 파이프라인을 “보상모델 학습”이 아니라 “선호 집계 설계”로 다시 그려보면 된다. 누가 평가자인지, 어떤 집단이 섞여 있는지, 평균 점수 외에 집단별 실패가 어떻게 분포하는지 따져야 한다. 평균 보상이 높아도 특정 집단에는 반복적으로 해로운 답을 낼 수 있기 때문이다.
예: 의료, 교육, 공공정보처럼 가치 충돌이 잦은 도메인에서는 전체 선호 평균만 최적화하지 말고, 집단별 만족도와 최악 사례를 함께 보라. 이때 한 모델이 전체적으로 무난한 답을 잘 내더라도, 소수 집단 표현이나 민감한 상황 대응에서 체계적으로 밀릴 수 있다. 이런 문제는 학습률보다 집계 규칙에서 비롯될 수 있다.
오늘 바로 할 일 체크리스트 3개:
- 현재 RLHF 또는 선호학습 데이터에서 평가자를 집단별로 나눌 수 있는지부터 확인하라.
- 평균 보상 점수 옆에 집단별 복지, 집단별 실패율, 최악 사례 지표를 나란히 붙여라.
- 하나의 집계 방식만 쓰지 말고 평균형과 MaxMin형 규칙을 같은 데이터로 비교해 결과 차이를 기록하라.
FAQ
Q. 사회선택이론은 RLHF를 대체하는 새 학습법입니까?
아닙니다. 사회선택이론은 RLHF를 대체하기보다, RLHF가 이미 하고 있는 선호 집계를 더 명확하게 해석하고 평가하는 틀에 가깝습니다.
Q. 그럼 평균 선호를 따르는 보상모델은 잘못된 방식입니까?
그렇게 단정할 수는 없습니다. 평균화는 구현이 단순하고 기존 파이프라인과 잘 맞지만, 소수 선호를 놓치거나 공정성 문제를 만들 수 있어 보완 규칙과 집단별 평가가 필요합니다.
Q. 지금 당장 가장 현실적인 선택은 무엇입니까?
조사 결과만 기준으로 보면, 단일 고전 투표 규칙보다 평균 효용 추정 계열과 MaxMin형 집계가 더 현실적으로 연결됩니다. 다만 어느 규칙이 항상 가장 낫다는 합의된 결론은 확인되지 않았습니다.
결론
AI 정렬은 더 이상 “모델을 얼마나 잘 훈련하느냐”만의 문제가 아니다. 누구의 선호를 어떤 규칙으로 합칠지 묻는 사회선택의 문제다. 앞으로는 새 보상모델의 이름보다, 그 보상모델 뒤에 있는 집계 규칙과 공정성 기준을 함께 봐야 한다.
다음으로 읽기
참고 자료
- AI Alignment and Social Choice: Fundamental Limitations and Policy Implications - huggingface.co
- Theoretical Tensions in RLHF: Reconciling Empirical Success with Inconsistencies in Social Choice Theory - arxiv.org
- AI Alignment and Social Choice: Fundamental Limitations and Policy Implications - arxiv.org
- Axioms for AI Alignment from Human Feedback - arxiv.org
- RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation - arxiv.org
- Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback - arxiv.org
- arxiv.org - arxiv.org
업데이트 받기
주간 요약과 중요한 업데이트만 모아서 보내드려요.
오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.