LLM 서사 반복성의 경고
LLM은 사람보다 서로 닮은 이야기를 더 자주 만든다. 품질보다 서사 반복성을 봐야 한다.

10개 대표 LLM을 놓고 인간이 쓴 이야기와 비교하자, 논문의 핵심 결론은 비교적 단순했다. LLM이 만든 서사는 서로 더 닮아 있었다. 이 연구는 r/WritingPrompts 기반 프롬프트와 인간 작성 스토리를 바탕으로, 품질이 아니라 “이야기가 얼마나 반복되는가”를 묻는다. 이 점이 중요한 이유도 여기에 있다. 모델이 그럴듯한 문장을 잘 쓰는지보다, 같은 틀의 이야기를 계속 만들어내는지가 생성형 AI의 다음 병목일 수 있기 때문이다.
세 줄 요약
- 이 글의 핵심 쟁점은 LLM이 고품질 문장을 쓰는 것과 별개로, 서로 비슷한 서사를 반복하는지 여부를 어떻게 측정할 것인가다.
- 이 문제는 창작 도구, 마케팅 카피, 게임 내러티브, 교육 콘텐츠에서 출력의 신선도와 차별성에 영향을 준다. 또 샘플링 조정만으로는 해결되지 않을 수 있다는 점에서 중요하다.
- 독자는 자기 팀의 생성 파이프라인에서 같은 프롬프트당 복수 샘플을 뽑아 유사성부터 재고, 디코딩 설정 변경이 실제 개선인지 인간 평가와 함께 검증해야 한다.
현황
이번 연구의 출발점은 단순하다. LLM이 쓴 글이 자연스럽다는 사실과, LLM이 늘 새로운 이야기를 만든다는 사실은 같은 말이 아니다. 논문 초록과 본문 요약에 따르면 연구진은 r/WritingPrompts 기반 데이터와 대조 학습 프레임워크를 활용해 서사 유사성을 살폈다. 또 10개 LLM에 대해 인간 평가와 3개 자동 주석 방식을 함께 사용했다.
확인된 방향성은 일관됐다. 연구진은 LLM 생성 서사가 인간이 쓴 이야기보다 서로 더 비슷하다는 “consistent trend”를 보고했다. 이 경향은 모델 계열, 규모, 포스트트레이닝 전반에서 반복된 것으로 소개된다. 다만 검색 가능한 정보만으로는 개별 모델의 정확한 순위나 모든 효과 크기까지 확인되지는 않는다.
완화책의 한계도 언급된다. 조사 결과에 따르면 negative prompting과 temperature scaling 같은 대응은 이런 서사 동질성을 의미 있게 줄이지 못했다. 동시에 별도 연구들은 샘플링 기반 디코딩이 temperature tuning과 tail truncation을 통해 품질과 다양성 사이의 균형을 만든다고 설명한다. 즉, 설정을 바꾸면 결과가 달라질 수는 있다. 하지만 “설정 몇 개만 바꾸면 반복성이 풀린다”는 기대는 근거가 충분하지 않다.
이 흐름은 이 논문 하나에만 머물지 않는다. 다른 연구에서도 AI 스토리텔링의 상상력 범위가 인간보다 더 좁다는 관찰이 나온다. 다만 서사 유사성 점수와 인간의 창의성 판단이 얼마나 강하게 맞물리는지, 그 상관계수는 공개된 검색 결과만으로 확인되지 않았다.
분석
이 연구가 중요한 이유는 평가의 축을 바꾸기 때문이다. 지금까지 LLM 평가는 정확도, 유창성, 안전성에 쏠려 있었다. 그러나 스토리, 광고 문안, 캐릭터 대사, 브랜디드 콘텐츠처럼 “새로움” 자체가 가치인 영역에서는 유사성이 더 직접적인 비용이 된다. 출력이 매끈해도 플롯이 반복되면 사용자 체감은 빨리 떨어진다. 팀 입장에서는 모델 성능 문제가 아니라 제품 차별화 문제로 이어질 수 있다.
의사결정 관점에서 보면 조건은 분명하다. 제품이 사실 요약이나 규정 문서처럼 일관성을 우선한다면, 어느 정도의 반복성은 장점일 수 있다. 반대로 창작 보조나 엔터테인먼트가 핵심이면 이야기가 서로 닮아가는 현상은 결함에 가깝다. 여기서 트레이드오프가 생긴다. 디코딩을 더 공격적으로 바꾸면 참신성은 늘 수 있지만, 품질 저하나 위험한 출력도 함께 늘 수 있다. 별도 연구가 sampling method와 parameter 선택을 “diversity and risk”의 균형 문제로 다루는 이유도 여기에 있다.
한계도 분명하다. 첫째, 공개된 정보만으로는 10개 모델 각각이 얼마나 차이 나는지 세부 비교가 부족하다. 둘째, 인간의 “창의성” 판단은 놀라움, 참신성, 완성도, 일관성 같은 요소가 섞여 있어 단일 점수로 환원하기 어렵다. 셋째, r/WritingPrompts 기반 벤치마크는 유용하지만 모든 장르를 대표하지는 않는다. 기업용 카피, 게임 퀘스트, 교육용 사례 서술처럼 실제 산업 과제에서는 다른 패턴이 나올 수 있다.
실전 적용
이제 질문은 “이 모델이 잘 쓰나”가 아니라 “이 모델이 얼마나 같은 이야기를 다시 쓰나”다. 실무팀은 품질 평가표 옆에 유사성 평가표를 따로 둘 필요가 있다. 프롬프트 한 개에 답 하나만 뽑아 보면 이 문제는 잘 보이지 않는다. 같은 프롬프트에서 복수 출력을 뽑고, 그 사이의 플롯 구조, 인물 관계, 결말 패턴이 얼마나 겹치는지 봐야 한다.
예: 인터랙티브 스토리 앱을 운영한다면, 같은 프롬프트에 대해 여러 샘플을 생성한 뒤 “반전 방식이 같은가”, “주인공의 동기가 비슷한가”, “결말 감정선이 반복되는가”를 체크할 수 있다. 마케팅 팀이라면 카피의 문장 스타일보다 핵심 서사 프레임이 복제되는지부터 봐야 한다. 교육 콘텐츠 팀이라면 사례 서술이 늘 같은 교훈 구조로 수렴하는지 점검해야 한다.
오늘 바로 할 일 체크리스트:
- 같은 프롬프트마다 단일 출력 대신 복수 출력을 저장하고 상호 유사성을 리뷰 기준에 넣어라.
- temperature 같은 디코딩 값을 바꿨다면 품질 개선이 아니라 서사 중복 감소가 실제로 있었는지 별도로 측정하라.
- 자동 점수만 믿지 말고 인간 평가를 붙여 “덜 비슷하다”와 “더 창의적이다”가 같은 뜻인지 확인하라.
FAQ
Q. 이 연구는 LLM이 창의적이지 않다고 결론내렸나?
그렇게 단정하기는 어렵습니다. 확인된 것은 LLM 생성 서사가 인간 작성 서사보다 서로 더 비슷하다는 일관된 경향입니다. 창의성 전체를 부정했다기보다, 반복성과 유사성이 중요한 평가 축이라는 점을 강조한 연구에 가깝습니다.
Q. 프롬프트를 잘 쓰면 이 문제를 해결할 수 있나?
검색 결과 기준으로는 그렇게 간단하지 않습니다. 이 연구에서는 negative prompting과 temperature scaling 같은 흔한 완화책이 서사 동질성을 의미 있게 줄이지 못했다고 알려졌습니다. 프롬프트 수정은 필요하지만, 그것만으로 충분하다고 보기는 어렵습니다.
Q. 자동 유사성 점수만으로 제품 의사결정을 해도 되나?
권하지 않습니다. 이 연구도 인간 평가와 자동 방식들을 함께 활용했습니다. 특히 창작 제품에서는 자동 점수가 낮아도 사용자가 비슷하다고 느낄 수 있고, 반대로 점수가 높아도 새롭다고 받아들일 수 있어서 함께 봐야 합니다.
결론
이 논문이 던지는 메시지는 분명하다. LLM 평가의 다음 과제는 “얼마나 잘 쓰는가”만이 아니라 “얼마나 다른 이야기를 쓰는가”다. 창작형 제품을 만드는 팀이라면 이제 품질 벤치마크 옆에 서사 중복 벤치마크를 붙여야 한다.
다음으로 읽기
참고 자료
업데이트 받기
주간 요약과 중요한 업데이트만 모아서 보내드려요.
오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.