AI 글쓰기 평가는 누가 정하나

817개 질문으로 구성된 TruthfulQA조차 글쓰기의 “좋은 답” 전체를 재지는 못한다. 같은 AI 문장을 두고도 어떤 사람은 “충분히 쓸 만하다”고 하고, 어떤 사람은 “겉만 그럴듯하다”고 판단한다. 이 차이는 취향만의 문제가 아니다. 글쓰기 숙련도, 과업 맥락, 평가 기준이 다르면 AI 산출물을 보는 기준도 달라진다. 그래서 AI 글쓰기 도구의 경쟁은 생성 능력만이 아니라, 누가 어떤 기준으로 검수하느냐의 문제로 옮겨가고 있다.

세 줄 요약

같은 AI 생성 글도 사용자 숙련도와 평가 기준에 따라 품질 인식이 달라진다. 비전문가 평가는 AI 글과 인간 글을 안정적으로 가려내지 못할 수 있고, 숙련자는 더 높은 완성도를 요구한다.
이 차이는 도구 선택보다 워크플로 설계에 더 큰 영향을 준다. 문법적으로 무난한 초안과 실제 업무에서 통과할 문서는 다르기 때문이다.
지금 할 일은 간단하다. AI 글쓰기를 최종 작성기가 아니라 초안·재작성·톤 조정 도구로 두고, 사실성·스타일·독자 적합성 검수 기준을 따로 만들어야 한다.

현황

AI 글쓰기 평가에는 아직 단일한 “공식 점수표”가 없다. 조사 결과에 따르면 문법성은 fluency 축에서 grammatical accuracy, vocabulary range, sentence complexity, coherence, overall readability 같은 요소로 본다. 사실성은 TruthfulQA처럼 답이 truthful한지 묻는 방식과 factual consistency를 따지는 데이터셋 기반 평가로 나뉜다. 스타일 적합성도 EditEval의 “style more consistent” 같은 편집 과업과 WritingBench의 style, format, length 평가처럼 과업별로 나뉜다.

숫자는 이 문제를 더 분명하게 만든다. TruthfulQA는 817개 질문과 38개 카테고리로 진실성을 본다. 반면 인간 평가의 불안정성을 다룬 연구는 비전문가가 훈련 없이 stories, news articles, recipes 같은 도메인에서 인간 작성 텍스트와 기계 작성 텍스트를 제대로 구분하지 못한다고 적었다. 즉, 무엇을 재는지뿐 아니라 누가 재는지도 결과에 영향을 준다.

사용자 만족도도 단순하지 않다. Microsoft Research가 인용된 조사 결과에 따르면 “Experts and proficient users are only satisfied with AI agents with similar expertise”였고, 동시에 “Novices are least satisfied, regardless of the expertise of the AI agent”였다. 초보자는 기준이 낮아서 AI 글에 더 쉽게 만족할 것처럼 보일 수 있다. 하지만 실제로는 결과를 어떻게 다뤄야 할지 몰라 오히려 덜 만족할 수도 있다. 다만 인지 편향, 평가 기준 차이, 과업 적합성을 각각 분리해 정량화한 단일 연구는 이번 조사에서 확인되지 않았다.

공식 사용 가이드도 방향은 비슷하다. OpenAI 문서 기준으로 AI 글쓰기는 초안 작성, 재작성·압축, 톤 조정, 메모를 명확한 문서로 바꾸는 용도에 맞춰 소개된다. 창작 맥락에서도 “write for you”보다는 아이디어 발상, 피드백, 구조 점검, 단어 찾기 같은 보조 과업 중심의 사용법을 제시한다. 핵심은 분명하다. AI가 쓴 문장을 그대로 받아 적는 것보다, 사람이 맥락과 제약을 넣고 고치는 단계가 더 중요하다.

분석

이 이슈가 중요한 이유는 기업 안에서 “AI 글쓰기 도입률”보다 “검수 실패 비용”이 더 커질 수 있어서다. 초안 단계에서는 문법적으로 매끈한 문장이 높은 점수를 받기 쉽다. 하지만 실제 업무 문서는 더 좁고 까다로운 기준을 통과해야 한다. 숫자 하나가 틀리면 안 되는 공지, 어조가 어긋나면 안 되는 고객 메일, 근거가 빈약하면 안 되는 보고서에서는 readability와 factual consistency가 함께 맞아야 한다. 여기서 숙련자는 빈틈을 빨리 잡고, 비숙련자는 “자연스럽다”는 이유로 통과시킬 가능성이 커진다.

그렇다고 전문가만 정답이라는 뜻은 아니다. 전문가 평가는 더 엄격할 수 있지만, 그 엄격함이 과업 목적보다 높은 기준으로 이어질 때도 있다. 반대로 비전문가는 실제 독자와 더 가까운 반응을 보일 때도 있다. 문제는 둘 중 누가 옳으냐가 아니라, 평가 축을 섞어 쓰는 데 있다. 지금 공개된 벤치마크만 봐도 문법성, 사실성, 스타일, 길이 같은 항목은 따로 잰다. 그런데 현장에서는 이 항목들을 한 덩어리의 “품질”로 묶어 버린다. 그 결과 “AI가 글을 잘 쓴다”거나 “못 쓴다”는 말은 자주 빗나간다. 더 정확한 표현은 “특정 과업에서, 특정 기준으로 보면 쓸 만하다”다.

실전 적용

실무에서는 AI 글쓰기를 세 단계로 나누면 평가 격차를 줄일 수 있다. 첫째, 생성 단계에서는 구조와 속도를 얻는다. 둘째, 검수 단계에서는 사실성, 맥락, 브랜드 톤을 본다. 셋째, 승인 단계에서는 해당 문서를 실제로 책임질 사람이 최종 문장을 다시 쓴다. 이 흐름이면 초보자도 AI를 덜 위험하게 쓸 수 있고, 숙련자도 반복 작업을 줄일 수 있다.

예: 고객 공지 초안을 AI에 맡길 때 “정중한 톤으로 써줘”만 입력하면 무난하지만 비어 있는 문장이 나올 수 있다. 대신 독자, 목적, 금지 표현, 반드시 들어갈 사실, 문장 길이 기준을 함께 주면 결과가 달라진다. 그다음 사람 검수는 “자연스러운가”가 아니라 “사실이 맞는가, 우리 톤인가, 행동 요청이 선명한가” 순으로 진행해야 한다.

오늘 바로 할 일 체크리스트 3개

팀 문서 하나를 골라 AI 초안과 사람 수정본을 나란히 놓고, 문법·사실·톤·구조 네 항목으로 따로 채점해라.
비전문가 리뷰와 숙련자 리뷰를 분리해서 받고, 둘의 코멘트가 어디서 갈리는지 기록해라.
AI에게는 초안 작성과 재작성만 맡기고, 숫자·정책·대외 메시지는 최종 검수 없이는 내보내지 마라.

FAQ

Q. 글쓰기 초보자가 AI 글에 더 만족할 것 같았는데, 왜 꼭 그렇지 않습니까?
초보자는 결과의 품질을 평가할 기준이 부족할 수 있습니다. 동시에 결과를 어떻게 수정해야 할지도 막막할 수 있습니다. 조사 결과에서도 초보자는 AI의 전문성 수준과 무관하게 가장 덜 만족하는 경향이 보고됐습니다.

Q. 그럼 AI 글쓰기 품질은 무엇으로 평가해야 합니까?
한 점수로 끝내면 안 됩니다. 문법성, 사실성, 스타일 적합성, 길이와 형식 준수처럼 항목을 나눠 봐야 합니다. 이번 조사에서는 이 모든 항목을 한 번에 표준화해 재는 단일 공식 벤치마크는 확인되지 않았습니다.

Q. 실무에서 AI 글쓰기는 어디까지 맡기는 게 안전합니까?
공식 문서 기준으로는 초안 작성, 재작성, 압축, 톤 조정, 메모 정리가 적합합니다. 최종 권위로 두기보다 사람이 맥락을 주고 직접 검토·수정하는 편집 보조 도구로 쓰는 쪽이 권장됩니다.

결론

AI 글쓰기의 핵심 문제는 문장을 얼마나 그럴듯하게 만드느냐보다, 누가 어떤 기준으로 그 문장을 통과시키느냐다. 당분간 승자는 “가장 잘 쓰는 모델”이라기보다, 평가 격차를 워크플로로 흡수하는 팀일 가능성이 크다.

Aionda

AI 글쓰기 평가는 누가 정하나

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기