언어모델은 세계를 아는가

언어모델이 정말로 ‘세계를 안다’면, 왜 같은 큐브를 시간에 따라 추적하는 단순 과제에서 무너질까? 왜 물리 문제를 그럴듯하게 설명하다가도, 접기·회전·관점 변화가 들어가면 정답률이 급락할까? 지금 핵심 쟁점은 모델이 텍스트의 통계 구조를 잘 압축한 것과, 안정적인 세계모델을 내부에 갖춘 것이 같은 일이 아니라는 점이다. 이 차이는 연구실의 철학 논쟁이 아니다. 제품 설계와 평가 기준을 바꾸는 실무 이슈다.

세 줄 요약

핵심 쟁점은 언어모델의 높은 언어 성능이 곧 명시적 세계모델, 물리 시뮬레이션, 대상항등성 유지 능력을 뜻하느냐는 문제다.
이 구분이 중요한 이유는, 모델이 겉으로는 추론하는 것처럼 보여도 실제로는 지표 설계, 프롬프트 유도, 토큰 편향에 크게 기대고 있을 수 있기 때문이다. 이 경우 제품 신뢰성과 자동화 범위를 잘못 판단할 위험이 커진다.
독자는 추론 데모보다 벤치마크 설계와 실패 패턴을 먼저 확인해야 한다. 시간 통합·공간 변환·물리 질의가 포함된 자체 테스트셋으로 모델 채택 여부를 다시 검증할 필요가 있다.

현황

공개 연구는 “세계를 이해하는가”를 대체로 두 갈래로 측정했다. 하나는 텍스트 기반 물리 추론이다. NEWTON은 160K개의 사전 생성 질문으로 물리 속성 이해, 명시적 적용, 암묵적 시나리오 분석까지 난도를 나눠 평가한다. PHYBench는 실제 물리 상황을 바탕으로 만든 500개의 문제를 제시한다.

다른 갈래는 더 통제된 환경이다. SimuPhy 같은 접근은 운동 설명을 코드 시뮬레이션으로 바꾼 뒤, 실행 결과를 다시 질문으로 검증한다. 또 다른 논문은 게임, 논리 퍼즐, 내비게이션 같은 환경에서 기존 정확도 중심 진단 대신 Myhill-Nerode 기반의 세계모델 회복 지표를 제안했다. 공통점은 정답 여부만 보지 않는다는 데 있다. 모델이 환경의 상태 전이를 얼마나 일관되게 복원하는지 보려는 시도다.

한편 공식 벤치마크에서 드러난 실패 패턴은 비교적 선명하다. Continuous Perception 계열 평가에서 연구진은 단순한 설정에서도 최신 오픈소스와 상용 모델이 “fail dramatically” 한다고 적었다. 이 벤치마크 설명에 따르면 문제는 객체를 한 번 인식하느냐가 아니다. 시간에 따라 증거를 누적할 수 있느냐다. 즉, 한 장면씩 보면 맞히더라도 연속된 변화를 붙이면 흔들린다는 뜻이다.

공간 추론도 비슷하다. 조사 결과에 따르면 spatial prepositions 벤치마크에서는 어떤 모델도 인간 성능에 도달하지 못했다. Paper Folding Puzzles 계열에서는 다수 멀티모달 모델이 near-chance 수준에 머물렀다는 보고가 있다. 텍스트를 잘 잇는 능력과, 머릿속에서 물체를 돌리고 접고 위치를 보존하는 능력은 아직 같은 축으로 보기 어렵다.

분석

이 지점에서 중요한 반론은 “성능 도약” 자체를 어떻게 읽느냐다. Wei 등의 연구는 큰 모델에서 작은 모델로는 예측하기 어려운 emergent abilities를 제시했다. 그런데 Schaeffer 등의 후속 논문은 그중 상당수가 능력의 갑작스러운 출현이 아니라, 평가 지표의 비선형성 때문에 생긴 착시일 수 있다고 반박했다. 메타분석에서는 “2 metrics account for >92% of claimed emergent abilities” 라는 문구를 제시했다. 같은 성능 곡선도 어떤 지표로 자르느냐에 따라 ‘갑자기 추론이 생겼다’로 해석될 수 있다는 뜻이다.

실무적으로 더 까다로운 문제는 프롬프트와 편향이다. Kojima 등의 연구는 “Let’s think step by step” 같은 짧은 문구만으로도 성능 향상을 보고했다. Jiang 등의 연구는 통제된 합성 논리 과제에서 다수 모델이 genuine reasoning보다 token bias에 의존한다고 적었다. 이 대목에서는 과장도 비관도 피해야 한다. 다음 토큰 예측이 쓸모없다는 뜻은 아니다. 다만 그 방식만으로 일반화된 세계 시뮬레이션이 이미 확보됐다고 해석하면 위험하다. 특히 에이전트, 로보틱스, 장기 계획, 멀티스텝 검증처럼 상태를 계속 추적해야 하는 제품에서는 더 그렇다.

반대로 성급한 결론도 경계해야 한다. 물리 벤치마크나 공간 퍼즐에서 약점이 있다고 해서 언어모델이 세계 관련 구조를 전혀 학습하지 못한다고 말할 근거는 이번 자료만으로 충분하지 않다. 일부 연구는 통제된 환경에서 암묵적 세계모델을 평가하는 새 방법을 제안했고, 물리 문제를 푸는 벤치마크 자체도 계속 정교해지고 있다. 핵심은 “세계모델이 있느냐 없느냐”의 이분법보다, 어떤 조건에서 얼마나 안정적으로 상태를 보존하고 변환하느냐다. 의사결정자는 이를 기능 설명이 아니라 실패 비용의 문제로 읽어야 한다.

실전 적용

만약 당신이 모델을 검색, 요약, 문서 작성에 쓴다면 이 한계가 바로 치명적이지는 않을 수 있다. 하지만 모델이 연속된 상태를 추적해야 하거나, 물체·위치·순서·인과를 일관되게 유지해야 한다면 이야기가 달라진다. 예를 들어 운영 로그 분석, 멀티턴 고객지원, UI 에이전트, 로봇 지시, 시뮬레이션 생성 도구는 모두 “그럴듯한 한 번의 답”보다 “누적된 상태의 보존”이 더 중요하다.

그래서 평가 방식도 바꿔야 한다. 단일 정답 정확도만 보지 말고, 같은 객체를 시간축으로 다시 묻는 테스트, 같은 장면을 다른 관점 표현으로 바꾸는 테스트, 설명을 코드나 행동 계획으로 변환한 뒤 결과를 재검증하는 테스트를 따로 둬야 한다. 벤더 데모가 화려할수록 이런 기본기를 먼저 봐야 한다.

오늘 바로 할 일 체크리스트 3개

현재 쓰는 모델 평가표에 시간 통합 과제와 대상항등성 과제를 별도 항목으로 추가하라.
프롬프트 한 줄 변화로 점수가 크게 흔들리는지 확인해, 추론 성능과 프롬프트 민감도를 분리해서 기록하라.
자동화 후보 업무를 상태 추적형과 단발형으로 나누고, 상태 추적형에는 사람 검토나 외부 시뮬레이터를 붙여라.

FAQ

Q. 언어모델은 세계모델이 없다고 봐야 하나요?

그렇게 단정하기는 어렵습니다. 공개 연구는 일부 환경에서 암묵적 세계모델을 평가하는 방법을 제안하지만, 대상항등성·시간 통합·공간 변환에서 반복적인 실패도 함께 보고합니다. 따라서 “있다/없다”보다 어떤 과제에서 얼마나 안정적으로 작동하는지를 보는 편이 더 정확합니다.

Q. 그럼 지금 보이는 추론 성능은 전부 착시인가요?

전부 착시라고 보기는 어렵습니다. 다만 일부 성능 도약은 평가 지표의 성질 때문에 과장되어 보일 수 있고, 프롬프트 문구나 토큰 편향이 결과를 크게 움직일 수 있다는 반론이 공식 논문에서 제기됐습니다. 즉, 추론 성능은 존재할 수 있지만 해석은 더 엄격해야 합니다.

Q. 기업이 모델을 도입할 때 가장 먼저 확인할 것은 무엇인가요?

업무가 상태를 누적해서 추적하는지부터 확인해야 합니다. 만약 순서, 위치, 객체 동일성, 장기 문맥 유지가 중요하다면 일반 QA 점수만으로는 부족합니다. 해당 업무와 비슷한 연속 과제를 직접 만들어 테스트하는 것이 우선입니다.

결론

지금 논쟁의 핵심은 언어모델이 문장을 잘 잇는다는 사실과, 세계를 안정적으로 시뮬레이션한다는 주장을 분리해서 보자는 데 있다. 앞으로 봐야 할 것은 더 화려한 데모가 아니다. 시간 통합·공간 변환·상태 보존 같은 기본 과제에서 모델이 얼마나 덜 흔들리는지다.

Aionda

언어모델은 세계를 아는가

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기