AGI 논쟁, 정의·평가부터 정리

사람들이 “AGI가 오냐”를 놓고 타임라인 논쟁을 시작하는 순간, 연구 현장에서는 다른 문제가 드러난다. “추론”은 논문에서 단일 정의로 굳지 않았고, “장기기억”은 재현 가능한 평가 규격이 아직 느슨하다. “지속학습”은 망각을 줄이려는 시도가 수치로 보고되지만, 조건이 바뀌면 결론이 달라질 수 있다.
핵심은 이거다. AGI 담론이 대중 의제로 커졌지만, 근거로 자주 호출되는 추론·기억·지속학습·재귀개선 기대는 같은 단어를 쓰면서 서로 다른 대상을 가리킨다.
지금 필요한 건 낙관/비관이 아니라, “무엇이 검증됐고 무엇이 아직 정의조차 덜 됐나”를 구분하는 의사결정 메모다.

세 줄 요약

AGI 담론을 밀어 올린 “추론·장기기억·지속학습·재귀개선” 키워드는 연구/제품에서 같은 의미로 쓰이지 않는다. 벤치마크 과업을 묶어 측정하는 경우도 많다.
이 혼선은 투자·정책·제품 로드맵에서 과대약속(특히 메모리/지속학습)과 과소대응(평가 설계 부실)을 동시에 만든다.
의사결정은 “If/Then”으로 바꿔야 한다. 추론은 MMLU/ARC류 정답형 지표로, 지속학습은 ACC/BWT/망각 지표로, 메모리는 컨텍스트 길이 고정과 회상 지표를 명시한 평가로 각각 따로 검증한다. 그다음에야 ‘AGI 근접’ 같은 서사를 내부 문서에 올린다.

현황

‘추론 능력’은 공식 보고서/논문에서 한 문장짜리 합의 정의로 고정되지 않았다. 대신 벤치마크 과업군으로 operationalize되는 경향이 확인된다. 예를 들어 MMLU 논문은 “multitask accuracy”를 제안한다. 높은 정확도를 내려면 “extensive world knowledge and problem solving ability”가 필요하다고도 적는다. 여기서 “추론”은 철학적 정의로 고정되기보다, 다과목 문항에서 정답을 맞히는 능력으로 측정된다.

ARC(AI2 Reasoning Challenge)도 비슷한 결을 갖는다. ARC는 과학 QA에서 “far more powerful knowledge and reasoning”이 필요하다고 전제한다. 문항을 Challenge Set과 Easy Set으로 나눠 난도를 통제한다. 여기서도 “추론”은 추상 정의가 아니라 “이 유형의 문항에서 정답을 맞힐 수 있느냐(정확도)”로 측정된다. 이 프레이밍이 대중 담론으로 넘어오면 “추론 성능이 올랐다 → AGI에 가까워졌다” 같은 도약이 생기기 쉽다.

장기기억(메모리) 쪽은 더 까다롭다. 벤치마크가 컨텍스트 길이를 명시적으로 통제하는 사례는 확인된다. 예를 들어 NVIDIA NeMo Evaluator SDK의 RULER 문서는 사용자가 max_seq_length를 명시해야 한다고 적는다. 다만 질문이 요구하는 “메모리 갱신 규칙(쓰기/요약/삭제 정책)까지 표준 파라미터로 강제해 재현 가능하게 통제하는 공통 프로토콜”은 이번 조사 범위에서 일관되게 확인되지 않았다. 대중이 기대하는 “사람처럼 오래 기억하고 필요할 때 정확히 떠올린다”는 요구가 평가 스펙에서는 느슨하게 남아 있을 수 있다.

지속학습(continual learning)은 상대적으로 “무엇을 재는가”가 또렷하다. 문헌 리뷰에서는 BWT(Backward Transfer)를 수식으로 제시한다. 학습이 진행되며 과거 작업 성능이 얼마나 떨어졌는지 같은 망각 문제를 정량화한다. 개별 연구는 개선 폭을 퍼센트로 보고한다. 예를 들어 CEAT는 CIFAR-100, TinyImageNet, ImageNet-Subset에서 각각 5.38%, 5.20%, 4.92% 개선을 보고했다. LoRA 기반 지속학습 방법은 Split CIFAR-100에서 정확도 6.35% 개선과 망각 3.24% 감소를 보고했다. 다만 이런 수치는 특정 설정/비교군에서의 개선이다. 산업용 에이전트가 현장에서 계속 배우는 능력으로 바로 해석하기는 어렵다(추가 확인 필요).

분석

의사결정 관점에서 AGI 담론의 대중화가 위험한 이유는, 단어가 빠르게 유통될수록 정의가 느슨해지고 KPI가 흐려지기 때문이다. “추론”이 MMLU의 multitask accuracy 같은 정답형 지표로 측정되면, 점수 상승이 곧 능력 상승처럼 읽히기 쉽다. 하지만 그 점수가 “장기 목표를 세운다”, “새 환경에서 계속 배운다”, “스스로 개선한다”로 이어지는지는 별개다.

이번 조사 범위에서 확인되는 사실은 다음에 가깝다. 연구는 추론을 과업으로 쪼개 측정한다. 지속학습은 ACC/BWT/망각 같은 지표로 평가한다. 메모리는 컨텍스트 길이 같은 입력 제약을 명시하는 단계까지는 왔다. 하지만 ‘메모리 갱신 규격’의 공통 표준은 잘 보이지 않는다.

그렇다고 “AGI는 과장”으로만 정리하면 다른 오류가 생긴다. 지속학습에서 5.38%, 6.35%, 망각 3.24% 같은 개선 보고가 쌓이는 건 사실이다. 이는 “한 번 학습하고 끝나는 모델”에서 “업데이트를 전제로 설계되는 모델/시스템”으로 연구 관심이 이동한다는 해석 가능성을 남긴다. 문제는 대중 담론이 이 흐름을 ‘재귀개선’ 같은 강한 내러티브로 압축하면서, 실무자가 필요한 질문(데이터 드리프트, 평가 프로토콜, 실패 모드)을 건너뛰기 쉽다는 데 있다.

예: 한 팀이 “추론이 좋아졌으니 이제는 스스로 오래 기억하고 업무를 누적 학습할 것”이라 가정하고 시스템을 설계한다. 운영 단계에서 입력이 길어지면 성능이 흔들릴 수 있다. 기억은 요약 정책에 따라 왜곡될 수 있다. 업데이트는 과거 기능을 깨뜨릴 수 있다. 이때 문제는 ‘기술이 부족해서’만이 아니다. 검증 단위를 잘못 잡아서 생기는 문제도 있다.

실전 적용

결정 규칙을 쪼개야 한다. 추론은 “정답형 벤치마크에서 accuracy가 오른다” 수준으로만 진술한다. 그 위에 “계획·툴 사용·장기 과제 완주” 같은 시스템 레벨 능력을 별도로 평가한다. 장기기억은 최소한 컨텍스트 길이(max_seq_length 같은 설정)를 고정한 조건에서 회상 성능을 본다. 동시에 메모리 갱신 규칙이 표준화돼 있지 않다는 한계를 문서 앞부분에 명시한다. 지속학습은 ACC/BWT/망각 지표를 내부 KPI로 가져온다. 그리고 논문에서 보고한 5.38%, 6.35%, 3.24% 같은 개선이 “우리 조건에서도 재현되는가”를 먼저 확인한다.

오늘 바로 할 일 체크리스트:

추론/기억/지속학습을 한데 묶어 “AGI 진행률”로 보고하는 내부 슬라이드를 없애고, MMLU·ARC류(정답형)와 지속학습(ACC/BWT/망각), 메모리(컨텍스트 길이 고정)로 KPI를 분리한다.
메모리 기능을 쓰는 제품/에이전트라면 max_seq_length 같은 입력 한계를 고정한 재현 가능한 테스트를 먼저 만든다. “갱신 규칙은 표준 부재”도 리스크로 등록한다.
지속학습을 도입하려면 업데이트 후 과거 기능이 깨지는지를 BWT/망각 지표로 보고하는 게이트를 배포 파이프라인에 넣는다.

FAQ

Q1. “추론 능력”은 공식적으로 어떻게 정의돼 있나?
A. 이번 조사 범위에서, 논문들은 단일한 엄밀 정의로 통일하기보다 과업으로 추론을 정의하는 경향이 확인된다. MMLU는 multitask accuracy로, ARC는 Challenge/Easy 분할로 “추론이 필요한 문항” 비중을 통제한다. 평가는 정확도 같은 자동 채점 지표를 쓴다.

Q2. 장기기억은 공개 벤치마크에서 재현 가능하게 평가할 수 있나?
A. 컨텍스트 길이를 명시적으로 고정/보고하는 사례는 확인된다. 예로 RULER는 사용자가 max_seq_length를 명시해야 한다. 다만 메모리 갱신 규칙(쓰기/요약/삭제)을 공통 규격으로 강제하는 표준 프로토콜은 이번 조사 범위에서 일관되게 확인되지 않았다. 따라서 “장기기억이 검증됐다”는 결론을 단정하기는 어렵다(추가 확인 필요).

Q3. 지속학습은 실제로 얼마나 좋아지고 있나?
A. 지표 자체는 비교적 표준화돼 있고(BWT 등), 개선을 수치로 보고하는 연구도 있다. 예를 들어 CEAT는 5.38%/5.20%/4.92% 개선을, LoRA 기반 방법은 정확도 6.35% 개선과 망각 3.24% 감소를 보고했다. 다만 이 수치는 각 논문의 설정/비교군에 종속적이다. 제품 조건으로 가져오려면 동일 프로토콜에서 재현 검증이 필요하다.

결론

AGI 담론이 커질수록 “추론·기억·지속학습”은 마케팅 언어가 아니라 평가 단위로 다시 쪼개야 한다. 당장 볼 건 타임라인이 아니다. 메모리 갱신 규격 같은 ‘표준의 공백’이 무엇인지 확인해야 한다. ACC/BWT/망각처럼 운영 KPI로 옮길 수 있는 지표가 어디까지 성숙했는지도 따져야 한다.

Aionda

AGI 논쟁, 정의·평가부터 정리

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기