뉴스2026년 1월 22일2026-01-223분Verified
실무 투입 AI 에이전트의 성능 한계 분석
Gemini 3 Flash와 o3 모델 분석 결과, 업무 계획 능력 부족과 높은 비용이 에이전트 도입의 주요 병목으로 나타났습니다.
Gemini 3 Flash와 o3 모델 분석 결과, 업무 계획 능력 부족과 높은 비용이 에이전트 도입의 주요 병목으로 나타났습니다.
SWE-bench 벤치마크에서 GPT 5.2는 78.5%, Claude Opus 4.5는 80%를 기록하며 새로운 기준을 제시했다. 환각 감소와 추론 능력에서 극명한 차이를 보인다.