중력파 AI 에이전트 비교
Claude Code와 Codex가 동일 인프라에서 중력파 분석 파이프라인을 자율 수행하는 실험을 다룬다.

100개의 바이너리 신호를 matched filter로 복원하는 중력파 분석 파이프라인을, 두 에이전트형 AI가 사람 개입 없이 끝까지 수행하도록 비교한다. 이번 arXiv 초록의 핵심은 성능 과시가 아니다. Claude Code와 Codex를 같은 컴퓨팅 인프라에 올려 두고, 과학 계산 워크플로를 자율적으로 실행할 수 있는지 묻는다. 논점은 코딩 보조를 넘어, 재현성과 오류 복구를 견디는 실행 주체로 이동한다.
세 줄 요약
- 이번 이슈의 핵심은 Claude Code와 Codex를 동일 인프라에서 비교해, Einstein Telescope 시뮬레이션 데이터의 end-to-end 중력파 분석을 사람 없이 수행시키는 head-to-head 실험이라는 점이다.
- 중요한 이유는 과학 워크플로에서 문제가 정답률 하나가 아니라 실행 성공 여부, 조용히 틀리는 계산, 재현성 실패 같은 운영 리스크로 옮겨가기 때문이다.
- 에이전트 도입을 검토할 때는 “정답을 맞히나”보다 “반복 실행해도 같은 결과를 내나, 실패를 스스로 드러내나, 환경 문제를 복구하나”를 기준으로 삼고, 작은 파이프라인부터 검증해야 한다.
현황
원문 초록에서 확인되는 사실은 비교적 분명하다. 이 연구는 Claude Code와 Codex를 “state-of-the-art agentic AI systems”로 두고, Einstein Telescope의 시뮬레이션 잡음에서 power spectral density를 추정하고, geometric template bank를 만들고, matched filter로 100개의 binary 신호를 복원하는 간단한 end-to-end 파이프라인을 자율 실행하도록 맡겼다. 조건은 같은 컴퓨팅 인프라와 사람 개입 없음이다.
여기서 중요한 것은 비교의 단위다. 이 실험은 챗봇 답변 품질을 보는 테스트가 아니다. 파일 경로, 의존성, 실행 순서, 중간 산출물, 실패 후 복구까지 이어지는 실제 연구용 코드 실행을 겨냥한다. 즉 “코드를 써준다”보다 “연구 파이프라인을 운영한다”에 가깝다.
조사 결과를 보면 이런 평가 프레임은 과학 워크플로 전반으로 확장되고 있다. 천체물리 워크플로 연구에서는 대표적 실패 모드로 silent incorrect computation, 즉 문법상 멀쩡하지만 과학적으로 틀린 결과를 내는 문제가 지적됐다. 다른 연구에서는 도메인 맥락을 주면 one-shot 성능이 0.85 수준까지 올라가고, 맥락이 없으면 거의 0에 가까웠다고 적었다. 분자동역학 쪽에서는 Claude Code와 Codex의 Easy 과제 full-success rate가 21%에 그쳤다는 보고도 있다. 반대로 고에너지물리 분석 파이프라인에서는 에이전트가 상당 부분을 자율 수행할 수 있다는 결과도 나왔다.
분석
이 연구가 중요한 이유는 AI 평가 기준의 초점을 바꾸기 때문이다. 지금까지 기업 현장과 개발 조직은 주로 코드 생성 품질, 프롬프트 응답, 벤치마크 점수에 기대어 모델을 골랐다. 과학 계산 워크플로에서는 그 기준만으로는 부족하다. 실행이 끝났는지, 실패했을 때 멈췄는지, 틀렸다면 틀렸다고 말하는지, 다시 돌려도 같은 결과가 나오는지가 더 중요하다. 특히 중력파 분석처럼 신호 처리와 물리 해석이 맞물린 작업에서는 그럴듯한 오답의 비용이 크다.
의사결정 관점에서도 조건이 달라진다. 팀이 에이전트를 연구용 코드에 넣으려 한다면, 단순 코파일럿보다 운영 자동화 도구에 가깝게 다뤄야 한다. 그러면 평가 항목도 달라진다. 정확도만 보면 도입은 빠를 수 있다. 반대로 재현성, 디버깅, 환경 복구까지 요구하면 도입 속도는 느려질 수 있지만 사고 비용은 줄일 수 있다. 한계도 분명하다. 현재 조사 결과만으로는 이 특정 중력파 비교 연구가 비용과 시간을 핵심 지표로 함께 비교했는지 확인되지 않는다. 또 한 도메인의 결과를 데이터 과학 전반으로 곧장 넓히기도 어렵다. 고에너지물리, 천체물리, 분자동역학은 피드백 구조와 정답 검증 비용이 다르다.
실전 적용
현업 팀이 지금 가져가야 할 교훈은 단순하다. 에이전트를 “유능한 주니어 연구원”처럼 두면 안 된다. “자주 침묵하고, 가끔 그럴듯하게 틀리는 자동 실행기”를 가정하고 안전장치를 설계해야 한다. 독립 반복 실행, 중간 산출물 검증, 물리 일관성 점검, 환경 재현 테스트를 먼저 붙인 뒤 자동화를 넓혀야 한다.
예: PSD 추정, 템플릿 뱅크 생성, 신호 복원처럼 단계가 분리된 파이프라인이라면 한 번에 전체 자율 실행을 맡기지 말고, 각 단계마다 입력 해시·출력 요약·검증 스크립트를 남기게 해야 한다. 에이전트가 실패했을 때도 “실패 로그를 명시적으로 남기는가”를 성능에 포함해야 한다. 성공한 척 끝내는 시스템은 연구 환경에서 위험하다.
오늘 바로 할 일 체크리스트 3개
- 같은 작업을 최소 2회 독립 실행해 출력 차이와 재현성 실패를 먼저 측정하라.
- 최종 정확도 전에 중간 산출물 검증 규칙을 넣어 silent incorrect computation을 걸러라.
- 의존성, 경로, 버전 충돌이 났을 때 에이전트가 스스로 복구하는지 작은 샌드박스에서 먼저 시험하라.
FAQ
Q. 이 연구는 어떤 점에서 기존 코딩 벤치마크와 다릅니까?
기존 코딩 벤치마크는 보통 정답 코드 생성이나 문제 풀이에 집중합니다. 이번 방향은 실제 과학 파이프라인을 처음부터 끝까지 실행하는 능력, 즉 도구 사용, 실패 복구, 재현성까지 함께 본다는 점이 다릅니다.
Q. 성능 비교에서 정확도보다 더 중요한 것은 무엇입니까?
과학 워크플로에서는 실행 성공률, 조용한 오답 여부, 반복 실행 시 동일 결과가 나오는지, 환경 문제를 스스로 처리하는지가 더 중요할 수 있습니다. 특히 겉보기에 그럴듯한 오답은 사람 검토 비용을 크게 늘립니다.
Q. 이런 결과를 다른 데이터 과학 파이프라인에도 바로 적용해도 됩니까?
바로 일반화하면 안 됩니다. 평가 프레임은 넓게 적용할 수 있지만, 성능 결과 자체는 도메인 구조와 검증 방식에 따라 크게 달라질 수 있습니다. 따라서 각 팀은 자기 워크플로에서 작은 범위로 재현 테스트를 먼저 해야 합니다.
결론
이번 비교가 밀어 올리는 질문은 “누가 더 똑똑한가”가 아니다. “누가 끝까지 실행하고, 틀리면 드러내고, 다시 돌려도 같은 답을 내는가”다. 에이전트 AI의 다음 승부처는 대화 품질보다 재현 가능한 실행력에 있다.
다음으로 읽기
참고 자료
- Paper page - Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints - huggingface.co
- Plausible but Wrong: A case study on Agentic Failures in Astrophysical Workflows - arxiv.org
- AI Agents Can Already Autonomously Perform Experimental High Energy Physics - arxiv.org
- arxiv.org - arxiv.org
업데이트 받기
주간 요약과 중요한 업데이트만 모아서 보내드려요.
오류를 발견했나요? 정정/오류 제보로 알려주시면 검토 후 업데이트에 반영할게요.