에이전틱 AI 실패, 모델이 아닌 거버넌스

배포 파이프라인이 빨간색으로 바뀌고, 에이전트는 “완료”라고 말한다. 빌드는 깨졌고, 산출물은 없다. 이런 실패는 모델이 “멍청해서”만 생기지 않는다. 누가 무엇을 언제 어떤 근거로 바꿀 수 있는지를 시스템이 강제하지 않으면, 같은 유형의 문제가 반복된다. arXiv:2603.04390v1은 WebGIS 개발처럼 엄격성이 필요한 영역에서 이 문제를 “모델 한계”만으로 설명하지 않고 구조적 거버넌스 문제로 다룬다. 저자들은 이를 dual-helix governance와 3-트랙(Knowledge/Behavior/Skills) 아키텍처로 풀겠다고 제안한다.

세 줄 요약

무슨 변화/핵심이슈인가? 에이전틱 AI 실패를 컨텍스트 제약·세션 망각·확률성·지시 실패·적응 경직 같은 LLM 제약 5가지로만 보지 않고, 외부화된 거버넌스 문제로도 본다.
왜 중요한가? “프롬프트/메모리 개선”만으로 다루기 어려운 비결정성과 준수(컴플라이언스) 문제를, 지식 그래프와 실행 프로토콜 같은 구조로 옮기면 감사·검증 가능성을 설계 요소로 다룰 여지가 생긴다.
독자는 뭘 하면 되나? 에이전트를 붙이기 전에 업무를 Knowledge/Behavior/Skills 3트랙으로 분해하고, “행동(프로토콜)”에 기계가 확인 가능한 게이트를 최소 1개 둔다. 통과하지 못하면 실행이 멈추도록 설계한다.

현황

이 논문(“A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development”, arXiv:2603.04390v1)은 WebGIS 개발에서 에이전틱 AI가 자주 실패하는 이유를 5가지 LLM 제약으로 정리한다. 컨텍스트 제약, 크로스세션 망각, 확률성, 지시 실패, 적응 경직이다. 핵심은 “그래서 더 큰 모델이 필요하다”가 아니다. 저자들은 이 한계들이 모델 용량만으로는 다루기 어렵다고 보고, 설계 전환이 필요하다는 입장을 둔다.

해법으로 제시하는 것이 dual-helix governance다. 초록에서 확인되는 구현 형태는 **3-트랙 아키텍처(Knowledge/Behavior/Skills)**다. 이 구조는 도메인 사실을 **지식 그래프(knowledge graph substrate)**로 외부화하고, 실행을 안정화하기 위해 실행 가능한 프로토콜(executable protocols)을 강제하는 쪽에 초점을 둔다. 또한 **자기학습 사이클(self-learning cycle)**로 지식을 갱신·확장하는 구성을 함께 말한다.

구현체도 언급된다. 초록 스니펫 기준으로 이 접근은 오픈소스 AgentLoom governance toolkit로 구현되었다고 한다. 적용 사례로 WebGIS 도구(초록에 따르면 FutureShorelines 맥락)를 언급하고, ‘zero-shot LLM’과 비교하는 실험을 통해 외부화된 거버넌스가 신뢰성에 기여한다는 결론을 제시한다. 다만 초록만으로는 구성요소별 기여도나 실험 설정의 세부를 확인하기 어렵다.

분석

이 논문의 중심 메시지는 “에이전트 품질”을 모델 내부(파라미터, 프롬프트, 세션 메모리)만으로 설명하지 말라는 것이다. WebGIS 같은 개발 업무는 결과물이 코드/아티팩트로 남는다. 팀 규칙과 인터페이스 계약이 있고, 되돌릴 수 있어야 한다. 이런 조건에서는 문제를 거버넌스의 외부화로 옮겨 다루는 접근이 자연스럽다. 지식은 지식 그래프 같은 기계가 다룰 수 있는 기판에 두고, 행동은 실행 프로토콜로 경계를 만들고, 스킬은 재사용 가능한 단위로 묶는 방식이다. 이는 “똑똑한 단일 에이전트”보다는 “통제 가능한 시스템”에 가깝다.

트레이드오프도 있다. 첫째, 거버넌스를 외부화하면 운영 복잡도가 늘 수 있다. 지식 그래프 스키마, 프로토콜 정의, 정책 집행 지점, 변경 추적 같은 작업이 생긴다. 둘째, 속도가 느려질 수 있다. 검증/게이트를 많이 둘수록 실행이 멈추고 되돌아가는 경우가 늘어난다. 거버넌스 게이트가 오버헤드를 만든다는 논의는 다른 연구에서도 나온다. 예를 들어 EviBound(arXiv:2511.05524)는 “이중 거버넌스 게이트”로 허위 주장(false claims)을 줄이는 접근을 말하면서, 그 대가로 약 8.3% 실행 오버헤드를 함께 언급한다. 셋째, 비용 변동성이 커질 수 있다. 엔터프라이즈 에이전트 평가 프레임워크 논문(arXiv:2511.14136)은 같은 정밀도에서도 비용이 50x까지 벌어질 수 있고, 단일 실행 성능이 **60%**였다가 8-run consistency에서 **25%**로 떨어질 수 있다고 보고한다. 즉, 거버넌스 강화는 비용/지연과 함께 검토될 필요가 있다.

실전 적용

이 논문을 WebGIS 밖으로 읽는 방법은 단순하다. “에이전트가 똑똑하면 된다”라는 가정에서 벗어나, 업무를 감사 가능한 3층 구조로 쪼개는 것부터 시작한다. Knowledge는 “사실/규칙/도메인 정의”다. Behavior는 “허용되는 작업 순서와 금지 규칙”이다(논문 표현대로면 실행 가능한 프로토콜). Skills는 “재사용 가능한 작업 단위”다. 이 셋을 분리하면, 모델이 확률적으로 흔들리거나 지시를 어길 때도 시스템이 제동을 걸 여지가 생긴다.

예: WebGIS가 아니라 의료 문서 자동화라면 Knowledge는 용어 체계/코딩 규칙/기관 템플릿, Behavior는 “근거 링크 없는 진단명 생성 금지” 같은 프로토콜, Skills는 “요약→근거 추출→서식 채우기” 같은 루틴이 된다. 금융 리포팅이면 Knowledge는 회계 정책과 공시 정의, Behavior는 “수치 변경 시 근거 표 자동 생성” 같은 게이트, Skills는 “표 생성/주석 작성/리스크 문장 템플릿”으로 쪼갠다.

오늘 바로 할 일 체크리스트:

업무를 Knowledge/Behavior/Skills로 분리해 문서로 적고, 각 트랙의 변경 권한(누가/어떻게)을 한 줄로 적는다.
Behavior 트랙에 “실행 가능한 프로토콜”을 최소 1개 정의한다(예: 특정 산출물이 없으면 ‘완료’로 처리하지 않는 조건).
평가는 단일 실행이 아니라 반복 실행으로 돌려 변동성을 기록한다(한 연구는 1회 60% → 8회 25% 같은 하락을 보고한다).

FAQ

Q1. 이 논문이 말하는 3-트랙은 ‘지식/행동/상태’입니까?
A1. 아닙니다. 확인되는 초록 기준으로는 Knowledge / Behavior / Skills로 표기되어 있습니다.

Q2. dual-helix governance는 비결정성과 지시 불이행을 어떻게 줄입니까?
A2. 초록에 따르면 도메인 사실을 지식 그래프로 외부화하고, 실행 가능한 프로토콜을 강제해 실행을 안정화합니다. 다만 테스트·승인 워크플로우·감사로그 같은 메커니즘을 어떤 형태로 제공하는지까지는 초록만으로 특정하기 어렵습니다.

Q3. “거버넌스 강화”는 비용이 얼마나 늘어납니까?
A3. 이 논문 초록만으로는 비용 증가 폭을 수치로 단정할 수 없습니다. 다만 다른 거버넌스 연구(EviBound)는 이중 게이트로 허위 주장을 줄이면서 약 8.3% 실행 오버헤드를 함께 언급하고, 엔터프라이즈 에이전트 평가 연구는 비용 변동이 50x까지 벌어질 수 있다고 보고합니다.

결론

에이전틱 AI의 신뢰성은 “더 좋은 모델”만으로 해결된다고 보기 어렵다. arXiv:2603.04390v1이 제시하는 방향은, 실패를 모델 탓으로만 두지 말고 지식 그래프 + 실행 프로토콜 + 자기학습 사이클 같은 외부 거버넌스로 옮겨 시스템 차원에서 다루자는 것이다. 이후 관전 포인트는 AgentLoom 같은 툴킷이 프로토콜 강제를 어느 정도까지 제공하며, 이를 개발 파이프라인(테스트/리뷰/릴리스)과 어떤 방식으로 접합하는지다.

Aionda

에이전틱 AI 실패, 모델이 아닌 거버넌스

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기