OCL에서 라우팅으로 망각 줄이기

트랜스포머가 “한 번만 보고 지나가는” 데이터 스트림에서 계속 배워야 한다면, 매번 같은 파라미터를 조금씩 고치는 방식(예: 프롬프트·어댑터·LoRA)만으로 충분한지 점검할 필요가 있다. 온라인 연속학습(OCL)은 데이터 분포가 계속 바뀌고, 샘플을 다시 보기 어려운 상황을 전제로 한다. 이때 초점은 ‘성능을 올리느냐’보다 ‘새로 배운 내용을 넣는 과정에서, 기존에 알던 내용을 얼마나 훼손하느냐’에 가깝다. 그래서 OCL에서는 샘플마다 “무엇을 업데이트할지”를 고르는 라우팅(게이팅/모듈 선택)이 중요한 도구로 논의된다.

세 줄 요약

무슨 핵심 이슈인가? OCL에서 프롬프트·어댑터·LoRA 같은 PEFT가 단발(one-pass) 스트림에서 불안정해질 수 있다. 그래서 샘플별로 업데이트 경로를 고르는 라우팅/게이팅 기반 학습이 대안으로 논의된다.
왜 중요한가? 라우팅은 간섭(서로 다른 업데이트가 같은 파라미터를 훼손하는 현상)을 줄이는 데 도움이 될 수 있다. 반면 **라우팅 붕괴(특정 모듈로 쏠림)**와 지연(latency) 증가 같은 비용이 생길 수 있다.
독자는 뭘 하면 되나? 연속 업데이트 파이프라인에 “업데이트 전 안정성 예산(stability budget) 점검→임계치 초과 시 rescale/거부” 같은 게이트를 넣는다. 동시에 “라우팅 쏠림 모니터링+로드밸런싱”을 운영 지표로 고정한다.

현황

트랜스포머 연속학습은 흔히 “백본(backbone)은 고정하고, 프롬프트·어댑터·LoRA 같은 PEFT만 태스크별로 붙여 특화한다”는 접근으로 설명된다. 하지만 arXiv 논문 Routing without Forgetting의 초록은, 이런 접근이 “controlled multi-epoch”에서는 통할 수 있어도 OCL처럼 비정상(non-stationary) 스트림이고 각 샘플을 한 번만 볼 수도 있는 조건에서는 “점진적(gradual) 그래디언트 특화”에 기대는 방식이 흔들릴 수 있다고 요약한다. OCL에서는 ‘미세조정 자체’보다 ‘업데이트를 언제/어디까지 허용할지’가 선행 의사결정이 된다.

조사 결과로 확인되는 “라우팅 신호/게이팅 기준”은 두 갈래가 보인다. 하나는 OCL 맥락에서 class-conditional routing과 **uncertainty-based adjustment(불확실성 기반 동적 조정)**을 결합한 설계가 존재한다는 점이다(해당 논문 초록 스니펫에 명시). 다른 하나는 LLM 연속 편집(continual editing)에 가깝지만 운영 절차를 강조하는 방식이다. STABLE은 각 업데이트를 stability budget으로 평가하고, 그 기준을 Exact Match(EM) drop / bits increase / KL divergence 같은 지표로 둔다고 밝힌다. 그리고 **임계치(threshold)를 넘으면 LoRA 업데이트를 rescale(클리핑으로 재스케일)하거나 rejected(거부)**한다는 절차가 스니펫에 포함돼 있다.

분석

라우팅 기반 OCL의 요지는 “모든 샘플이 같은 통로로 백본을 업데이트하지 않게 하는 것”이다. PEFT가 비교적 제한된 범위를 업데이트하더라도, 스트림이 드리프트하면 업데이트 방향이 흔들릴 수 있다. 또한 한 번의 업데이트가 이후 샘플에 연쇄적으로 영향을 줄 수 있다. 라우팅/모듈화는 여기서 접근을 바꾼다. 업데이트할 파라미터를 샘플(또는 상황)별로 선택해 간섭을 줄이고, 망각을 완화하는 방향으로 설계를 유도한다. STABLE의 “안정성 예산” 같은 게이팅은 특히 운영 규칙으로 읽힌다. 편집을 적용하기 전에 기존 능력의 하락을 지표로 확인하고, 기준을 넘으면 업데이트를 줄이거나 버리는 절차이기 때문이다.

반대로 라우팅은 새로운 실패 모드를 만들 수 있다. 조사 결과는 MoE에서 routing collapse가 생길 수 있는 조건을 적는다. 라우터가 초기에 선호한 전문가에 더 많이 보내고, 그 전문가가 더 많은 그래디언트를 받아 다시 더 선호되는 rich-get-richer 루프, 전문가 간 로드 불균형, 라우터 softmax가 과도하게 뾰족해지는(로짓 과신/폭주) 현상이 붕괴를 촉발할 수 있다. 완화책도 함께 언급된다. 로드밸런싱 보조 손실, 라우터 로짓 폭주를 억제하는 z-loss, 보조손실의 간섭 그래디언트를 피하려는 auxiliary-loss-free balancing(전문가별 bias를 동적으로 갱신), 그리고 연속학습 맥락에서 라우팅 용량 붕괴를 막기 위한 리플레이+co-training(미사용 전문가에 균등 라우팅해 추가 업데이트) 같은 절차가 보고돼 있다(스니펫 기준). 라우팅은 망각을 줄이는 방법이 될 수 있지만, 붕괴 위험도 함께 관리해야 한다.

실전 적용

실무에서 OCL 라우팅을 “모델 구조 변경”으로만 보면 도입 장벽이 커진다. 운영 관점에서는 더 작은 단위로 시작할 수 있다. STABLE이 보여주는 패턴은 라우팅이 없어도 적용 가능하다. 업데이트를 적용하기 전에 안정성 지표(EM drop / bits increase / KL divergence 같은 대체 가능 지표)를 계산하고, 임계치 초과 시 업데이트를 rescale하거나 거부하는 게이트를 둘 수 있다. 라우팅을 도입한다면 그다음은 “라우터가 얼마나 쏠리는지”를 망각 지표와 함께 모니터링하는 일이다. MoE 문헌에서 말하는 붕괴는 성능 하락보다 먼저, 학습 신호가 한쪽으로 줄어드는 운영 문제로 드러날 수 있다.

예: 고객 문의 도메인이 주 단위로 바뀌는 챗봇을 운영한다면, 새 도메인 문장 한 줄이 들어올 때마다 LoRA를 계속 갱신하는 대신 “이번 업데이트가 기존 FAQ 정확도(EM)에 미치는 영향”과 “분포 변화(예: KL 기반 지표)”를 게이트로 점검한다. 기준을 넘는 업데이트는 rescale하거나 스킵한다. 라우팅을 쓴다면 “어떤 모듈이 어떤 도메인을 담당하는지”를 고정 규칙으로 박기보다, 불확실성 기반 동적 조정 같은 신호를 고려할 수 있다(스니펫 기준). 다만 로드밸런싱과 붕괴 감시를 함께 운영 항목으로 묶는다.

오늘 바로 할 일 체크리스트

업데이트 파이프라인에 “안정성 예산” 게이트를 넣고, 임계치 초과 시 rescale 또는 거부 규칙을 문서화한다.
라우팅을 쓰는 경우, 배치/시간창 단위로 **전문가 사용 분포(쏠림)**를 대시보드 지표로 고정하고 알람 조건을 정한다.
지연이 문제라면, MiLoRA가 언급한 방식처럼 토큰 생성 전 1회 라우팅 후 재사용 같은 캐싱 전략을 우선 실험한다(적용 가능성부터 검증한다).

FAQ

Q1. OCL에서 라우팅 신호(게이팅 기준)는 실제로 무엇을 쓰나?
A1. 조사 결과 기준으로는 두 예가 확인됩니다. 하나는 OCL용 설계에서 class-conditional routing과 uncertainty-based adjustment를 결합하는 방식이 언급됩니다. 다른 하나는 STABLE에서 stability budget을 두고 EM drop / bits increase / KL divergence로 업데이트를 평가해, 임계치 초과 시 업데이트를 rescale하거나 거부하는 게이팅 절차입니다.

Q2. 라우팅이 “안정적으로” 동작하게 만드는 메커니즘은 무엇인가?
A2. STABLE 스니펫에서는 안정성 예산을 넘는 업데이트를 **클리핑으로 재스케일(rescale)하거나 거부(rejected)**해, 연속 업데이트로 인한 망각을 제한한다고 설명합니다. 이는 라우팅 자체를 안정화한다기보다, “업데이트를 운영 규칙으로 제한”하는 방식에 가깝습니다.

Q3. 라우팅 붕괴는 언제 생기고, 무엇으로 막나?
A3. 조사 결과에 따르면 MoE에서는 초기 선호 전문가로 토큰이 몰리고 그 전문가가 더 많은 그래디언트를 받아 더 선호되는 양의 피드백 루프, 로드 불균형, 라우터 softmax의 과신(로짓 폭주) 등이 붕괴를 유발할 수 있습니다. 완화로는 로드밸런싱 손실, z-loss, auxiliary-loss-free balancing(동적 bias 갱신), 그리고 연속학습 맥락의 리플레이+co-training 절차가 보고돼 있습니다.

결론

OCL에서 라우팅은 “더 크게 학습”보다 “덜 훼손하며 학습”에 초점을 둔 기술이다. 관전 포인트는 단순하다. 라우팅으로 망각을 줄이려 할 때, 붕괴(쏠림)와 지연을 어떤 운영 규칙과 측정 체계로 함께 관리하는지가 핵심이다.

Aionda

OCL에서 라우팅으로 망각 줄이기

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기