트랜스포머 FFN의 선형성

2026.19379. 숫자만 보면 건조한 arXiv 식별자다. 하지만 이 논문이 던지는 질문은 크다. 트랜스포머의 FFN, 즉 feed-forward block이 생각보다 덜 비선형적일 수 있는지를 블록 단위로 다시 보자는 제안이기 때문이다. 이 질문은 해석 가능성뿐 아니라 압축, 저랭크 근사, 추론 최적화 같은 실무 판단과도 이어진다.

논문 제목도 직접적이다. How Linear Is a Transformer Feed-Forward Block? Per-Block Linear Recoverability Is Learned, Not Architectural. 원문 발췌에 따르면 저자들은 각 FFN을 위치별 입력-출력 함수로 보고, 이를 정확한 최소제곱 선형 근사와 잔차로 분해한다. 또 보지 않은 데이터에서 그 닫힌형 선형 사상이 설명하는 분산을 블록의 선형 복원 가능성, 즉 R^2_lin으로 정의한다.

세 줄 요약

이 글의 핵심은 트랜스포머 FFN을 “본질적으로 비선형인 계산 창고”로만 보지 말고, 블록별로 얼마나 선형적으로 복원되는지 R^2_lin 같은 지표로 볼 수 있느냐는 점이다.
이 질문이 중요한 이유는 선형성이 높은 블록을 근사하거나 단순화해도 성능 손실이 크지 않을 수 있다는 가능성이 다른 관련 연구에서 제기됐기 때문이다. 다만 성능·일반화·해석 가능성과의 관계는 아직 맥락에 따라 달라진다.
독자는 지금 당장 FFN 선형성을 “압축 후보 탐색 지표” 정도로 두고 시험하는 편이 낫다. 이때 층별 성능 변화와 제거 민감도를 함께 기록해 검증해야 한다.

현황

트랜스포머의 FFN은 보통 어텐션보다 덜 눈에 띄지만, 계산량과 표현력에서 큰 비중을 맡는다. 기존 연구 다수는 FFN을 메모리, 개념 촉진기, 패턴 저장소처럼 해석해 왔다. 예를 들어 2012.14913 논문은 FFN 층이 학습한 패턴이 사람이 읽을 수 있는 형태를 띠며, 하위층은 더 얕은 패턴을, 상위층은 더 의미적인 패턴을 포착한다고 설명했다.

이번 논문의 원문 발췌가 새로 던지는 포인트는 “그렇다면 이 블록이 실제로 얼마나 비선형적으로 동작하느냐”다. 발췌 범위에서 확인되는 사실은 세 가지다. 첫째, 각 FFN을 위치별 입력-출력 맵으로 다룬다. 둘째, 이를 정확한 최소제곱 선형 근사와 잔차로 분해한다. 셋째, held-out variance를 설명하는 비율로 R^2_lin을 정의한다. 저자들이 이름부터 optimizer-free measure라고 적은 만큼, 학습 없이 측정하는 분석 도구를 겨냥한 접근으로 읽힌다.

다만 여기서는 선을 그을 필요가 있다. 조사 결과 기준으로는 이 논문이 어떤 층이 더 선형적인지, 모델 규모와 어떤 상관이 있는지, 학습 단계별로 어떻게 달라지는지에 대한 정량 결론은 확인되지 않았다. arXiv 번호인 2606.19379와 발췌 문장만으로는 블록별 그래프나 수치를 끌어올 수 없다. 같은 이유로 R^2_lin이 압축 파이프라인에서 실제 선택 기준으로 검증됐다고 말하기도 어렵다.

그 대신 주변 문헌은 맥락을 준다. Hugging Face에 소개된 Your Transformer is Secretly Linear 2405.12250은 “가장 선형적인 블록 일부를 제거하거나 선형 근사해도 손실이나 성능에 큰 영향이 없었다”고 요약한다. 반면 같은 조사 결과에는 선형성을 낮추는 정규화가 일부 벤치마크 성능을 개선했다는 언급도 있다. 즉 “더 선형적일수록 더 좋다”는 단순한 공식은 아직 없다.

분석

이 논점이 중요한 이유는, 해석 연구가 설명에서 끝나지 않고 설계와 운영 판단으로 이어질 수 있기 때문이다. 만약 FFN의 일부가 학습 후 사실상 선형 맵에 가깝다면, 그 블록은 복잡한 비선형 모듈이라기보다 “비싼 선형층”에 가깝게 다뤄볼 여지가 생긴다. 그러면 압축에서는 저랭크 근사 후보를 고를 수 있고, 서빙에서는 블록별 대체 실험을 설계할 수 있다. 연구 측면에서는 “비선형성은 구조가 아니라 학습의 결과”라는 관점을 점검하는 계기도 된다.

오해하면 안 되는 지점도 있다. 선형 복원 가능성이 높다고 해서 그 블록이 중요하지 않다는 뜻은 아니다. 선형에 가깝더라도 특정 분포 밖에서는 거동이 달라질 수 있다. 또 블록 간 상호작용 때문에 개별 측정값만으로 전체 모델 거동을 예측하기는 어렵다. 여기에 2109.12036은 트랜스포머가 계층적 일반화보다 선형 일반화를 더 선호한다고 지적한다. 이 맥락은 참고할 만하지만, 곧바로 “FFN 선형성이 일반화의 원인”이라고 묶을 근거는 없다.

해석 가능성과의 관계도 조심해서 봐야 한다. 2203.14680은 FFN이 어휘 공간에서 개념을 밀어 올리며 예측을 만든다고 설명한다. 이런 분석은 FFN이 내부적으로 구조를 가진다는 점을 뒷받침한다. 하지만 구조가 있다는 말과 선형으로 잘 복원된다는 말은 다르다. 하나는 기능 설명이고, 다른 하나는 함수 근사 성질이다. 둘을 섞으면 결론이 흐려진다.

실전 적용

실무자에게 이 주제는 “당장 아키텍처를 바꾸자”보다 “FFN을 블록별로 다르게 다루자”는 메시지에 가깝다. 모델을 압축하거나 지연 시간을 줄여야 한다면, 모든 FFN에 같은 근사 규칙을 적용하기보다 선형성 측정값과 제거 민감도를 함께 보라. 선형성이 높은 블록이 실제로도 대체 가능하다면 계산을 줄일 여지가 생긴다. 반대로 선형성이 높아 보여도 다운스트림 태스크에서 성능이 흔들리면 그 블록은 유지해야 한다.

예: 사내 모델에서 특정 레이어의 FFN을 선형 근사본으로 바꿔 A/B 테스트를 돌릴 수 있다. 이때 평가지표는 단순 정확도 하나로 끝내지 말고, 손실 변화, 지연 시간, 메모리 사용량, 태스크별 편차를 함께 봐야 한다. 특히 층별 역할이 다를 수 있다는 과거 연구를 감안하면 하위층, 중간층, 상위층을 나눠 비교하는 편이 낫다.

오늘 바로 할 일 체크리스트 3개

현재 쓰는 트랜스포머에서 FFN 블록별 입력-출력 샘플을 모으고, 선형 근사 후 블록별 설명력을 기록하라.
선형성이 높게 나온 블록만 골라 제거, 선형 대체, 저랭크 대체 실험을 나눠 돌리고 태스크별 성능 차이를 비교하라.
층 위치별 결과를 따로 정리해 “선형적이어서 대체 가능”과 “선형적이지만 중요”를 구분하라.

FAQ

Q. FFN 선형성 측정은 곧바로 모델 압축에 써도 됩니까?
곧바로 자동화 규칙으로 쓰기보다는 후보 탐색 지표로 쓰는 편이 안전합니다. 관련 자료에는 선형적인 블록을 근사하거나 제거해도 성능 영향이 크지 않았다는 보고가 있지만, 특정 지표인 R^2_lin 자체가 압축 선택 기준으로 널리 검증됐다는 근거는 확인되지 않았습니다.

Q. 선형 복원 가능성이 높으면 그 블록은 덜 중요합니까?
그렇지 않습니다. 선형적으로 복원된다는 사실과 모델 기능에서 덜 중요하다는 판단은 다릅니다. 어떤 블록은 선형에 가까워도 특정 태스크나 분포 변화에서는 핵심 역할을 맡을 수 있습니다.

Q. 이 연구로 트랜스포머가 사실상 선형 모델이라고 봐도 됩니까?
그렇게 보기는 어렵습니다. 논점은 “일부 FFN 블록이 학습 후 얼마나 선형적으로 동작하느냐”에 가깝습니다. 모델 전체의 비선형 구조, 블록 간 상호작용, 분포 바깥 입력에서의 거동까지 사라지는 것은 아닙니다.

결론

FFN 선형성 측정은 해석 연구의 사소한 가지로 보기 어렵다. 트랜스포머 내부를 읽는 계측 도구가 될 수 있고, 동시에 압축과 최적화의 후보 지도를 그리는 방법으로도 검토할 수 있다. 지금 봐야 할 것은 “선형이냐 아니냐”보다, 어떤 블록이 어느 조건에서 선형적으로 대체 가능한가다.

Aionda

트랜스포머 FFN의 선형성

세 줄 요약

현황

분석

실전 적용

FAQ

결론

다음으로 읽기

참고 자료

업데이트 받기