DeepSpeed와 FSDP 학습 전략 비교 가이드

거대언어모델(LLM) 학습 현장에서 GPU 메모리는 늘 부족한 자원이다. 엔지니어들은 수천억 개의 파라미터를 효율적으로 배치하기 위해 마이크로소프트의 DeepSpeed와 메타의 FSDP(Fully Sharded Data Parallel) 사이에서 매일 밤 선택의 기로에 선다. 이제 Hugging Face Accelerate는 이 복잡한 두 프레임워크를 코드 한 줄로 오가는 추상화 계층을 제공하며, 인프라 규모에 따른 학습 전략의 공식을 새로 쓰고 있다.

모델 크기가 결정하는 프레임워크의 향방

2025년 하반기 집계된 벤치마크 데이터는 모델 규모에 따른 성능 역전 현상을 명확히 보여준다. 1B 미만의 중소형 모델 환경에서 FSDP(FULL_SHARD)는 DeepSpeed ZeRO-3 대비 최대 5배 빠른 반복 속도를 기록했다. 파이토치(PyTorch) 네이티브 통합이 선사하는 가벼운 오버헤드가 처리 효율을 극대화한 결과다.

7B 규모 모델로 넘어가면 양상은 팽팽해진다. A100 GPU 4개 기준 벤치마크에서 FSDP는 초당 3158.7개의 토큰을 처리했고, DeepSpeed는 3094.5개를 기록했다. 두 프레임워크의 성능 차이가 오차 범위 내로 좁혀지는 구간이다. 하지만 모델 크기가 70B 이상의 초거대 영역으로 진입하면 무게추는 다시 DeepSpeed로 기운다.

DeepSpeed는 ZeRO-Infinity 기술을 통해 메모리 오프로딩의 유연성을 극대화한다. GPU 메모리가 바닥나더라도 CPU와 NVMe 메모리까지 동원해 학습을 이어가는 생존력을 발휘한다. 반면 FSDP는 고속 상호연결(NVLink) 환경에서 높은 처리량(Throughput)을 유지하는 데 강점이 있지만, 하드웨어 자원이 극도로 제한된 상황에서는 DeepSpeed의 관리 능력을 따라잡지 못하는 한계를 보였다.

10B 파라미터: 전략 수립의 임계점

엔지니어가 DeepSpeed에서 FSDP로, 혹은 그 반대로 전환해야 하는 최적의 시점은 어디일까. 업계 데이터는 10B(100억) 파라미터를 그 분기점으로 지목한다. 10B 미만 모델을 다루거나 NVLink 같은 고대역폭 네트워크가 확보된 환경에서는 FSDP가 정답에 가깝다. 불필요한 통신 오버헤드를 줄여 학습 시간을 단축할 수 있기 때문이다.

반대로 10B를 넘어서는 모델을 한정된 GPU 자원에서 학습해야 한다면 DeepSpeed ZeRO-3가 필수적인 선택지가 된다. 특히 GPU 메모리 부족(OOM) 문제를 해결하기 위한 오프로딩 기능은 DeepSpeed가 여전히 우위를 점하는 지점이다. 2026년 1월 현재 NVIDIA B200 등 차세대 가속기에서의 구체적인 비교 수치는 아직 부족하지만, 기존 인프라 환경에서 이 10B 법칙은 여전히 유효한 가이드라인으로 작동한다.

Hugging Face Accelerate는 이러한 환경 변화에 대응하기 위해 save_state와 load_state 통합 API를 내놓았다. 과거에는 DeepSpeed의 ZeRO 파티셔닝과 FSDP의 샤딩 방식이 서로 달라 체크포인트를 호환하는 과정에서 심각한 병목이 발생했다. 이제 Accelerate는 프레임워크 간 차이를 추상화하여, 개발자가 분산 저장된 체크포인트를 표준 가중치 파일(safetensors)로 손쉽게 통합하도록 돕는다. DeepSpeed의 zero_to_fp32.py 유틸리티나 FSDP 전용 merge_weights 도구를 적재적소에 배치해 프레임워크 전환 시 발생하는 데이터 불일치 문제를 해결한 것이다.

인프라 유연성이 곧 경쟁력

단순히 성능 수치만으로 승자를 가릴 수는 없다. FSDP v2의 성능 지표가 조 단위(Trillion-scale) 모델에서 얼마나 안정적인지는 아직 정량적으로 충분히 검증되지 않았다. 또한 DeepSpeed의 일부 옵션이 특정 Accelerate 버전에서만 정상 작동하는 등의 파편화 문제도 여전히 해결해야 할 숙제로 남아 있다.

그럼에도 불구하고 Accelerate 기반의 통합 학습 환경 구축은 개발팀에게 막대한 유지보수 이점을 제공한다. 하드웨어 구성이 바뀌거나 모델 규모가 커질 때마다 전체 학습 코드를 뜯어고치는 대신, 설정 파일 하나로 최적의 엔진을 갈아 끼울 수 있기 때문이다. 이는 단순한 기술적 편의를 넘어, 급변하는 AI 모델 트렌드에 대응하는 조직의 속도로 직결된다.

실전 적용 가이드

개발자와 인프라 설계자는 지금 즉시 다음 전략을 검토해야 한다.

모델 규모 확인: 10B 미만 모델이라면 FSDP를 기본 엔진으로 설정하여 학습 속도를 확보하라. 고속 네트워크가 없는 일반적인 클라우드 환경에서도 FSDP의 효율성이 빛을 발한다.
오프로딩 필요성 검토: GPU 메모리 제약으로 인해 학습이 중단된다면 DeepSpeed ZeRO-Infinity를 활성화하라. CPU 메모리를 활용한 연산 확장은 대규모 모델 학습의 유일한 돌파구가 될 수 있다.
체크포인트 표준화: 프레임워크에 종속된 저장 방식 대신 safetensors 포맷으로 가중치를 관리하라. 추후 추론 서버로 모델을 이관하거나 다른 학습 프레임워크로 전환할 때 발생할 기술 부채를 미리 청산할 수 있다.

FAQ

Q: NVLink가 없는 환경에서도 FSDP가 DeepSpeed보다 유리한가? A: 반드시 그렇지는 않다. FSDP는 노드 내/노드 간 통신 대역폭에 민감하게 반응한다. 저속 네트워크 환경에서는 DeepSpeed의 통신 비용 감쇄 알고리즘이 더 안정적인 성능을 보일 가능성이 높다. 1B 미만 소형 모델에서는 네트워크 부하가 적어 FSDP가 유리하지만, 모델 규모가 커질수록 네트워크 환경에 따른 벤치마크 수행이 선행되어야 한다.

Q: DeepSpeed에서 저장한 체크포인트를 FSDP에서 로드할 때 가장 큰 문제는 무엇인가? A: 각 프레임워크가 모델 가중치를 쪼개서 저장하는 방식(Partitioning)이 다르다는 점이다. 이를 해결하려면 먼저 zero_to_fp32.py 같은 도구로 분산된 가중치를 하나로 합친 뒤, FSDP가 인식할 수 있는 표준 포맷으로 다시 샤딩해야 한다. Hugging Face Accelerate는 이 과정을 자동화하는 API를 제공하지만, 특정 버전에서의 호환성 여부를 사전에 확인해야 한다.

Q: 70B 이상의 초거대 모델 학습 시 FSDP를 사용하는 것은 위험한가? A: 위험하다기보다는 효율의 문제다. 70B 이상의 모델은 단일 GPU 메모리에 담기지 않으므로 정교한 메모리 오프로딩과 통신 최적화가 필수다. DeepSpeed는 이 분야에서 오랜 기간 검증된 안정성을 제공한다. FSDP로 대규모 모델을 학습하려면 하드웨어 자원이 충분히 뒷받침되어야 하며, 인프라의 가용성에 따라 DeepSpeed가 더 안전한 선택지가 될 수 있다.

결론

Hugging Face Accelerate를 통한 분산 학습 최적화는 더 이상 선택이 아닌 필수다. 10B 파라미터를 기준으로 FSDP의 처리량과 DeepSpeed의 메모리 효율성을 전략적으로 교체하는 유연함이 필요하다. 앞으로는 하드웨어 아키텍처의 변화에 따라 이 임계점이 어떻게 이동하는지, 그리고 조 단위 모델에 대한 각 프레임워크의 대응력을 주시해야 한다. 결국 승자는 특정 기술에 매몰되지 않고 인프라 상황에 맞춰 학습 엔진을 자유자재로 다루는 팀이 될 것이다.

참고 자료

🛡️ FSDP vs DeepSpeed - Romeo Kienzler - Medium
🛡️ FSDP vs DeepSpeed - Parallel Framework Comparison
🏛️ From DeepSpeed to FSDP and Back Again with Hugging Face Accelerate
🏛️ FSDP vs DeepSpeed - Hugging Face
🏛️ Fully Sharded Data Parallel - Hugging Face

Aionda