Lllm커뮤니티2026년 2월 1일2026-02-013분VerifiedLLM 추론 가속화: FlashAttention부터 투기적 디코딩까지FlashAttention, PagedAttention, 투기적 디코딩 등 메모리 병목을 해결하고 연산 효율을 높이는 주요 LLM 추론 가속화 기술을 살펴봅니다.