"vllm" 태그

2개의 글이 있습니다

FlashAttention, PagedAttention, 투기적 디코딩 등 메모리 병목을 해결하고 연산 효율을 높이는 주요 LLM 추론 가속화 기술을 살펴봅니다.

오픈소스 vLLM 상용화를 목표로 하는 인퍼랙트가 8억 달러 가치를 인정받으며 시드 투자를 유치했습니다. AI 추론 비용 절감과 효율 극대화에 집중합니다.

Aionda