Skip to main content
VLLM部署

VLLM部署

一、VLLM是什么

vLLM 是一个用于 LLM 推理和服务的快速易用的库。

vLLM 最初是在加州大学伯克利分校的 Sky Computing Lab 开发的,现已发展成为一个社区驱动的项目,融合了学术界和工业界的贡献。

二、VLLM有什么特点

  • 通过 PagedAttention 高效管理注意力键值内存
  • 对进来的请求进行连续批处理
  • 通过 CUDA/HIP 图实现快速模型执行
  • 量化:GPTQ, AWQ, INT4, INT8 和 FP8

Y-aong...About 6 minAgentVLLMVLLM