VLLM部署
一、VLLM是什么
vLLM 是一个用于 LLM 推理和服务的快速易用的库。
vLLM 最初是在加州大学伯克利分校的 Sky Computing Lab 开发的,现已发展成为一个社区驱动的项目,融合了学术界和工业界的贡献。
二、VLLM有什么特点
- 通过 PagedAttention 高效管理注意力键值内存
- 对进来的请求进行连续批处理
- 通过 CUDA/HIP 图实现快速模型执行
- 量化:GPTQ, AWQ, INT4, INT8 和 FP8
...About 6 min
vLLM 是一个用于 LLM 推理和服务的快速易用的库。
vLLM 最初是在加州大学伯克利分校的 Sky Computing Lab 开发的,现已发展成为一个社区驱动的项目,融合了学术界和工业界的贡献。