serving-llms-vllm | 技能详情 | OpenClaw Study

使用 vLLM 的 PagedAttention 和连续批处理，以高吞吐量提供 LLM 服务。适用于部署生产级 LLM API、优化推理延迟/吞吐量，或在 GPU 显存受限的情况下服务模型。支持 OpenAI 兼容端点、量化（GPTQ/AWQ/FP8）和张量并行。

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。