serving-llms-vllm | 技能詳情 | OpenClaw Study

使用 vLLM 的 PagedAttention 與連續批次處理，以高吞吐量提供 LLM 服務。適用於部署生產級 LLM API、優化推論延遲/吞吐量，或在 GPU 顯存受限的情況下提供模型。支援 OpenAI 相容端點、量化（GPTQ/AWQ/FP8）及張量並行。

本頁屬於 OpenClaw Skills 學習體系，涵蓋技能安裝、分類導覽與實戰連結。