awq-quantization | 技能详情 | OpenClaw Study

面向激活感知的权重量化，用于4位LLM压缩，可实现约3倍加速并将精度损失降到最小。适合在GPU内存受限时部署大模型（7B–70B）、需要比GPTQ更快推理且更好保留精度的场景，或用于指令微调和多模态模型。MLSys 2024 最佳论文奖获奖方法。Optimization, AWQ, Quantization,…

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。