面向激活感知的权重量化,用于4位LLM压缩,可实现约3倍加速并将精度损失降到最小。适合在GPU内存受限时部署大模型(7B–70B)、需要比GPTQ更快推理且更好保留精度的场景,或用于指令微调和多模态模型。MLSys 2024 最佳论文奖获奖方法。Optimization, AWQ, Quantization,…
面向激活感知的权重量化,用于4位LLM压缩,可实现约3倍加速并将精度损失降到最小。适合在GPU内存受限时部署大模型(7B–70B)、需要比GPTQ更快推理且更好保留精度的场景,或用于指令微调和多模态模型。MLSys 2024 最佳论文奖获奖方法。Optimization, AWQ, Quantization, 4......
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。