gptq | 技能详情 | OpenClaw Study

面向大型语言模型的训后（post-training）4位量化，尽量减少精度损失。适用于在消费级GPU上部署大型模型（70B、405B），需要约4×的内存缩减且困惑度下降小于2%时，或与FP16相比需要更快的推理（3–4×加速）。与 transformers 和 PEFT 集成，支持 QLoRA 微调。Opti…

面向大型语言模型的训后（post-training）4位量化，尽量减少精度损失。适用于在消费级GPU上部署大型模型（70B、405B），需要约4×的内存缩减且困惑度下降小于2%时，或与FP16相比需要更快的推理（3–4×加速）。与 transformers 和 PEFT 集成，支持 QLoRA 微调。Optimi......

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。