awq-quantization | スキル詳細 | OpenClaw Study

活性化を考慮した重み量子化による4ビットLLM圧縮。3倍前後の高速化と最小限の精度低下で大規模モデル（7B–70B）を限られたGPUメモリ上にデプロイする際に有効です。GPTQより高速な推論が必要で、精度保護を重視する場合や、指示調整済みやマルチモーダルモデルに適しています。MLSys 2024 最優秀論文賞…

このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。