分享到

EfficientQAT：单卡70B模型量化感知训练新方案

2024-10-17 11:52

香港大学与上海人工智能实验室的研究者提出了一种高效的大模型量化感知训练方案EfficientQAT，这一方案能够在单个A100-80GB GPU上仅用41小时完成2-bit Llama-2-70B模型的量化感知训练（QAT）。与全精度模型相比，精度仅下降不到3%，同时相比于Llama-2-13B模型，精度获得了1.67倍的增益，且内存需求更低。EfficientQAT通过创新的量化方法，实现了在保持INT量化易于部署的特性的同时，达到与vector量化相媲美的性能，为大模型的量化训练提供了新的高效解决方案。

		自动登录	找回密码
密码			立即注册