每日一博 | Transformers 中原生支持的量化方案概述
本文旨在对 transformers 支持的各种量化方案及其优缺点作一个清晰的概述,以助于读者进行方案选择。 目前,量化模型有两个主要的用途: 在较小的设备上进行大模型推理 对量化模型进行适配器微调 到目前为止,transformers 已经集成并原生支持了bitsandbytes和auto-gptq这两个量化库。请注意,🤗 optimum 还支持更多的量化方案,但本文不会涉及这一块内容。 要详细了解每种方案的更多信息,可查看下文列出的相关资源,或者阅读相应的transformers文档。 另请注意,下文内容仅适用于PyTorch模型,Tensorflow和Flax/JAX模型不在讨论范围之内。 目录 资源 bitsandbytes 与 auto-gptq 之比较 深入研究速度基准 总结与最后的话 致谢 资源 GPTQ 博文– 概述什么是 GPTQ 量化方法以及如何使用它。 bistandbytes 4 比特量化博文- 本文介绍了 4 比特量化和 QLoRa,QLoRa 是一种高效的微调方法。 bistandbytes 8 比特量化博文- 本文解释了如何与 bitsandbytes ...
