80G显存塞50个7B大模子！清华&OpenBMB开源增量压缩新算法

发布日期：2024-12-26 05:32 点击次数：183

Delta-CoMe团队投稿

量子位 | 公众号 QbitAI

最新模子增量压缩时代，一个80G的A100 GPU概况精真金不怕火加载多达50个7B模子，简约显存约8倍，同期模子性能委果与压缩前的微调模子出奇。

清华大学NLP履行室联袂OpenBMB开源社区、北京大学和上海财经大学的参议团队，建议Delta-CoMe。

这项时代的中枢在于诈欺骨干模子与任务专用模子之间参数增量（即Delta）的特质进行压缩，从辛苦毕有储支出和部署资本的大幅缩小。不仅有助于处罚资源瓶颈问题，更为多任务处理和模子部署开垦新的可能。

具体而言，Delta-CoMe将低秩领会和低比特量化时代相结合，充分诈欺Delta参数的低秩秉性，建议了一种全新的夹杂精度压缩范例。这种范例不仅概况已毕接近无损的任务性能，还能显赫教育推理服从。

Delta-CoMe范例先容

微调是增强预考试模子的紧迫技能，不同任务时时需要不同的微调表情。举例Luo et al.[1]建议RLEIF通过Evove-instruction来增强模子数学推理才能；Wei et al.[2]诈欺Code snnipet合成高质料的提醒数据来增多模子的代码才能。关联词，这些范例时时依赖高质料数据，并需要经心策画的战略才能已毕显赫的服从。

在一些场景中时时需要具有不同才能的LLM同期处理问题，举例多田户场景，多任务场景以及端侧场景等等。一种当然的处罚决议是部署单个通用模子行为骨干，协作多个具有独到才能的Delta。

以Bitdelta[3]为例，它通过将模子的Delta压缩到1-bit，灵验保留了模子在问答等场景中的才能。尽管该压缩范例在存储和推理服从上闪现出色，其在更复杂的任务（如数学推理和代码生成）上仍存在显然的才能瓶颈。

针对这一挑战，THUNLP履行室调和北京大学和上海财经大学建议Delta-CoMe。这一范例结合低秩领会和低比特量化时代，不仅显赫教育了模子在复杂任务上的闪现，还兼顾了压缩服从和实质应用需求，为模子的高效部署提供了一种新念念路。

与前东说念主的范例比较，Delta-CoMe范例的优点在于：

结合低秩与低比特量化，诈欺了Delta低秩的特质，并发现低秩领会后的Delta是长尾散布的；之后接纳夹杂精度量化进一步压缩性能委果无损，比较于BitDelta等范例，在Math, Code, Multi-modal等复杂任务上，性能与压缩前的微调模子闪现基本接近推理速率教育，为夹杂精度量化已毕了Triton kernel算子，对比Pytorch的已毕表情，带来近3倍的推理速率教育跨越Delta-tuning，复古多精度Backbone，Delta-CoMe在服从上显赫优于LoRA微调，并不错用在多种精度的Backbone上

具体而言，Delta-CoMe领先接纳SVD进行低秩领会，Delta 具有低秩性，过程低秩领会之后，其特征值呈现出长尾散布的范例，仅有少数较大奇异值对应的奇异向量对最终的扫尾孝敬较大。

一个当然的见地，咱们不错左证奇异值的大小进行夹杂精度量化，将较大的奇异值对应的奇异向量用较高精度暗意，而较小的奇异值对应的奇异向量用较低精度暗意。

履行扫尾

多个开源模子和 Benchmark 的履行考据了该范例的灵验性。

使用Llama-2行为骨干模子，在数学、代码、对话、多模态等多个任务中进行履行，Delta-CoMe展现出平均委果无损的性能。底下分离是7B模子和13B模子的履行服从。

此外，还在Mistral、Llama-3等其它骨干模子上对不同的压缩范例进行了考据。

为了教育夹杂精度量化的计较服从，已毕一个Triton Kernel，比较于Pytorch的已毕表情，推理速率教育了约3倍。

履行扫尾标明，使用一块80G的A100 GPU不错加载50个7B模子。

临了，还比较了Delta-Tuning和Delta-Compression的服从互异（Delta-Tuning指的是通过考试部分参数进行微调，Delta-Compression指的是先进行全参数微调，再将微调带来的模子参数增量进行压缩）。其中Delta-Tuning接纳的是LoRA。Delta-CoMe对比LoRA在琢磨的存储支出下，性能显赫教育。

Delta-CoMe 通过结合低秩领会和低比特量化，不仅已毕了大幅度的存储压缩，还在复杂任务如数学推理、代码生成和多模态任务上保管了与压缩前模子出奇的性能闪现。比较于传统的微调范例，Delta-CoMe 展现出了更高的活泼性，尤其在多田户和多任务场景中具有显赫的应用价值。此外，借助 Triton kernel 的优化，推理速率获取了显赫教育，使得部署大鸿沟模子成为可能。昔日，这一范例的后劲不仅在于进一步优化模子存储和推理速率，也有望在更庸碌的实质应用中鼓舞谎言语模子的普及和高效运作。

参考文件

[1]Yu, L., Jiang, W., Shi, H., Jincheng, Y., Liu, Z., Zhang, Y., Kwok, J., Li, Z., Weller, A., and Liu, W.Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations, 2023.

[2] Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023b

[3] Liu, J., Xiao, G., Li, K., Lee, J. D., Han, S., Dao, T., and Cai, T. Bitdelta: Your fine-tune may only be worth one bit. arXiv preprint arXiv:2402.10193, 2024b.

Paper取悦：https://arxiv.org/abs/2406.08903Github取悦：https://github.com/thunlp/Delta-CoMe

— 完 —

量子位 QbitAI · 头条号签约

神气咱们，第一时期获知前沿科技动态

上一篇：AI颠覆东谈主机交互大厂押宝Agent

下一篇：特斯拉Model 3和Model Y比较，哪个值得买？