微调技术 分类

S-LoRA 将所有Adapter存储在主存中，并将当前运行的查询使用的Adapter获取到 GPU 内存。为了有效利用GPU内存并减少碎片，S-LoRA提出了统一分页（Unified Paging）。

最后的开神-wkyc大约 6 分钟

LoRA的核心思想就是通过低秩分解来模拟参数的改变量，从而以极小的参数量来实现大模型的间接训练。AdaLoRA是对LoRA的一种改进，它根据重要性评分动态分配参数预算给权重矩阵。而本文要讲的QLoRA的核心思想就是在不降低任何性能的情况下微调量化为4 bit的模型。

最后的开神-wkyc大约 5 分钟

参数高效微调（PEFT）方法能够将预训练的语言模型（PLM）有效地适应各种下游应用程序，而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面，PEFT方法仅微调少量（额外）模型参数，从而大大降低了计算和存储成本。

hyb大约 15 分钟

Int量化技术是一种节约大模型推理或训练的过程中占用的显存的技术。量化的目是为了减少计算时间和计算能耗。在一些场景下对能耗和时间的要求，要高于模型的指标，所以在这种情况下量化是一个必然的选择。

最后的开神-wkyc大约 2 分钟

S-LoRA：为数千个并发LoRA Adapter提供服务