Hugging Face 标签

S-LoRA 将所有Adapter存储在主存中，并将当前运行的查询使用的Adapter获取到 GPU 内存。为了有效利用GPU内存并减少碎片，S-LoRA提出了统一分页（Unified Paging）。

最后的开神-wkyc大约 6 分钟

参数高效微调（PEFT）方法能够将预训练的语言模型（PLM）有效地适应各种下游应用程序，而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面，PEFT方法仅微调少量（额外）模型参数，从而大大降低了计算和存储成本。

hyb大约 15 分钟

S-LoRA：为数千个并发LoRA Adapter提供服务