跳至主要內容
S-LoRA:为数千个并发LoRA Adapter提供服务

S-LoRA:为数千个并发LoRA Adapter提供服务

S-LoRA 将所有Adapter存储在主存中,并将当前运行的查询使用的Adapter获取到 GPU 内存。为了有效利用GPU内存并减少碎片,S-LoRA提出了统一分页(Unified Paging)。


最后的开神-wkyc大约 6 分钟微调技术PEFTHugging FaceLoRA
基于QLoRA微调大语言模型

基于QLoRA微调大语言模型

LoRA的核心思想就是通过低秩分解来模拟参数的改变量,从而以极小的参数量来实现大模型的间接训练。AdaLoRA是对LoRA的一种改进,它根据重要性评分动态分配参数预算给权重矩阵。而本文要讲的QLoRA的核心思想就是在不降低任何性能的情况下微调量化为4 bit的模型。


最后的开神-wkyc大约 5 分钟微调技术LLaMALoRALLM
PEFT:最先进的参数高效微调方法

PEFT:最先进的参数高效微调方法

参数高效微调 (PEFT) 方法能够将预训练的语言模型 (PLM) 有效地适应各种下游应用程序,而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。


hyb大约 15 分钟微调技术PEFTHugging FaceLoRAAdaLoRAPrefix TuningP-TuningPrompt Tuning
Int8量化技术原理讲解

Int8量化技术原理讲解

Int量化技术是一种节约大模型推理或训练的过程中占用的显存的技术。量化的目是为了减少计算时间和计算能耗 。在一些场景下对能耗和时间的要求,要高于模型的指标,所以在这种情况下量化是一个必然的选择。


最后的开神-wkyc大约 2 分钟微调技术优化内存机器学习