跳至主要內容
Int8量化技术原理讲解

Int8量化技术原理讲解

Int量化技术是一种节约大模型推理或训练的过程中占用的显存的技术。量化的目是为了减少计算时间和计算能耗 。在一些场景下对能耗和时间的要求,要高于模型的指标,所以在这种情况下量化是一个必然的选择。


最后的开神-wkyc大约 2 分钟微调技术优化内存机器学习
大幅优化推理速度-ByteTransformer

大幅优化推理速度-ByteTransformer

论文提出了字节跳动的GPU Transformer推理库——ByteTransformer。针对自然语言处理常见的可变长输入,论文提出了一套优化算法,这些算法在保证运算正确性的前提下,成功避免了传统实现中的冗余运算,实现了端到端的推理过程的大幅优化。


猞猁-zlj大约 4 分钟语言模型Transformer优化字节