BPE分词器
字节对编码(Byte Pair Encoder,BPE),又称 digram coding 双字母组合编码,是一种数据压缩算法,用来在固定大小的词表中实现可变⻓度的子词。该算法简单有效,因而目前它是最流行的方法。
大约 5 分钟
字节对编码(Byte Pair Encoder,BPE),又称 digram coding 双字母组合编码,是一种数据压缩算法,用来在固定大小的词表中实现可变⻓度的子词。该算法简单有效,因而目前它是最流行的方法。
新加坡国立大学的研究人员发布了一篇全新的论文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》,研究了大语言模型的Epoch次数设置问题。文章讨论了在重复的数据集上进行多次训练对大语言模型性能的影响。作者指出,随着大语言模型的规模和训练数据集中Token数量的增加,模型性能受到很大的影响。然而,现有的数据集中的Token数量有限,模型参数规模的增长可能会导致Token不足的情况,被称为"Token危机"。