评估方法 分类

M3KE数据集是一种针对大语言模型的多层次、多主题的知识评估数据集，旨在衡量中文大型语言模型在零样本和少样本设置中获取知识的能力。

shb大约 4 分钟

C-Eval是一个针对基础模型的综合中文评估套件。它由 13948 道多项选择题组成，涵盖 52 个不同学科和四个难度级别，如下所示。请访问我们的网站或查看我们的论文以了解更多详细信息。

最后的开神-wkyc大约 2 分钟