CMMLU

CMMLU：中文多任务语言理解评估工具 CMMLU是一个专为中文设计的语言模型评估基准，旨在衡量模型在中文语境下的知识和推理能力。它覆盖了从基础到高级的67个不同主题，包括自然科学、人文科学、社会科学以及中国特有的驾驶规则等，是一个全面“体检”你的中文语言模型是否健康的工具。 2.
排行榜：模型性能一目了然 CMMLU提供了一个排行榜，展示了不同模型在five-shot（五次样本学习）和zero-shot（无样本学习）条件下的性能。就像是一个AI界的“奥运会”，各个模型在这里一较高下，看看谁在理解中文上更胜一筹。 3.
如何提交测试结果：简单几步轻松参与 对于开源或开放API的模型，你可以直接提交拉取请求，或者如果模型还未开放公测，可以通过发送邮件的方式提交测试代码。CMMLU团队会在验证后更新榜单，让你的模型也有机会在“AI奥运会”上露一手。 4.
数据集：丰富的测试资源 CMMLU提供了丰富的开发和测试数据集，每个问题都是一个四选一的多项选择题。数据以.csv文件形式存在，方便你快速加载和使用。就像是一个“食材仓库”，任你挑选，满足你对中文语言理解测试的一切需求。 5.
快速使用：无缝接入现有平台 CMMLU的数据集已经整合到了lm-evaluation-harness和OpenCompass等开源平台中，你可以轻松地通过这些平台进行测试。这就像是给你的模型找到了一个“健身教练”，帮助它在中文理解上更上一层楼。 6.
评估代码：透明公正的评分标准 CMMLU的评估代码位于src目录中，运行它们的脚本在script目录下。这就像是一场“AI考试”的评分标准，公开透明，让每个模型都能在同等条件下接受评估。 7.
许可证：合理使用，共创共享 CMMLU数据集采用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License，意味着你可以自由使用、分享和修改，但需遵守相应的规定。这就像是AI界的“开源协议”，鼓励大家共同参与，共同进步。

详细描述