
详细描述
1.
- CMMLU:中文多任务语言理解评估工具 CMMLU是一个专为中文设计的语言模型评估基准,旨在衡量模型在中文语境下的知识和推理能力。它覆盖了从基础到高级的67个不同主题,包括自然科学、人文科学、社会科学以及中国特有的驾驶规则等,是一个全面“体检”你的中文语言模型是否健康的工具。 2.
- 排行榜:模型性能一目了然 CMMLU提供了一个排行榜,展示了不同模型在five-shot(五次样本学习)和zero-shot(无样本学习)条件下的性能。就像是一个AI界的“奥运会”,各个模型在这里一较高下,看看谁在理解中文上更胜一筹。 3.
- 如何提交测试结果:简单几步轻松参与 对于开源或开放API的模型,你可以直接提交拉取请求,或者如果模型还未开放公测,可以通过发送邮件的方式提交测试代码。CMMLU团队会在验证后更新榜单,让你的模型也有机会在“AI奥运会”上露一手。 4.
- 数据集:丰富的测试资源 CMMLU提供了丰富的开发和测试数据集,每个问题都是一个四选一的多项选择题。数据以.csv文件形式存在,方便你快速加载和使用。就像是一个“食材仓库”,任你挑选,满足你对中文语言理解测试的一切需求。 5.
- 快速使用:无缝接入现有平台 CMMLU的数据集已经整合到了lm-evaluation-harness和OpenCompass等开源平台中,你可以轻松地通过这些平台进行测试。这就像是给你的模型找到了一个“健身教练”,帮助它在中文理解上更上一层楼。 6.
- 评估代码:透明公正的评分标准 CMMLU的评估代码位于src目录中,运行它们的脚本在script目录下。这就像是一场“AI考试”的评分标准,公开透明,让每个模型都能在同等条件下接受评估。 7.
- 许可证:合理使用,共创共享 CMMLU数据集采用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License,意味着你可以自由使用、分享和修改,但需遵守相应的规定。这就像是AI界的“开源协议”,鼓励大家共同参与,共同进步。