C-Eval logo

C-Eval

一个全面的中文基础模型评估套件

大模型测评
C-Eval

详细描述

1.

  • C-Eval基准测试:大语言模型的中文评估 C-Eval基准测试是一个多层次多学科的中文评估套件,专为大语言模型设计。它提供了一个平台,让研究人员和开发者能够测试和比较不同模型在各种中文语言任务上的性能。 2.
  • 公开与受限访问模型的排行榜 C-Eval将模型分为两类:公开访问和受限访问。公开访问模型对所有人开放,可以通过权重下载或API接口进行测试;而受限访问模型则不对公众开放,可能需要特定的权限或邀请才能进行评估。 3.
  • 多维度的测试结果展示 测试结果不仅包括模型的平均得分,还涵盖了STEM(科学、技术、工程和数学)、社会科学、人文科学和其他领域的具体表现。这为用户提供了一个全面的视角,以了解模型在不同领域的应用潜力。 4.
  • 零样本和少样本测试的支持 C-Eval支持零样本(zero-shot)和少样本(few-shot)测试,这意味着模型可以在没有或很少的训练数据的情况下进行评估,这对于理解模型的泛化能力至关重要。 5.
  • 提交系统和分数自动计算 用户可以向C-Eval提交自己模型的预测结果,系统将自动计算分数。这一过程既保护了用户隐私(默认不公开提交结果),又允许用户在需要时选择公开其成绩。 6.
  • 对榜单的谨慎态度 C-Eval提醒用户,任何评测都有局限性,榜单也可能受到不健康刷榜行为的影响。因此,建议用户在参考榜单时保持谨慎,并对模型的实际应用效果进行独立验证。 7.
  • 模型性能的详细列表 排行榜详细列出了各个模型的名称、发布机构、访问方式、提交时间和在不同科目上的得分,为用户提供了清晰的性能比较基准。