CMMLU

4小时前发布 1 00

一个综合性的大模型中文评估基准

收录时间：

2026-06-19

打开网站手机查看

AI模型评测

CMMLU

打开网站

CMMLU是什么

CMMLU是综合性的中文评估基准，专门用在评估语言模型在中文语境下的知识和推理能力，涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学，需要知识的人文科学和社会科学，及需要生活常识的中国驾驶规则等。CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。CMMLU提供丰富的测试数据和排行榜，支持多种评估方式，如five-shot和zero-shot测试，是衡量中文语言模型性能的重要工具。

CMMLU的主要功能

排行榜：展示不同语言模型在five-shot和zero-shot测试下的表现，帮助比较模型性能。
数据集：提供开发和测试数据，支持快速使用和评估。
预处理代码：提供提示生成方法，方便模型训练和测试。
评估工具：支持多种评估方式，便于研究者和开发者测试模型能力。

如何使用CMMLU

获取数据集：
- 从GitHub下载：访问 CMMLU GitHub页面：https://github.com/haonan-li/CMMLU/，在data目录中找到开发和测试数据集。

数据统计

暂无评论

暂无评论...

CMMLU

CMMLU是什么

CMMLU的主要功能

如何使用CMMLU

数据统计

相关导航

C-Eval

SuperCLUE

LMArena

H2O EvalGPT

OpenCompass

Open LLM Leaderboard

FlagEval

LLMEval3

暂无评论

目录Toggle Table of ContentToggle