C-Eval 排行榜

月访问量： 2445140.49%

主要用于展示不同大语言模型（LLMs）在多层次、多学科中文任务中的综合能力排名。

https://cevalbenchmark.com/static/leaderboard_zh.html 是 中文大模型评估基准 C-Eval 的官方排行榜页面，主要用于展示不同大语言模型（LLMs）在多层次、多学科中文任务中的综合能力排名。以下是对其核心功能和特点的详细介绍：

模型能力排名
提供实时更新的中文大模型性能排行榜，涵盖国内外主流模型（如 GPT-4、GLM、ChatGPT 等），通过标准化分数直观对比模型在复杂任务中的表现。
多层次评估体系
- 学科覆盖：包含 52 个学科，覆盖初中、高中、大学、专业四大难度级别，例如数学、物理、化学、法学、医学等。
- 题目类型：13,948 道选择题，题目来源包括 PDF/Word 解析和人工标注，避免训练数据污染。
- 挑战性子集（C-Eval Hard）：从评估集中筛选 8 个高难度科目（如高等数学、离散数学），测试模型的深度推理能力。
评估模式支持
- Answer-Only（AO）：直接输出答案。
- Chain-of-Thought（CoT）：要求模型生成推理过程后再回答，部分科目中 CoT 可显著提升性能（如 GPT-4 在概率统计科目上提升 8.4%）。
开发者工具
- 测试集提交：用户可将模型预测结果提交至网站，系统自动生成分数并更新排名，测试集标签保密以保证公平性。
- 数据防污染设计：采用非结构化数据格式（如 LaTeX）和人工审核，减少预训练数据泄露风险。

如需更详细的评估方法或学科分类，可参考 C-Eval 论文或访问官网文档。

热门国家/地区访客分布

国家	流量占比	月访问量	人均访问时长	人均访问页数	跳出率
印度	3.39%	0.00%	0秒	1	47.07%
中国大陆	34.54%	0.00%	10秒	1	75.90%
美国	62.08%	49.29%	0秒	1	22.19%
美国	100.00%	179.11%	222秒	3	38.95%
中国台湾	9.73%	-66.98%	62秒	1	78.08%