
这个网站是 Hugging Face 上的一个 Space,名为 Open LLM Leaderboard(开放大语言模型排行榜),由 open-llm-leaderboard 团队创建。它的主要目的是跟踪、排名和评估开源大语言模型(LLMs)和聊天机器人,为用户提供一个透明、可比较的平台,以了解不同模型的性能表现。以下是对其功能和用途的详细介绍:
网站的主要用途
Open LLM Leaderboard 旨在解决评估和比较开源大语言模型的难题。由于不同模型的开发者可能会使用不同的测试方法、提示词或数据集,导致性能数据难以直接比较,这个排行榜通过标准化的评估流程,提供可重现的结果,帮助用户区分宣传中的“水分”和模型的真实能力。它广泛服务于机器学习社区,包括研究人员、开发者和普通用户。
核心功能
-
模型排名与评估
- 网站展示了一个排行榜,列出各种开源大语言模型的性能得分。
- 评估基于标准化的基准测试(如 MMLU、HellaSwag 等),确保所有模型在相同的条件下(例如相同的问题、相同的提问顺序)进行测试。
- 用户可以看到每个模型在不同任务上的得分,例如多选题准确率、推理能力等。
-
可重现性支持
- 提供详细的评估数据和方法,用户可以通过给出的代码和工具重现结果。
- 例如,用户可以使用 Eleuther AI 的 LM Evaluation Harness(一个开源评估框架)运行相同的测试,具体命令和参数也在网站相关文档中提供。
-
模型详细信息
- 点击模型名称后的特定图标(如 📄),可以查看该模型的输入输出细节、参数规模等信息。
- 如果某个模型被社区标记为“Flagged”(有争议或问题),用户可以点击链接查看相关讨论。
-
社区协作与提交
- 用户可以提交自己的模型进行评估,提交后会在排行榜的计算集群上自动运行测试。
- 社区成员可以通过讨论区交流意见,报告问题或分享见解。
-
数据访问
- 评估结果存储在 Hugging Face 的数据集(Dataset)中,例如:
- 详细数值结果:
https://huggingface.co/datasets/open-llm-leaderboard-old/results
- 社区请求和运行状态:
https://huggingface.co/datasets/open-llm-leaderboard-old/requests
- 详细数值结果:
- 这些数据集公开透明,供用户下载和分析。
- 评估结果存储在 Hugging Face 的数据集(Dataset)中,例如:
-
历史与更新
- 该排行榜自推出以来不断更新,例如升级到 Open LLM Leaderboard v2,引入了更科学的评分方法(如归一化得分)。
- 它还记录了过去两年内超过 13,000 个模型的评估数据,反映了开源 LLM 领域的快速发展。
特色与意义
- 广泛使用:自推出以来,该排行榜吸引了超过 200 万独立访客,每月约有 30 万社区成员参与使用或协作。
- 推动评估标准化:通过提供统一测试环境,它促进了模型评估的公平性和科学性,避免了开发者“优化特定测试”的情况。
- 适应新趋势:随着模型能力(如推理、长上下文处理)的变化,排行榜也在调整基准测试,以保持相关性。
技术细节
- 运行环境:所有模型评估在一个配备 8 个 H100 GPU 的单一节点上进行,批处理大小为 8。
- 开源工具:基于 Eleuther AI 的评估框架,用户可通过命令行运行类似测试,例如:
bash
python main.py --model=hf-causal-experimental \ --model_args="pretrained=<your_model>,use_accelerate=True" \ --tasks=<task_list> \ --num_fewshot=<n_few_shot> \ --batch_size=1 \ --output_path=<output_path>
当前状态
截至 2025 年 3 月 28 日,Open LLM Leaderboard 已宣布正式退役。原因是随着模型能力转向新领域(如多模态、长上下文推理),原有基准测试逐渐过时,团队希望避免误导开发者追求过时的优化方向。不过,其历史数据和社区资源仍可访问,且后续有其他社区排行榜接替其功能。
总结
Open LLM Leaderboard 是一个专注于开源大语言模型评估的平台,提供排名、数据透明性和社区协作功能。它通过标准化测试帮助用户找到最先进的模型,同时推动了 AI 领域的开放性和科学性。虽然它现已退役,但其影响深远,为后续的模型评估工作奠定了基础。如果你对具体模型的性能感兴趣,可以访问其数据集或探索 Hugging Face 上其他类似的排行榜空间。
上月数据概览
月访问量 | 2974.29万 | 月PV | 1.74亿 | 平均访问时长 | 284秒 |
---|---|---|---|---|---|
跳出率 | 44.21% | 对比上月 | 13.95% | 人均访问页面数 | 5 |
月活 | 1074.82万 | 月活(去重) | 906.6万 | 人均访问次数 | 2.77 |
热门国家/地区访客分布
国家 | 流量占比 | 月访问量 | 人均访问时长 | 人均访问页数 | 跳出率 |
---|---|---|---|---|---|
日本 | 3.18% | -16.15% | 370秒 | 4 | 53.54% |
俄罗斯 | 8.30% | 18.91% | 278秒 | 6 | 50.49% |
美国 | 12.69% | 3.40% | 315秒 | 5 | 48.83% |
印度 | 12.89% | 17.77% | 197秒 | 5 | 36.23% |
中国大陆 | 13.71% | 43.21% | 326秒 | 5 | 47.01% |
同类推荐

AGI-Eval评测社区
是由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和机构合作推出的大模型评测社区

Ai-Ceping
领先的大模型评测平台
Chatbot Arena
使用 Bradley-Terry 模型生成实时排行榜
MMLU
MMLU 是一个广泛使用的基准,测试模型在多个学科和任务上的语言理解能力,涵盖高中、大学和专业水平的知识。

C-Eval 排行榜
主要用于展示不同大语言模型(LLMs)在多层次、多学科中文任务中的综合能力排名。

MMBench
MMBench 的官方排行榜页面,由 OpenCompass 社区维护。

OpenCompass司南 - 评测榜单
OpenCompass 平台的 LLM(大语言模型)排行榜页面,由 OpenCompass 社区维护。