小贴士:按下Ctrl+D 或 ⌘+D,一键收藏本站,方便下次快速访问!

Open LLM Leaderboard

由 open-llm-leaderboard 团队创建。它的主要目的是跟踪、排名和评估开源大语言模型(LLMs)和聊天机器人,为用户提供一个透明、可比较的平台,以了解不同模型的性能表现。
页面内容如果有误,可以随时联系我们进行更新~

这个网站是 Hugging Face 上的一个 Space,名为 Open LLM Leaderboard(开放大语言模型排行榜),由 open-llm-leaderboard 团队创建。它的主要目的是跟踪、排名和评估开源大语言模型(LLMs)和聊天机器人,为用户提供一个透明、可比较的平台,以了解不同模型的性能表现。以下是对其功能和用途的详细介绍:

网站的主要用途

Open LLM Leaderboard 旨在解决评估和比较开源大语言模型的难题。由于不同模型的开发者可能会使用不同的测试方法、提示词或数据集,导致性能数据难以直接比较,这个排行榜通过标准化的评估流程,提供可重现的结果,帮助用户区分宣传中的“水分”和模型的真实能力。它广泛服务于机器学习社区,包括研究人员、开发者和普通用户。

核心功能

  1. 模型排名与评估

    • 网站展示了一个排行榜,列出各种开源大语言模型的性能得分。
    • 评估基于标准化的基准测试(如 MMLU、HellaSwag 等),确保所有模型在相同的条件下(例如相同的问题、相同的提问顺序)进行测试。
    • 用户可以看到每个模型在不同任务上的得分,例如多选题准确率、推理能力等。
  2. 可重现性支持

    • 提供详细的评估数据和方法,用户可以通过给出的代码和工具重现结果。
    • 例如,用户可以使用 Eleuther AI 的 LM Evaluation Harness(一个开源评估框架)运行相同的测试,具体命令和参数也在网站相关文档中提供。
  3. 模型详细信息

    • 点击模型名称后的特定图标(如 📄),可以查看该模型的输入输出细节、参数规模等信息。
    • 如果某个模型被社区标记为“Flagged”(有争议或问题),用户可以点击链接查看相关讨论。
  4. 社区协作与提交

    • 用户可以提交自己的模型进行评估,提交后会在排行榜的计算集群上自动运行测试。
    • 社区成员可以通过讨论区交流意见,报告问题或分享见解。
  5. 数据访问

    • 评估结果存储在 Hugging Face 的数据集(Dataset)中,例如:
      • 详细数值结果:https://huggingface.co/datasets/open-llm-leaderboard-old/results
      • 社区请求和运行状态:https://huggingface.co/datasets/open-llm-leaderboard-old/requests
    • 这些数据集公开透明,供用户下载和分析。
  6. 历史与更新

    • 该排行榜自推出以来不断更新,例如升级到 Open LLM Leaderboard v2,引入了更科学的评分方法(如归一化得分)。
    • 它还记录了过去两年内超过 13,000 个模型的评估数据,反映了开源 LLM 领域的快速发展。

特色与意义

  • 广泛使用:自推出以来,该排行榜吸引了超过 200 万独立访客,每月约有 30 万社区成员参与使用或协作。
  • 推动评估标准化:通过提供统一测试环境,它促进了模型评估的公平性和科学性,避免了开发者“优化特定测试”的情况。
  • 适应新趋势:随着模型能力(如推理、长上下文处理)的变化,排行榜也在调整基准测试,以保持相关性。

技术细节

  • 运行环境:所有模型评估在一个配备 8 个 H100 GPU 的单一节点上进行,批处理大小为 8。
  • 开源工具:基于 Eleuther AI 的评估框架,用户可通过命令行运行类似测试,例如:
    bash 复制代码
    python main.py --model=hf-causal-experimental \
      --model_args="pretrained=<your_model>,use_accelerate=True" \
      --tasks=<task_list> \
      --num_fewshot=<n_few_shot> \
      --batch_size=1 \
      --output_path=<output_path>

当前状态

截至 2025 年 3 月 28 日,Open LLM Leaderboard 已宣布正式退役。原因是随着模型能力转向新领域(如多模态、长上下文推理),原有基准测试逐渐过时,团队希望避免误导开发者追求过时的优化方向。不过,其历史数据和社区资源仍可访问,且后续有其他社区排行榜接替其功能。

总结

Open LLM Leaderboard 是一个专注于开源大语言模型评估的平台,提供排名、数据透明性和社区协作功能。它通过标准化测试帮助用户找到最先进的模型,同时推动了 AI 领域的开放性和科学性。虽然它现已退役,但其影响深远,为后续的模型评估工作奠定了基础。如果你对具体模型的性能感兴趣,可以访问其数据集或探索 Hugging Face 上其他类似的排行榜空间。

上月数据概览

月访问量2974.29万月PV1.74亿平均访问时长284秒
跳出率44.21%对比上月13.95%人均访问页面数5
月活1074.82万月活(去重)906.6万人均访问次数2.77

热门国家/地区访客分布

国家流量占比月访问量人均访问时长人均访问页数跳出率
日本
3.18%
-16.15%
370秒453.54%
俄罗斯
8.30%
18.91%
278秒650.49%
美国
12.69%
3.40%
315秒548.83%
印度
12.89%
17.77%
197秒536.23%
中国大陆
13.71%
43.21%
326秒547.01%