小贴士:按下Ctrl+D 或 ⌘+D,一键收藏本站,方便下次快速访问!

OpenCompass司南 - 评测榜单

OpenCompass 平台的 LLM(大语言模型)排行榜页面,由 OpenCompass 社区维护。
页面内容如果有误,可以随时联系我们进行更新~

https://rank.opencompass.org.cn/leaderboard-llm 是 OpenCompass 平台的 LLM(大语言模型)排行榜页面,由 OpenCompass 社区维护。OpenCompass 是一个开源的大模型评估平台,旨在提供公平、开放、可复现的基准测试,用于评估大语言模型(LLM)和多模态模型的性能。该排行榜展示了众多模型在不同任务和数据集上的表现,是研究人员和开发者比较模型能力的重要参考工具。

网站功能与内容

  1. 模型性能排行

    • 榜单展示了多种大语言模型的性能排名,包括开源模型(如 LLaMA、Qwen、InternLM)和商业 API 模型(如 GPT-4、Claude)。
    • 排名基于模型在多个基准测试中的得分,综合评估其语言理解、知识储备、推理能力、数学计算、代码生成等维度。
  2. 评估数据集

    • 排行榜使用超过 100 个数据集进行评估,涵盖:
      • 知识推理:如 MMLU-Pro、GPQA Diamond。
      • 逻辑推理:如 BBH。
      • 数学推理:如 MATH-500、AIME。
      • 代码生成:如 LiveCodeBench、HumanEval。
      • 指令遵循:如 IFEval。
    • 这些数据集的选择旨在全面衡量模型在不同场景下的能力。
  3. 透明与参与

  4. 动态更新

    • 排行榜定期更新,反映最新模型的性能。例如,2024 年 9 月的更新显示,阿里云的 Qwen 2.5-72B-Instruct 成为首个登顶的开源模型,综合得分超越 Claude 3.5 和 GPT-4o。
  5. 可视化展示

    • 网站以表格形式呈现排名,支持按综合得分或特定能力排序,便于用户直观对比模型表现。

使用场景

  • 研究支持:研究人员可利用榜单数据分析模型优劣,推动算法改进。
  • 模型选择:开发者可根据任务需求选择性能最佳的模型。
  • 社区协作:鼓励用户贡献新模型或基准测试,丰富评估生态。

如何使用

意义

OpenCompass LLM 排行榜通过多维度、标准化的评估,为行业和研究社区提供了一个客观参考,推动了大语言模型的透明发展和性能优化。无论是想了解前沿模型表现,还是希望测试自研模型,这里都是一个权威且实用的平台。

上月数据概览

月访问量4.91万月PV13.39万平均访问时长117秒
跳出率42.49%对比上月42.32%人均访问页面数2

热门国家/地区访客分布

国家流量占比月访问量人均访问时长人均访问页数跳出率
中国香港
2.41%
-31.71%
105秒239.99%
新加坡
3.57%
84.07%
48秒226.77%
中国台湾
4.73%
62.38%
18秒147.23%
美国
17.59%
120.17%
240秒341.85%
中国大陆
70.07%
33.50%
103秒246.61%