小贴士：按下Ctrl+D 或 ⌘+D，一键收藏本站，方便下次快速访问！

全网AI快讯实时

提交/推广产品

首页/
全部分类/
大模型/
大模型评测/

2025年最好的14个大模型评测工具

大模型评测工具帮助用户对各种大规模机器学习模型进行评估与分析。通过自动化的性能评测、对比分析等功能，用户能够精准了解模型的效果、性能瓶颈以及优化空间，为模型选择和改进提供数据支持。

全部产品 DeepSeek 大语言模型 AI模型托管开源大模型国产大模型教育大模型多模态大模型语音大模型视频大模型大模型评测绘画大模型

全部地区

全部类型

最热

LMArena

大语言模型评估与比较的AI开源平台

Open LLM Leaderboard

由 open-llm-leaderboard 团队创建。它的主要目的是跟踪、排名和评估开源大语言模型（LLMs）和聊天机器人，为用户提供一个透明、可比较的平台，以了解不同模型的性能表现。

MMLU

MMLU 是一个广泛使用的基准，测试模型在多个学科和任务上的语言理解能力，涵盖高中、大学和专业水平的知识。

arize.com

是一个领先的 AI 可观测性平台

Anyscale

专注于运行和扩展机器学习（ML）与人工智能（AI）工作负载

AGI-Eval评测社区

是由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和机构合作推出的大模型评测社区

OpenCompass司南 - 评测榜单

OpenCompass 平台的 LLM（大语言模型）排行榜页面，由 OpenCompass 社区维护。

Prompt Llama

帮助用户评估不同模型在生成图像时的表现差异

Ai-Ceping

领先的大模型评测平台

C-Eval 排行榜

主要用于展示不同大语言模型（LLMs）在多层次、多学科中文任务中的综合能力排名。

MMBench

MMBench 的官方排行榜页面，由 OpenCompass 社区维护。

PinchBench

由Kilo AI 团队打造的AI 大模型 Agent 能力专业评测平台

HELM

斯坦福大学推出的大模型评测体系

AI Ping

专注AI大模型服务性能评测的平台

上一页
1
下一页

猫目

ICP备案：沪ICP备2021013479号-7
电信经营许可：沪B2-20220016
©2021-2025 maomu.com

热门推荐

每日快讯
AI排行榜单
分类标签
MCP市场

关于

关于我们
平台资质
用户协议
隐私政策

关注我们

二维码