AGI-Eval评测社区

月访问量： 7.97万91.80%

是由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和机构合作推出的大模型评测社区

0票

https://agi-eval.cn/ 是由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和机构合作推出的大模型评测社区（AGI-Eval），旨在打造一个公正、可信、科学、全面的评测生态。其使命是“评测助力，让 AI 成为人类更好的伙伴”。该网站专注于评估人工智能基础模型在人类认知和问题解决相关任务中的一般能力，提供了一个权威的平台来衡量 AI 模型在现实生活场景中的适用性和有效性。

网站的主要功能和特点

以下是 AGI-Eval 网站的核心功能和特色：

大模型榜单
- 提供基于通用评测方案的业内大语言模型能力得分排名榜单。
- 榜单包括综合评测以及细分能力项（如理解、推理、知识、计算等）的评估。
- 数据透明且权威，定期更新，帮助用户深入了解各个模型的优缺点，以便选择最适合的模型解决方案。
人机协同评测比赛
- 举办 AGI-Eval 人机评测比赛，用户可以与大模型协作完成复杂任务，探索人机协同的增益效果。
- 通过比赛推动技术发展，构建人机协同评测方案，为未来的行业标准奠定基础。
评测集社区
- 提供多种评测数据集，包括：
  - 公开学术评测集：行业公开数据集，支持用户下载使用。
  - 官方评测集：由平台自建，覆盖多领域模型评测。
  - 用户自建评测集：用户可上传个人评测集，共建开源社区。
- 结合自动评测和人工评测，支持高校专家的私有数据集托管。
Data Studio
- 一个数据工坊平台，具有以下特点：
  - 用户活跃度高：拥有超过 3 万名众包用户，确保高质量真实数据的回收。
  - 数据类型多样：覆盖多维度、多领域的数据。
  - 数据收集方式多元化：支持单条数据、扩写数据、Arena 数据等多种形式，满足不同评测需求。
  - 审核机制完善：采用机器审核与人工审核相结合的多重机制，保证数据质量。
模型性能评估
- 提供完整的数据集、基线系统评估和详细的评估方法，成为衡量 AI 模型综合能力的权威工具。
- 支持开发者测试和优化模型性能，尤其是在文本生成、自然语言处理（NLP）等领域。
语言能力评估
- 整合中英文双语任务，为 AI 模型的语言能力提供全面评估。
- 帮助开发者优化模型在不同语言环境下的表现。
科研与开发支持
- 为科研人员提供评估新方法的工具，推动自然语言处理（NLP）领域的研究进步。
- 为开发者提供测试和优化文本生成模型的平台，提升生成文本的质量。

网站的意义

AGI-Eval 通过设计与人类认知和决策能力直接相关的任务（如高考、司法考试、数学竞赛等），评估基础模型的表现。这种方式不仅衡量模型在标准化考试中的能力，还揭示其在真实场景中的强项和局限性。平台的数据透明性、社区协作性以及多维评测功能，使其成为 AI 研究者、开发者和行业从业者的宝贵资源。

总结

总的来说，https://agi-eval.cn/ 是一个综合性的大模型评测平台，提供从榜单排名、数据集共享、人机协同比赛到数据收集与评估的全方位功能。无论是想了解最新 AI 模型性能、参与评测研究，还是优化自己的算法模型，用户都能在这里找到支持和资源。

上月数据概览

月访问量	7.97万	对比上月	0.00%	月PV	98.97万
平均访问时长	1260秒	跳出率	15.04%	人均访问页面数	12
月活	4527	月活(去重)	4527	人均访问次数	17.61

国家	流量占比	月访问量	人均访问时长	人均访问页数	跳出率
中国大陆	100.00%	91.80%	1260秒	12	15.04%
美国	0.92%	3656.11%	0秒	1	42.77%
中国大陆	99.09%	133.37%	1109秒	15	11.65%
美国	0.06%	-96.49%	0秒	1	49.47%
日本	0.24%	0.00%	904秒	12	16.67%