https://agi-eval.cn/ 是由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和机构合作推出的大模型评测社区(AGI-Eval),旨在打造一个公正、可信、科学、全面的评测生态。其使命是“评测助力,让 AI 成为人类更好的伙伴”。该网站专注于评估人工智能基础模型在人类认知和问题解决相关任务中的一般能力,提供了一个权威的平台来衡量 AI 模型在现实生活场景中的适用性和有效性。
网站的主要功能和特点
以下是 AGI-Eval 网站的核心功能和特色:
-
大模型榜单
- 提供基于通用评测方案的业内大语言模型能力得分排名榜单。
- 榜单包括综合评测以及细分能力项(如理解、推理、知识、计算等)的评估。
- 数据透明且权威,定期更新,帮助用户深入了解各个模型的优缺点,以便选择最适合的模型解决方案。
-
人机协同评测比赛
- 举办 AGI-Eval 人机评测比赛,用户可以与大模型协作完成复杂任务,探索人机协同的增益效果。
- 通过比赛推动技术发展,构建人机协同评测方案,为未来的行业标准奠定基础。
-
评测集社区
- 提供多种评测数据集,包括:
- 公开学术评测集:行业公开数据集,支持用户下载使用。
- 官方评测集:由平台自建,覆盖多领域模型评测。
- 用户自建评测集:用户可上传个人评测集,共建开源社区。
- 结合自动评测和人工评测,支持高校专家的私有数据集托管。
- 提供多种评测数据集,包括:
-
Data Studio
- 一个数据工坊平台,具有以下特点:
- 用户活跃度高:拥有超过 3 万名众包用户,确保高质量真实数据的回收。
- 数据类型多样:覆盖多维度、多领域的数据。
- 数据收集方式多元化:支持单条数据、扩写数据、Arena 数据等多种形式,满足不同评测需求。
- 审核机制完善:采用机器审核与人工审核相结合的多重机制,保证数据质量。
- 一个数据工坊平台,具有以下特点:
-
模型性能评估
- 提供完整的数据集、基线系统评估和详细的评估方法,成为衡量 AI 模型综合能力的权威工具。
- 支持开发者测试和优化模型性能,尤其是在文本生成、自然语言处理(NLP)等领域。
-
语言能力评估
- 整合中英文双语任务,为 AI 模型的语言能力提供全面评估。
- 帮助开发者优化模型在不同语言环境下的表现。
-
科研与开发支持
- 为科研人员提供评估新方法的工具,推动自然语言处理(NLP)领域的研究进步。
- 为开发者提供测试和优化文本生成模型的平台,提升生成文本的质量。
网站的意义
AGI-Eval 通过设计与人类认知和决策能力直接相关的任务(如高考、司法考试、数学竞赛等),评估基础模型的表现。这种方式不仅衡量模型在标准化考试中的能力,还揭示其在真实场景中的强项和局限性。平台的数据透明性、社区协作性以及多维评测功能,使其成为 AI 研究者、开发者和行业从业者的宝贵资源。
总结
总的来说,https://agi-eval.cn/ 是一个综合性的大模型评测平台,提供从榜单排名、数据集共享、人机协同比赛到数据收集与评估的全方位功能。无论是想了解最新 AI 模型性能、参与评测研究,还是优化自己的算法模型,用户都能在这里找到支持和资源。
热门国家/地区访客分布
国家 | 流量占比 | 月访问量 | 人均访问时长 | 人均访问页数 | 跳出率 |
---|---|---|---|---|---|
美国 | 12.38% | -52.28% | 0秒 | 1 | 49.81% |
中国大陆 | 87.63% | 382.81% | 629秒 | 6 | 26.83% |
中国大陆 | 100.00% | 0.00% | 25秒 | 2 | 28.30% |
你可能还喜欢

索迈特AI
集成全球最先进AI算法工具的平台,通过整合自然语言处理(NLP)、机器学习、数据分析等前沿技术,帮助用户实现高效工作与生活场景的智能化需求。
百度·创意应用空间
百度文心大模型包含文本生成、文生图、智能对话等技能,可用于文化传媒、艺术创作、教育科研、金融保险、医疗健康等多个应用场景。

Datawhale
一个专注于AI开源组织,和学习者一起成长,让学习不再孤独

DeepLearning
通过世界一流的教育、实践培训和协作社区,使全球劳动力能够建立一个人工智能驱动的未来。

百度飞桨
飞桨星河社区是面向AI学习者的人工智能学习与实训社区。飞桨星河社区集成了丰富的免费AI课程,大模型社区及模型应用,深度学习样例项目,各领域经典数据集,云端超强GPU算力及存储资源,更有新手练习赛、精英算法大赛等你参与。

Dify
是一个开源的 LLM(大型语言模型)应用开发平台,旨在降低AI应用开发门槛,帮助开发者快速构建、部署和优化生成式AI应用。

飞桨PaddlePaddle
飞桨致力于让深度学习技术的创新与应用更简单。具有以下特点:同时支持动态图和静态图,兼顾灵活性和效率;精选应用效果最佳算法模型并提供官方支持;真正源于产业实践,提供业界最强的超大规模并行深度学习能力;推理引擎一体化设计,提供训练到多端推理的无缝对接;唯一提供系统化技术服务与支持的深度学习平台

有道智云AI开放平台
有道智云AI开放平是网易有道推出的综合性人工智能服务平台,整合了多模态AI技术,覆盖文本处理、语音识别、图像生成、办公协作等多个领域。

美图AI开放平台
美图公司(Meitu Inc.)推出的人工智能技术服务平台,致力于将公司在计算机视觉(Computer Vision)、深度学习(Deep Learning)和计算机图形学(Computer Graphics)等领域的研发成果开放给开发者、企业和合作伙伴。它由美图影像实验室(MT

鲸选社区·鲸选频道
帮助数据人才在交流中享受学习,在实践中快速成长
亚马逊AI平台
是亚马逊云科技(AWS)在中国地区推出的一个专题页面,专注于推广其生成式人工智能(AIGC,AI-Generated Content)解决方案和服务。
魔塔社区
一个开源的模型即服务共享平台