小贴士:按下Ctrl+D 或 ⌘+D,一键收藏本站,方便下次快速访问!
Chatbot Arena

Chatbot Arena

LMArena.ai 的核心目标是通过用户偏好评估 AI 模型,构建公开的排行榜,促进 AI 技术的进步。

LMArena.ai 是一个专注于大型语言模型(LLMs)评估与比较的开源平台,由加州大学伯克利分校 SkyLab 的研究人员于 2023 年创立,最初隶属于 LMSYS.org,现已独立发展为一个成熟的生态系统。该平台通过众包方式,利用用户交互和投票来评估 AI 模型的性能,旨在推动自然语言处理技术的发展,提供透明、中立的模型基准测试环境。以下是对其功能和用途的详细介绍:

主要用途

LMArena.ai 的核心目标是通过用户偏好评估 AI 模型,构建公开的排行榜,促进 AI 技术的进步。其主要用途包括:

  1. AI 模型比较与评估:用户可以通过与不同 AI 模型交互,比较其回答质量,并为更优的模型投票,生成基于 Elo 评级系统的排行榜。
  2. 社区驱动的基准测试:通过全球用户的参与(已收集超过 280 万次投票),平台能够反映真实世界中 AI 模型的表现。
  3. 推动 AI 研究:为研究人员提供标准化的评估工具,用于分析模型的优劣,支持学术研究和技术改进。
  4. 教育与展示:学生、开发者及普通用户可以通过平台了解不同 AI 模型的能力和局限性。
  5. 模型开发反馈:AI 开发者可通过用户投票和交互数据获得反馈,优化其模型。

核心功能

LMArena.ai 提供以下主要功能,分为用户交互、模型评估和扩展功能三大类:

1. 用户交互功能

  • Arena Battle(匿名模型对战)
    • 用户输入一个查询(prompt),平台随机分配两个匿名 AI 模型生成回答。
    • 用户阅读回答后,投票选择更优的模型,投票后模型名称会显示。
    • 这种匿名对战确保评估过程无偏见,投票结果用于更新 Elo 排行榜。
  • Arena(侧边比较)
    • 用户可从下拉菜单手动选择两个具体模型进行比较。
    • 输入查询后,平台显示两个模型的回答,用户可直接对比并投票。
    • 适合需要针对性测试特定模型的用户。
  • Direct Chat(直接对话)
    • 用户选择一个特定模型进行一对一对话,无需对战。
    • 适合探索单个模型的性能或进行深度交互。
  • 聊天记录与个性化功能
    • 新版平台(Beta 版)支持用户登录、保存聊天记录和创建个人排行榜,提升用户体验。
  • 多模型支持
    • 平台集成了 70 多种大型语言模型,包括来自 OpenAI、Google、Anthropic、Meta 等公司的模型,以及开源模型如 Vicuna、Llama 等。

2. 模型评估功能

  • Elo 评级系统
  • Arena-Hard-Auto
    • 自动评估工具,针对指令微调的 LLMs,使用 GPT-4.1 和 Gemini-2.5 等自动评判模型,快速评估模型性能。
    • 包含 500 个挑战性真实用户查询和 250 个创意写作任务,高度相关于 Chatbot Arena 的结果。
  • 多维度基准测试
    • 除了 Chatbot Arena 的众包评估,平台还结合其他基准测试,如:
      • MMLU:测试模型在 57 个任务上的多任务准确性。
      • MT-Bench:评估多轮对话能力,基于 10 分制评分。
  • WebDev Arena
    • 实时 AI 编程竞赛,模型在网页开发任务中对战,评估其代码生成能力。
    • 与 E2B 等合作伙伴协作,提供更专业的编程评估环境。

3. 扩展功能

  • 开源与社区贡献
  • API 集成
    • 支持 OpenAI、Anthropic、Gemini 等 API,开发者可将自己的模型接入平台进行测试。
  • 研究支持
    • 提供数据集(如 LMSYS-Chat-1M,包含 100 万真实对话)和技术报告,供研究人员分析。
    • 发布学术论文,详述评估方法和结果,如《Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference》。
  • 社交媒体与反馈
    • 用户可通过 Discord、Twitter 等渠道与团队互动,提出反馈或获取更新。
    • Beta 版鼓励用户报告 bug 或建议新功能。

特色与优势

  1. 中立性与透明性
    • 平台承诺不偏向任何模型提供商,排行榜完全基于社区投票,确保科学性和公正性。
  2. 社区参与
    • 全球用户贡献了超过 280 万次投票,形成了庞大的众包评估数据集,增强了结果的可靠性。
  3. 免费访问
    • 所有功能对用户免费,降低 AI 评估的门槛,吸引广泛参与。
  4. 持续更新
    • 定期添加新模型,优化平台功能,如 Beta 版新增的用户登录和聊天记录功能。
  5. 多场景适用
    • 不仅服务于研究人员和开发者,也适合教育、消费者评估等场景。

局限性

  1. 主观性
    • 用户投票可能受个人偏见影响,导致评估结果存在一定主观性。
  2. 模型覆盖有限
    • 仅包含已集成到平台的模型,某些新模型可能未及时纳入。
  3. 性能稳定性
    • 高负载时平台可能响应较慢,尤其在高峰期。
  4. 评估范围
    • 当前主要聚焦于语言模型和部分编程任务,可能无法全面覆盖 AI 模型的所有能力(如图像生成)。

如何使用

  1. 访问 https://lmarena.ai,点击“OK”关闭研究性质的弹窗提示。
  2. 选择模式:
    • Arena Battle:输入查询,查看匿名模型回答,投票后查看模型名称。
    • Arena 侧边比较:选择两个模型,输入查询,比较回答并投票。
    • Direct Chat:选择一个模型直接对话。
  3. 查看排行榜(https://lmarena.ai/leaderboard),了解模型排名和性能。
  4. 开发者可参考 GitHub 文档(https://github.com/lmarena)或 API 指南,贡献模型或获取数据。

总结

LMArena.ai 是一个功能强大、社区驱动的 AI 模型评估平台,通过匿名对战、众包投票和 Elo 排行榜,为用户提供了一个透明、中立的测试环境。其核心功能包括 Arena Battle、侧边比较、Direct Chat 以及 WebDev Arena 等,适用于研究人员、开发者、教育者和普通用户。

上月数据概览

月访问量340.47万对比上月
20.03%
月PV654.04万
平均访问时长156秒跳出率63.39%人均访问页面数1
月活122.82万月活(去重)106.34万人均访问次数2.77

热门国家/地区访客分布

国家流量占比月访问量人均访问时长人均访问页数跳出率
西班牙
3.63%
26.89%
185秒171.93%
印度
4.99%
-15.91%
221秒166.29%
中国大陆
7.44%
26.40%
290秒361.66%
俄罗斯
16.04%
6.37%
281秒267.38%
美国
16.62%
27.02%
199秒169.23%

你可能还喜欢