Chatbot Arena

月访问量： 776.87万67.07%

LMArena.ai 的核心目标是通过用户偏好评估 AI 模型，构建公开的排行榜，促进 AI 技术的进步。

LMArena.ai 是一个专注于大型语言模型（LLMs）评估与比较的开源平台，由加州大学伯克利分校 SkyLab 的研究人员于 2023 年创立，最初隶属于 LMSYS.org，现已独立发展为一个成熟的生态系统。该平台通过众包方式，利用用户交互和投票来评估 AI 模型的性能，旨在推动自然语言处理技术的发展，提供透明、中立的模型基准测试环境。以下是对其功能和用途的详细介绍：

主要用途

LMArena.ai 的核心目标是通过用户偏好评估 AI 模型，构建公开的排行榜，促进 AI 技术的进步。其主要用途包括：

AI 模型比较与评估：用户可以通过与不同 AI 模型交互，比较其回答质量，并为更优的模型投票，生成基于 Elo 评级系统的排行榜。
社区驱动的基准测试：通过全球用户的参与（已收集超过 280 万次投票），平台能够反映真实世界中 AI 模型的表现。
推动 AI 研究：为研究人员提供标准化的评估工具，用于分析模型的优劣，支持学术研究和技术改进。
教育与展示：学生、开发者及普通用户可以通过平台了解不同 AI 模型的能力和局限性。
模型开发反馈：AI 开发者可通过用户投票和交互数据获得反馈，优化其模型。

核心功能

LMArena.ai 提供以下主要功能，分为用户交互、模型评估和扩展功能三大类：

1. 用户交互功能

Arena Battle（匿名模型对战）：
- 用户输入一个查询（prompt），平台随机分配两个匿名 AI 模型生成回答。
- 用户阅读回答后，投票选择更优的模型，投票后模型名称会显示。
- 这种匿名对战确保评估过程无偏见，投票结果用于更新 Elo 排行榜。
Arena（侧边比较）：
- 用户可从下拉菜单手动选择两个具体模型进行比较。
- 输入查询后，平台显示两个模型的回答，用户可直接对比并投票。
- 适合需要针对性测试特定模型的用户。
Direct Chat（直接对话）：
- 用户选择一个特定模型进行一对一对话，无需对战。
- 适合探索单个模型的性能或进行深度交互。
聊天记录与个性化功能：
- 新版平台（Beta 版）支持用户登录、保存聊天记录和创建个人排行榜，提升用户体验。
多模型支持：
- 平台集成了 70 多种大型语言模型，包括来自 OpenAI、Google、Anthropic、Meta 等公司的模型，以及开源模型如 Vicuna、Llama 等。

2. 模型评估功能

Elo 评级系统：
- 基于国际象棋的 Elo 评级系统，根据用户投票计算模型的相对实力，生成动态排行榜。
- 排行榜（https://lmarena.ai/leaderboard）展示模型的 Elo 分数、胜率预测等，透明反映社区偏好。
Arena-Hard-Auto：
- 自动评估工具，针对指令微调的 LLMs，使用 GPT-4.1 和 Gemini-2.5 等自动评判模型，快速评估模型性能。
- 包含 500 个挑战性真实用户查询和 250 个创意写作任务，高度相关于 Chatbot Arena 的结果。
多维度基准测试：
- 除了 Chatbot Arena 的众包评估，平台还结合其他基准测试，如：
  - MMLU：测试模型在 57 个任务上的多任务准确性。
  - MT-Bench：评估多轮对话能力，基于 10 分制评分。
WebDev Arena：
- 实时 AI 编程竞赛，模型在网页开发任务中对战，评估其代码生成能力。
- 与 E2B 等合作伙伴协作，提供更专业的编程评估环境。

3. 扩展功能

开源与社区贡献：
- 平台代码托管于 GitHub（https://github.com/lmarena），支持开发者贡献新模型或改进评估工具。
- 用户可提交自己的 AI 模型，纳入平台评估。
API 集成：
- 支持 OpenAI、Anthropic、Gemini 等 API，开发者可将自己的模型接入平台进行测试。
研究支持：
- 提供数据集（如 LMSYS-Chat-1M，包含 100 万真实对话）和技术报告，供研究人员分析。
- 发布学术论文，详述评估方法和结果，如《Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference》。
社交媒体与反馈：
- 用户可通过 Discord、Twitter 等渠道与团队互动，提出反馈或获取更新。
- Beta 版鼓励用户报告 bug 或建议新功能。

特色与优势

中立性与透明性：
- 平台承诺不偏向任何模型提供商，排行榜完全基于社区投票，确保科学性和公正性。
社区参与：
- 全球用户贡献了超过 280 万次投票，形成了庞大的众包评估数据集，增强了结果的可靠性。
免费访问：
- 所有功能对用户免费，降低 AI 评估的门槛，吸引广泛参与。
持续更新：
- 定期添加新模型，优化平台功能，如 Beta 版新增的用户登录和聊天记录功能。
多场景适用：
- 不仅服务于研究人员和开发者，也适合教育、消费者评估等场景。

局限性

主观性：
- 用户投票可能受个人偏见影响，导致评估结果存在一定主观性。
模型覆盖有限：
- 仅包含已集成到平台的模型，某些新模型可能未及时纳入。
性能稳定性：
- 高负载时平台可能响应较慢，尤其在高峰期。
评估范围：
- 当前主要聚焦于语言模型和部分编程任务，可能无法全面覆盖 AI 模型的所有能力（如图像生成）。

如何使用

访问 https://lmarena.ai，点击“OK”关闭研究性质的弹窗提示。
选择模式：
- Arena Battle：输入查询，查看匿名模型回答，投票后查看模型名称。
- Arena 侧边比较：选择两个模型，输入查询，比较回答并投票。
- Direct Chat：选择一个模型直接对话。
查看排行榜（https://lmarena.ai/leaderboard），了解模型排名和性能。
开发者可参考 GitHub 文档（https://github.com/lmarena）或 API 指南，贡献模型或获取数据。

总结

LMArena.ai 是一个功能强大、社区驱动的 AI 模型评估平台，通过匿名对战、众包投票和 Elo 排行榜，为用户提供了一个透明、中立的测试环境。其核心功能包括 Arena Battle、侧边比较、Direct Chat 以及 WebDev Arena 等，适用于研究人员、开发者、教育者和普通用户。

国家	流量占比	月访问量	人均访问时长	人均访问页数	跳出率
孟加拉国	7.72%	36.97%	497秒	6	24.50%
波兰	9.07%	116.86%	415秒	4	34.35%
俄罗斯	9.67%	40.58%	555秒	7	29.40%
美国	12.58%	89.94%	420秒	6	19.06%
印度	12.85%	98.42%	436秒	5	32.52%