小贴士:按下Ctrl+D 或 ⌘+D,一键收藏本站,方便下次快速访问!
MIT License
14
最近更新:16天前

MCP 服务器用于 Hugging Face 数据集查看器

数据集查看器 MCP 服务器

用于与 Hugging Face 数据集查看器 API 交互的 MCP 服务器,提供浏览和分析托管在 Hugging Face Hub 上的数据集的功能。

功能

资源

  • 使用 dataset:// URI 方案访问 Hugging Face 数据集
  • 支持数据集配置和拆分
  • 提供对数据集内容的分页访问
  • 处理私有数据集的身份验证
  • 支持搜索和过滤数据集内容
  • 提供数据集统计信息和分析

工具

服务器提供了以下工具:

  1. validate

    • 检查数据集是否存在且可访问
    • 参数:
      • dataset: 数据集标识符(例如 'stanfordnlp/imdb')
      • auth_token(可选):用于私有数据集
  2. get_info

    • 获取有关数据集的详细信息
    • 参数:
      • dataset: 数据集标识符
      • auth_token(可选):用于私有数据集
  3. get_rows

    • 获取数据集的分页内容
    • 参数:
      • dataset: 数据集标识符
      • config: 配置名称
      • split: 拆分名称
      • page(可选): 页面编号(从零开始)
      • auth_token(可选):用于私有数据集
  4. get_first_rows

    • 从数据集拆分中获取第一行
    • 参数:
      • dataset: 数据集标识符
      • config: 配置名称
      • split: 拆分名称
      • auth_token(可选):用于私有数据集
  5. get_statistics

    • 获取关于数据集拆分的统计信息
    • 参数:
      • dataset: 数据集标识符
      • config: 配置名称
      • split: 拆分名称
      • auth_token(可选):用于私有数据集
  6. search_dataset

    • 在数据集中搜索文本
    • 参数:
      • dataset: 数据集标识符
      • config: 配置名称
      • split: 拆分名称
      • query: 要搜索的文本
      • auth_token(可选):用于私有数据集
  7. filter

    • 使用类似 SQL 的条件过滤行
    • 参数:
      • dataset: 数据集标识符
      • config: 配置名称
      • split: 拆分名称
      • where: SQL WHERE 子句(例如 "score > 0.5")
      • orderby(可选): SQL ORDER BY 子句
      • page(可选): 页面编号(从零开始)
      • auth_token(可选):用于私有数据集
  8. get_parquet

    • 下载整个数据集为 Parquet 格式
    • 参数:
      • dataset: 数据集标识符
      • auth_token(可选):用于私有数据集

安装

先决条件

  • Python 3.12 或更高版本
  • uv - 快速的 Python 包安装程序和解析器

设置

  1. 克隆仓库:
bash 复制代码
git clone https://github.com/privetin/dataset-viewer.git
cd dataset-viewer
  1. 创建虚拟环境并安装:
bash 复制代码
# 创建虚拟环境
uv venv

# 激活虚拟环境
# 在 Unix 上:
source .venv/bin/activate
# 在 Windows 上:
.venv\Scripts\activate

# 开发模式下安装
uv add -e .

配置

环境变量

  • HUGGINGFACE_TOKEN: 访问私有数据集所需的 Hugging Face API 令牌

Claude Desktop 集成

将以下内容添加到您的 Claude Desktop 配置文件中:

在 Windows 上: %APPDATA%\Claude\claude_desktop_config.json

在 MacOS 上: ~/Library/Application Support/Claude/claude_desktop_config.json

json 复制代码
{
  "mcpServers": {
    "dataset-viewer": {
      "command": "uv",
      "args": [
        "run",
        "dataset-viewer"
      ]
    }
  }
}

使用示例

  1. 验证数据集:
json 复制代码
{
  "dataset": "stanfordnlp/imdb"
}
  1. 获取数据集信息:
json 复制代码
{
  "dataset": "stanfordnlp/imdb"
}
  1. 搜索数据集内容:
json 复制代码
{
  "dataset": "stanfordnlp/imdb",
  "config": "plain_text",
  "split": "train",
  "query": "great movie"
}
  1. 过滤并排序行:
json 复制代码
{
  "dataset": "stanfordnlp/imdb",
  "config": "plain_text",
  "split": "train",
  "where": "label = 'positive'",
  "orderby": "text DESC",
  "page": 0
}
  1. 获取数据集统计信息:
json 复制代码
{
  "dataset": "stanfordnlp/imdb",
  "config": "plain_text",
  "split": "train"
}

许可证

MIT 许可证 - 详情请参阅 LICENSE 文件。