MCP 服务器用于 Hugging Face 数据集查看器
概述
数据集查看器 MCP 服务器
用于与 Hugging Face 数据集查看器 API 交互的 MCP 服务器,提供浏览和分析托管在 Hugging Face Hub 上的数据集的功能。
功能
资源
- 使用
dataset://
URI 方案访问 Hugging Face 数据集 - 支持数据集配置和拆分
- 提供对数据集内容的分页访问
- 处理私有数据集的身份验证
- 支持搜索和过滤数据集内容
- 提供数据集统计信息和分析
工具
服务器提供了以下工具:
-
validate
- 检查数据集是否存在且可访问
- 参数:
dataset
: 数据集标识符(例如 'stanfordnlp/imdb')auth_token
(可选):用于私有数据集
-
get_info
- 获取有关数据集的详细信息
- 参数:
dataset
: 数据集标识符auth_token
(可选):用于私有数据集
-
get_rows
- 获取数据集的分页内容
- 参数:
dataset
: 数据集标识符config
: 配置名称split
: 拆分名称page
(可选): 页面编号(从零开始)auth_token
(可选):用于私有数据集
-
get_first_rows
- 从数据集拆分中获取第一行
- 参数:
dataset
: 数据集标识符config
: 配置名称split
: 拆分名称auth_token
(可选):用于私有数据集
-
get_statistics
- 获取关于数据集拆分的统计信息
- 参数:
dataset
: 数据集标识符config
: 配置名称split
: 拆分名称auth_token
(可选):用于私有数据集
-
search_dataset
- 在数据集中搜索文本
- 参数:
dataset
: 数据集标识符config
: 配置名称split
: 拆分名称query
: 要搜索的文本auth_token
(可选):用于私有数据集
-
filter
- 使用类似 SQL 的条件过滤行
- 参数:
dataset
: 数据集标识符config
: 配置名称split
: 拆分名称where
: SQL WHERE 子句(例如 "score > 0.5")orderby
(可选): SQL ORDER BY 子句page
(可选): 页面编号(从零开始)auth_token
(可选):用于私有数据集
-
get_parquet
- 下载整个数据集为 Parquet 格式
- 参数:
dataset
: 数据集标识符auth_token
(可选):用于私有数据集
安装
先决条件
- Python 3.12 或更高版本
- uv - 快速的 Python 包安装程序和解析器
设置
- 克隆仓库:
bash
git clone https://github.com/privetin/dataset-viewer.git
cd dataset-viewer
- 创建虚拟环境并安装:
bash
# 创建虚拟环境
uv venv
# 激活虚拟环境
# 在 Unix 上:
source .venv/bin/activate
# 在 Windows 上:
.venv\Scripts\activate
# 开发模式下安装
uv add -e .
配置
环境变量
HUGGINGFACE_TOKEN
: 访问私有数据集所需的 Hugging Face API 令牌
Claude Desktop 集成
将以下内容添加到您的 Claude Desktop 配置文件中:
在 Windows 上: %APPDATA%\Claude\claude_desktop_config.json
在 MacOS 上: ~/Library/Application Support/Claude/claude_desktop_config.json
json
{
"mcpServers": {
"dataset-viewer": {
"command": "uv",
"args": [
"run",
"dataset-viewer"
]
}
}
}
使用示例
- 验证数据集:
json
{
"dataset": "stanfordnlp/imdb"
}
- 获取数据集信息:
json
{
"dataset": "stanfordnlp/imdb"
}
- 搜索数据集内容:
json
{
"dataset": "stanfordnlp/imdb",
"config": "plain_text",
"split": "train",
"query": "great movie"
}
- 过滤并排序行:
json
{
"dataset": "stanfordnlp/imdb",
"config": "plain_text",
"split": "train",
"where": "label = 'positive'",
"orderby": "text DESC",
"page": 0
}
- 获取数据集统计信息:
json
{
"dataset": "stanfordnlp/imdb",
"config": "plain_text",
"split": "train"
}
许可证
MIT 许可证 - 详情请参阅 LICENSE 文件。

Agent8
Agent8 的 MCP 服务器
Aio Mcp
🚀 集成 AI 搜索、RAG 和多服务整合(GitLab/Jira/Confluence/YouTube)的一体化 MCP 服务器,助力 AI 增强的开发工作流。源自 https://github.com/nguyenvanduocit/all-in-one-model-context-protocol
Datagov Server
一个用于访问 Data.gov 数据的 MCP 服务器,提供与政府数据集交互的工具和资源。