小贴士:按下Ctrl+D 或 ⌘+D,一键收藏本站,方便下次快速访问!
MIT License
13
最近更新:23天前

明白。请提供需要翻译的内容,我将严格按照要求返回中文译文,保留原文格式和专有名词。

Mozilla Readability 解析器 MCP 服务器

一个基于模型上下文协议 (MCP) 的服务器,可将网页内容提取并转换为简洁、适合LLM处理的Markdown格式。返回文章标题、主要内容、摘要、署名和网站名称。使用Mozilla的Readability算法移除广告、导航栏、页脚和非必要元素,同时保留核心内容结构。了解更多MCP信息

Mozilla Readability Parser Server MCP server

功能特性

  • 移除广告、导航栏、页脚和其他非必要内容
  • 将纯净HTML转换为格式良好的Markdown(同时使用Turndown)
  • 返回文章元数据(标题、摘要、署名、网站名称)
  • 优雅处理错误情况

为什么不直接抓取?

与简单抓取请求不同,本服务器:

  • 使用Mozilla Readability算法提取相关内容
  • 消除广告、弹窗和导航菜单等干扰
  • 通过移除不必要的HTML/CSS减少token消耗
  • 提供一致的Markdown格式以便LLM更好处理
  • 包含有用的内容元数据

安装

通过Smithery安装

通过Smithery为Claude Desktop自动安装Mozilla Readability解析器:

bash 复制代码
npx -y @smithery/cli install server-moz-readability --client claude

手动安装

bash 复制代码
npm install server-moz-readability

工具参考

parse

抓取并将网页内容转换为简洁Markdown。

参数:

json 复制代码
{
  "url": {
    "type": "string",
    "description": "待解析的网站URL",
    "required": true
  }
}

返回:

json 复制代码
{
  "title": "文章标题",
  "content": "Markdown内容...",
  "metadata": {
    "excerpt": "简要摘要",
    "byline": "作者信息",
    "siteName": "来源网站名称"
  }
}

在Claude Desktop中使用

添加到claude_desktop_config.json

json 复制代码
{
  "mcpServers": {
    "readability": {
      "command": "npx",
      "args": ["-y", "server-moz-readability"]
    }
  }
}

依赖项

  • @mozilla/readability - 内容提取
  • turndown - HTML转Markdown
  • jsdom - DOM解析
  • axios - HTTP请求

许可证

MIT