
Moz Readability
明白。请提供需要翻译的内容,我将严格按照要求返回中文译文,保留原文格式和专有名词。
概述
Mozilla Readability 解析器 MCP 服务器
一个基于模型上下文协议 (MCP) 的服务器,可将网页内容提取并转换为简洁、适合LLM处理的Markdown格式。返回文章标题、主要内容、摘要、署名和网站名称。使用Mozilla的Readability算法移除广告、导航栏、页脚和非必要元素,同时保留核心内容结构。了解更多MCP信息。
功能特性
- 移除广告、导航栏、页脚和其他非必要内容
- 将纯净HTML转换为格式良好的Markdown(同时使用Turndown)
- 返回文章元数据(标题、摘要、署名、网站名称)
- 优雅处理错误情况
为什么不直接抓取?
与简单抓取请求不同,本服务器:
- 使用Mozilla Readability算法提取相关内容
- 消除广告、弹窗和导航菜单等干扰
- 通过移除不必要的HTML/CSS减少token消耗
- 提供一致的Markdown格式以便LLM更好处理
- 包含有用的内容元数据
安装
通过Smithery安装
通过Smithery为Claude Desktop自动安装Mozilla Readability解析器:
bash
npx -y @smithery/cli install server-moz-readability --client claude
手动安装
bash
npm install server-moz-readability
工具参考
parse
抓取并将网页内容转换为简洁Markdown。
参数:
json
{
"url": {
"type": "string",
"description": "待解析的网站URL",
"required": true
}
}
返回:
json
{
"title": "文章标题",
"content": "Markdown内容...",
"metadata": {
"excerpt": "简要摘要",
"byline": "作者信息",
"siteName": "来源网站名称"
}
}
在Claude Desktop中使用
添加到claude_desktop_config.json
:
json
{
"mcpServers": {
"readability": {
"command": "npx",
"args": ["-y", "server-moz-readability"]
}
}
}
依赖项
- @mozilla/readability - 内容提取
- turndown - HTML转Markdown
- jsdom - DOM解析
- axios - HTTP请求
许可证
MIT