0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PaddleOCR MCP Server 实战:3步将OCR和文档解析轻松集成到 AI智能体

jf_23871869 来源:jf_23871869 作者:jf_23871869 2025-09-12 18:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一,为什么文档 AI 智能体需要PaddleOCR MCP Server?

在构建面向报告分析、合同信息提取或科研论文总结等场景的文档 AI 智能体时,解析PDF格式文件及扫描版图像文档往往成为大语言模型(LLM)的痛点。这是因为LLM本质是语言模型,能处理字符序列,却无法直接解析图像或PDF文件的内容。

PaddleOCR MCP Server 将 PaddleOCR 的文字识别和文档解析能力,以MCP工具的形式提供给 AI 智能体,从而让 AI 智能体能够直接处理文档内容,而无需手动提取文本。

二,什么是PaddleOCR MCP Server?

PaddleOCR MCP Server 是一个轻量级 Model Context Protocol (MCP) 服务,专为将 PaddleOCR 的文档理解能力无缝集成到文档AI智能体而设计,让AI智能体能够按需调用文字识别或文档解析工具,如下图所示,实现从图像/PDF中提取结构化信息:

  • OCR:文字识别工具,从图像/PDF 提取高质量文本。
  • PP-StructureV3:文档解析工具,从图像/PDF中提取表格、标题、段落和公式等文档元素,并以Markdown/JSON格式输出。

视频链接:[PaddleOCR MCP Server 实战:3步将OCR和文档解析轻松集成到 AI智能体 (qq.com)]
PaddleOCR MCP Server 提供三种部署模式,适配大多数智能体场景:

三,三步将 PaddleOCR MCP Server 集成到你的 AI 智能体

本节将以本地部署为例,介绍如何将 PaddleOCR 集成到你的智能体中。

步骤 1️⃣:安装 PaddleOCR MCP Server

# 创建并激活虚拟环境 (推荐)
conda create -n ocr-env python=3.11
conda activate ocr-env
# 安装PaddlePaddle GPU版本 (根据您的CUDA版本选择合适的版本)
pip install paddlepaddle-gpu==3.1.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -c "import paddle; paddle.utils.run_check()"  # 验证PaddlePaddle安装是否成功
# 安装PaddleOCR
pip install paddleocr[doc-parser]
# 安装PaddleOCR MCP Server
git clone https://github.com/PaddlePaddle/PaddleOCR.git
cd PaddleOCR
pip install -e mcp_server

安装完毕后,运行以下命令,若出现下图所示的运行信息,则说明安装成功:

paddleocr_mcp --pipeline OCR --ppocr_source local --port 8234  --http

步骤 2️⃣:配置PaddleOCR MCP Server

首先,打开两个命令行窗口,分别运行以下命令,启动PaddleOCR MCP ServerOCR和PP-StructureV3服务:

# 启动PaddleOCR OCR MCP Server
paddleocr_mcp --pipeline OCR --ppocr_source local --port 8234  --http
# 启动PaddleOCR PP-StructureV3 MCP Server
paddleocr_mcp --pipeline PP-StructureV3 --ppocr_source local --port 9234  --http

然后,在你的 AI 智能体 MCP 配置文件中(例如:mcp_settings.json)添加以下内容:

{
  "mcpServers": {
    "pp-ocrv5": {
      "isActive": true,
      "name": "PP-OCRv5 (local)",
      "type": "streamableHttp",
      "description": "Local PP-OCRv5 pipeline for text recognition.",
      "tags": [],
      "baseUrl": "http://127.0.0.1:8234/mcp"
    },
    "pp-structurev3": {
      "isActive": true,
      "name": "PP-StructureV3 (local)",
      "type": "streamableHttp",
      "description": "Local PP-StructureV3 pipeline for document parser.",
      "tags": [],
      "baseUrl": "http://127.0.0.1:9234/mcp"
    }
  }
}

以Cherry Studio为例,在Settings中选择 MCP,并把上述配置复制到JSON编辑框,然后点击OK按钮即可。

https://www.cherry-ai.com/

配置成功后,会有一个小绿点出现,如下图所示:

步骤 3️⃣:在智能体中调用PaddleOCR MCP Server的能力

当PaddleOCR MCP Server配置成功后,仅需要在智能体中使用具有function-call能力的大语言模型,即可调用 PaddleOCR MCP Server的工具。以Cherry Studio为例,在智能体中调用OCR工具的示例如下:

Prompt: What's in the picture: /home/ppov/Pictures/ocr_test.jpeg

图片

在智能体中调用PP-StructureV3工具的示例如下:

Prompt: Extract the table from:/home/ppov/Desktop/test_document.pdf, and output markdown format table

四,总结与展望

PaddleOCR MCP Server是 AI 智能体理解图片和PDF文档的桥梁。通过3 步将OCR和文档解析轻松集成到 AI 智能体 —— 相当于让AI智能体获得了“阅读”文档的能力,拓展了AI智能体的能力边界。

下一步与资源

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41030

    浏览量

    302555
  • OCR
    OCR
    +关注

    关注

    0

    文章

    176

    浏览量

    17277
  • MCP
    MCP
    +关注

    关注

    0

    文章

    294

    浏览量

    15079
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI大模型微调企业项目实战

    数据、懂业务的“AI 架构师”。当企业真正掌握了从开源基座专属模型的转化能力时,就拥有了抵御外部不确定性的最强护城河。筑牢自主可控的 AI 底座,企业才能在智能化转型的狂飙突进中,
    发表于 04-16 18:48

    九天菜菜大模型agent智能开发实战2026一月班

    自主 AI 新范式:大模型 Agent 开发实战火爆开课 在科技浪潮汹涌澎湃的当下,人工智能领域正经历着一场深刻变革,大模型 Agent 开发实战课程如璀璨新星般闪耀登场,迅速成为科
    发表于 04-15 16:04

    乐鑫信息科技正式发布文档MCP服务器

    继去年推出乐鑫智能文档 AI 助手后,乐鑫信息科技 (688018.SH) 持续推进开发者工具体系的智能化演进。今日,乐鑫正式发布文档
    的头像 发表于 04-14 09:44 193次阅读
    乐鑫信息科技正式发布<b class='flag-5'>文档</b><b class='flag-5'>MCP</b>服务器

    百度文心衍生模型PaddleOCR登顶GitHub Star OCR全球第一

    3月30日,百度文心衍生模型PaddleOCR在GitHub上的Star数突破73.3K,超越谷歌Tesseract OCR,成为全球Star数最高的OCR项目。
    的头像 发表于 03-31 11:40 428次阅读

    百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构,在全球权威文档解析
    的头像 发表于 01-30 10:03 801次阅读
    百度正式发布并开源新一代<b class='flag-5'>文档</b><b class='flag-5'>解析</b>模型<b class='flag-5'>PaddleOCR</b>-VL-1.5

    使用 Docker 一键部署 PaddleOCR-VL: 新手保姆级教程

    → 拉起 PaddleOCR-VL 服务 → 本机用 HTTP 调用 /layout-parsing 接口跑通文档解析。 一,PaddleOCR-VL是什么、为什么用 Docker
    的头像 发表于 12-18 18:26 6765次阅读
    使用 Docker 一键部署 <b class='flag-5'>PaddleOCR</b>-VL: 新手保姆级教程

    PP-OCRv5 MCP服务器在海光主板的部署与实战

    在当今数字化快速发展的时代,OCR(光学字符识别)技术已经成为从图像中提取文本信息的重要工具。无论是在自动化办公、智能文档处理还是在内容创作领域,OCR 技术的应用都极大地提高了工作效
    的头像 发表于 10-15 17:04 951次阅读
    PP-OCRv5 <b class='flag-5'>MCP</b>服务器在海光主板的部署与<b class='flag-5'>实战</b>

    智能硬件通过小聆AI自定义MCP应用开发操作讲解

    智能硬件通过小聆AI自定义MCP应用开发操作讲解 前言 MCP(Modular Communication Protocol,模块化通信协议)为智能
    发表于 10-14 15:50

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦!

    噪,无惧嘈杂环境 云端接入小聆AI轻松实现个性化定制 搭载领先大模型全链路技术:小聆AI 智能语音交互方案 集成情绪感知与表达 :支持情感
    发表于 09-25 11:47

    精准定位性能瓶颈:深入解析 PaddleOCR v3.2 全新 Benchmark 功能

    飞桨技术生态伙伴 算力魔方 | 摘要:在实际落地OCR和文档解析项目时,大家常常会遇到一个棘手问题:模型跑得不够快,但到底是检测太慢、识别耗时,还是模块之间的数据流转不高效?PaddleOCR
    的头像 发表于 09-05 16:02 1424次阅读
    精准定位性能瓶颈:深入<b class='flag-5'>解析</b> <b class='flag-5'>PaddleOCR</b> v3.2 全新 Benchmark 功能

    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    与一致性校验,实现高精度、低成本的小语种OCR训练数据生成。该方案数据准备周期 从数周缩短至数小时 ,为小语种模型的快速迭代与冷启动提供了全新范式 一、引言:小语种OCR的“数据之困” 在跨境支付、多语言
    的头像 发表于 08-29 11:26 3874次阅读
    小语种<b class='flag-5'>OCR</b>标注效率提升10+倍:<b class='flag-5'>PaddleOCR</b>+ERNIE 4.5自动标注<b class='flag-5'>实战</b><b class='flag-5'>解析</b>

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    体验】2 - 交叉编译仓颉编程语言程序开发板运行 - 北京合众恒跃科技有限公司 - 电子技术论坛 - 广受欢迎的专业电子论坛!); CangjieMagic SDK(基于仓颉编程语言的智能框架
    发表于 08-23 13:10

    【EASY EAI Orin Nano开发板试用体验】PP-OCRV5文字识别实例搭建与移植

    复杂评估集上,PP-OCRv5较PP-OCRv4端端提升13个百分点。一般来说,使用瑞芯微这种带有NPU的主控进行OCR文字识别,识别效率远超直接使用MCU进行识别,并且功耗还低。 要使
    发表于 08-18 16:57

    在Cherry Studio中快速使用markitdown MCP Server

    作者:算力魔方创始人/英特尔创新大使刘力 Cherry Studio是一款跨平台的集成AI大模型和知识库、网络搜索、MCP服务器等相关工具桌面客户端应用程序,方便用户配置出自己的AI
    的头像 发表于 05-15 10:39 1678次阅读
    在Cherry Studio中快速使用markitdown <b class='flag-5'>MCP</b> <b class='flag-5'>Server</b>?

    如何用FastMCP快速开发自己的MCP Server

    的感受到了基于AI大模型和 MCP可以非常方便的构建自己的AI智能工作流。在此基础上,不少读者咨询,如何将自己已有的工具或函数,制作成
    的头像 发表于 05-07 16:07 3046次阅读
    如何用FastMCP快速开发自己的<b class='flag-5'>MCP</b> <b class='flag-5'>Server</b>?