0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在dify中搭建OCR智能体

perfxlab 来源:澎峰科技 2025-06-27 14:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

OCR 智能体应用背景

企业在日常运营中面临合同、票据、手写笔记等多种文档的处理需求,这些文档常以图片或扫描件形式存在,文字提取困难,严重制约数字化管理效率。

为解决上述问题,本文介绍一套简单高效的解决方案:通过 dify 工作流快速搭建 OCR 智能体,进行文字识别。

先来看一下搭建好的工作流使用流程:用户上传待识别的图片或文档,工作流会调用本地部署的 OCR 服务完成识别工作,并将提取的内容转换成 Markdown 文档。

OCR 智能体搭建流程

step1:本地部署 dify

因为我们要通过工作流的方式使用 OCR 服务,因此需要现在本地完成 dify 的部署,部署流程相对简单,直接参考 dify 官方文档(https://github.com/langgenius/dify)即可,推荐使用 docker 进行部署。

step2:在 dify 插件市场中,安装澎峰科技“OCR 识别服务”插件

本文中介绍的 OCR 工具,我们已发布到 dify 的插件市场,源代码可在 github 项目主页(https://github.com/PerfXLab/dify-plugin-ocr-service)找到,要在 dify 中使用该工具,只需在插件市场中搜索“OCR”并安装该插件即可:

step3:在 dify 中搭建工作流,并引入 OCR 工具

1.在 dify 中“创建空白应用”,选择“工作流”

2.对工作流进行编排:

开始节点中加入“file”字段

“OCR 转 Markdown 工具”节点中填入相关信息

其中,“上传文件”中填入“开始”节点输出的内容,OCR 接口地址填入本地搭建的 OCR 服务,OCR 服务本地搭建将在下一步骤中介绍- “结束”节点中填入上一节点输出的文件

step4:在本地搭建 OCR 服务

目前 OCR 任务主流实现方案有两种:使用传统卷积神经网络模型或多模态大模型进行处理,前者识别速度快、消耗资源少,而后者识别精度和鲁棒性更好,但对算力要求较高。本文介绍一种基于卷积神经网络的方案,利用第三方工具快速在本地运行。

搭建流程:

1.安装第三方OCR服务:pip install marker-pdf[full]

2.安装API服务:pip install -U uvicorn fastapi python-multipart

3.启动OCR服务:marker_server --host 0.0.0.0 --port 8001

完成上述操作后,即可使用 dify 工作流进行 OCR 识别服务。

私有化部署方案:澎峰科技大模型一体机

前述方案采用的轻量化模型,优势在于资源消耗低,在 CPU 环境下即可流畅运行。然而,对于金融、法律等领域中,部分文档的识别精准度和版面还原度有更高要求的场景,采用多模态大模型进行处理会是更优选择。多模态大模型虽然能带来更高的识别精度与鲁棒性,但其对算力资源的要求也相应更高。

为满足企业对高性能、数据私有化的需求,澎峰科技推出DeepFusion 系列 AI 一体机,为企业智能化转型提供一站式本地化部署解决方案。

该方案深度融合了业界领先的 DeepSeek、Qwen 等系列大模型,确保企业数据在本地处理,安全无虞,完美适配复杂的办公自动化、数据分析与智能客服等场景。

旗舰性能,应对复杂需求:目前已发布的 DeepFusion DF110、DF210 一体机,支持部署 DeepSeek 满血版、Qwen3-235B 等尖端大模型,推理性能强劲,能够从容应对最复杂的办公需求。

高性价比,赋能中小企业:我们深知,高效的AI应用同样可以在中小规模模型上实现。为此,澎峰科技推出了 DeepFusion DF50 一体机。该机型针对 30B 及以下规模的高效模型进行了深度推理优化,实现了卓越性能与高性价比的平衡,旨在助力更多中小企业轻松实现 AI 转型。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    387

    浏览量

    11521
  • OCR
    OCR
    +关注

    关注

    0

    文章

    170

    浏览量

    17052
  • 澎峰科技
    +关注

    关注

    0

    文章

    78

    浏览量

    3589

原文标题:使用澎峰科技OCR识别服务插件,在dify中搭建OCR智能体

文章出处:【微信号:perfxlab,微信公众号:perfxlab】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能设计模式和智能框架,你会了么?

    一、新闻 先播放一条最新新闻,通义团队官宣开源了两个智能 Alias-Agent 和 Data-Juicer Agent 。 Alias-Agent 提供了RaAct,Planner
    的头像 发表于 11-12 16:30 1059次阅读
    多<b class='flag-5'>智能</b><b class='flag-5'>体</b>设计模式和<b class='flag-5'>智能</b><b class='flag-5'>体</b>框架,你会了么?

    手把手教你用聆思CSK6大模型开发板接入Dify智能进行语音交互

    Dify 是一个开源的LLM(大语言模型)应用开发平台,其定位是打造以可视化和低代码/零代码为核心的一站式AI应用开发解决方案。它融合了后端即服务与LLMOps的理念,支持快速构建、部署和管理基于大语言模型的应用程序。
    的头像 发表于 11-02 09:36 1584次阅读
    手把手教你用聆思CSK6大模型开发板接入<b class='flag-5'>Dify</b><b class='flag-5'>智能</b><b class='flag-5'>体</b>进行语音交互

    【EASY EAI Orin Nano开发板试用体验】PP-OCRV5文字识别实例搭建与移植

    【EASY EAI Orin Nano开发板试用体验】PP-OCRV5文字识别实例搭建与移植 PP-OCRV5是PP-OCR新一代文字识别解决方案, 该方案聚焦于多场景、多文字类型的文字识别。在
    发表于 08-18 16:57

    从大模型到智能:企业级智能如何搭建

    企业智能的构建是一个系统工程,需要从战略规划、技术选型到组织变革的全方位设计。古河云科技将从理论框架出发,系统阐述企业构建专属智能的完整路径。 一、
    的头像 发表于 07-21 15:46 698次阅读
    从大模型到<b class='flag-5'>智能</b><b class='flag-5'>体</b>:企业级<b class='flag-5'>智能</b><b class='flag-5'>体</b>如何<b class='flag-5'>搭建</b>

    软国际入选中国信通院AI Agent智能产业图谱1.0

    ”四大核心维度,全面描绘了产业链关键环节与代表力量。软国际凭借在智能平台和医疗行业智能的领先实践,成功入选首批代表企业阵营,并成为少数
    的头像 发表于 07-14 14:55 1225次阅读

    深演智能正式发布 DeepAgent Neo 智能平台,全力助力企业决策 AI 落地应用

    妆、奢侈品、保健与医药、汽车等领域的200余位营销高管及合作伙伴齐聚一堂,围绕“AI 智能何在企业落地”的主题进行深度探讨,深演智能在此次会议上重磅发布了旗下最新AI
    的头像 发表于 07-01 17:30 439次阅读
    深演<b class='flag-5'>智能</b>正式发布 DeepAgent Neo <b class='flag-5'>智能</b><b class='flag-5'>体</b>平台,全力助力企业决策 AI 落地应用

    端侧OCR文字识别实现 -- Core Vision Kit ##HarmonyOS SDK AI##

    在开发的时候,是完全没有办法确定到时候实际操作,到底是不是正向的。 另外还有一点要注意的,就是在完成以后,要释放OCR服务,这一点在textRecognition的文档里有提及,对于释放这一步
    发表于 06-30 18:07

    何在MATLAB构建智能语音助手

    具身智能是一种将智能与物理实体深度融合的人工智能形态,强调智能行为既依赖智能自身算力,更离不开
    的头像 发表于 06-30 14:30 2811次阅读
    如<b class='flag-5'>何在</b>MATLAB<b class='flag-5'>中</b>构建<b class='flag-5'>智能</b>语音助手

    告别“人工智障”:工业AI智能的进化三定律

    文章主要讲述了工业AI智能在工业生产中的应用,如智能在焊接、生产过程的自动化,以及如何通过AI智能
    的头像 发表于 06-09 10:47 504次阅读
    告别“人工智障”:工业AI<b class='flag-5'>智能</b><b class='flag-5'>体</b>的进化三定律

    Dify携手亚马逊云科技加速全球企业生成式AI应用规模化落地

    简单易用的AI应用开发平台Dify通过深度集成亚马逊云科技的生成式AI技术与云服务,在保障性能、合规与全球交付的基础上,显著降低企业在生成式AI应用开发的技术门槛和部署成本。此外,依托亚马逊云
    的头像 发表于 06-07 16:00 666次阅读

    OCR识别训练完成后给的是空压缩包,为什么?

    OCR识别 一共弄了26张图片,都标注好了,点击开始训练,显示训练成功了,也将压缩包发到邮箱了,下载下来后,压缩包里面是空的 OCR图片20几张图太少了。麻烦您多添加点,参考我们的ocr识别训练数据集 请问训练id是?
    发表于 05-28 06:46

    手把手教你Coze智能搭建,让智能设备秒变天气预报小助手

    ?今天,就跟着我们一起,从0到1搭建一个专属的天气预报Coze小助手吧!搭建视频1、登陆Coze官网访问Coze官网有两种便捷方式:一是在搜索引擎输入“扣子”,然
    的头像 发表于 04-07 18:06 4170次阅读
    手把手教你Coze<b class='flag-5'>智能</b><b class='flag-5'>体</b><b class='flag-5'>搭建</b>,让<b class='flag-5'>智能</b>设备秒变天气预报小助手

    学习智能开发

    智能是大模型的应用落地,正在学习,这本书太及时了,非常想看看。
    发表于 03-27 15:48

    阿普奇视觉控制器AK7在OCR识别场景的应用

    影响产品口碑有着重要作用。随着一些复杂字符组合出现,印刷工艺调整,字符印刷材质变更,为了保证字符识别的准确率,行业内采用更多新的机器视觉技术以完成对产品字符高精度、高效率、高稳定的实时检测。 在最新的OCR检测技术应用
    的头像 发表于 03-20 11:44 503次阅读
    阿普奇视觉控制器AK7在<b class='flag-5'>OCR</b>识别场景<b class='flag-5'>中</b>的应用