0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型时代的OCR,“CPU” 的味道更重了

英特尔中国 来源:未知 2023-07-08 14:25 次阅读
金磊 杨净 发自 凹非寺
量子位 | 公众号 QbitAI

经典技术OCR光学字符识别),在大模型时代下要“变味”了。

怎么说?

我们都知道OCR这个技术在日常生活中已经普及开了,像各类文件、身份证、路标等识别,可以说统统都离不开它。

而随着近几年大模型的不断发展,OCR也迎来了它的“新生机”——

凭借自身可以将文本从图片、扫描文档或其他图像形式提取出来的看家本领,成为大语言模型的一个重要入口

在这个过程中,一个关键问题便是“好用才是硬道理”

过去人们会普遍认为,像OCR这种涉及图像预处理、字符分割、特征提取等步骤的技术,堆GPU肯定是首选嘛。

不过朋友,有没有想过成本和部署的问题?还有一些场景甚至连GPU资源都没得可用的问题?

这时又有朋友要说了,那CPU也不见得很好用啊。

不不不。

现在,大模型时代之下,CPU或许还真是OCR落地的一种新解法。

例如在医保AI业务中,在CPU的加持之下,医疗票据识别任务的响应延时指标,在原有基础上提升达25倍

799cdaca-1d55-11ee-962d-dac502259ad0.png
数据来源:英特尔合作伙伴

为什么会有如此大的转变?

一言蔽之,因为此前做OCR任务的时候,CPU的计算潜能并没有完全释放出来。

OCR,进入CPU时代

那么到底是谁家的CPU,能让经典OCR产生这般变化。

不卖关子。

它正是来自英特尔第四代至强可扩展处理器

据了解,第四代至强可扩展处理器增加了每个时钟周期的指令,每个插槽多达60个核心,支持8通道DDR5内存。

在内存宽带方面实现了50%的性能提升,并通过每PCIe 5.0(80个通道)实现了2 倍的PCIe带宽提升,整体可实现60%的代际性能提升。

但解锁如此能力的,可不仅仅是一颗CPU这么简单,是加成了英特尔软件层面上的优化;换言之,就是“软硬一体”后的结果。

而且这种打法也不是停留在PPT阶段,而是已经实际用起来的那种。

例如国内厂商用友便在自家OCR业务中采用了这种方案。

79f10032-1d55-11ee-962d-dac502259ad0.png

性能比较上,用友在第三/第四代英特尔至强可扩展处理器上进行了算法对比,推理性能提升达优化前的3.42倍

7a0a3d5e-1d55-11ee-962d-dac502259ad0.png

而在INT8量化后的性能更是提升到原来的7.3倍

7a1bef9a-1d55-11ee-962d-dac502259ad0.png

值得一提的是,OCR的响应时间直接降低到了3秒以内,还是切换架构不影响业务,用户无感知的那种。

除了用友之外,像亚信科技在自家OCR-AIRPA方案中,也是采用了英特尔的这套打法。

与用友类似的,亚信科技实现了从FP32到INT8/BF16的量化,从而在可接受的精度损失下,增加吞吐量并加速推理。

从结果上来看,相比传统人工方式,成本降到了1/5到1/9之间,而且效率还提升了5-10倍。

由此可见,释放了AI加速“洪荒之力”的CPU,在OCR任务上完全不亚于传统GPU的方案。

那么问题来了:

英特尔是如何释放CPU计算潜力的?

实际应用过程中,企业通常选择自己使用CPU来做OCR处理,但由于缺乏对CPU硬件加速和指令集的了解,就会发现CPU处理性能与理想峰值相差甚远,OCR程序也就没有得到很好的优化。

至于以往更常见的GPU解决方案,始终存在着成本和部署的难题。一来成本通常较高,且很多情况下,业务现场没有GPU资源可以使用。

但要知道OCR本身应用广泛、部署场景多样,比如公有云、私有云,以及边缘设备、终端设备上……而且随着大模型时代的到来,作为重要入口的OCR,更多潜在场景将被挖掘。

于是,一种性价比高、硬件适配性强的解决方案成为行业刚需。

既然如此,英特尔又是如何解决这一痛点的呢?

简单归结:第四代至强可扩展处理器及其内置的AI加速器,以及OpenVINO 推理框架打辅助

当前影响AI应用性能的要素无非两个:算力和数据访问速度。第四代至强可扩展处理器的单颗CPU核数已经增长到最高60核。

而在数据访问速度上,各级缓存大小、内存通道数、内存访问速度等都有一定程度的优化,另外部分型号还集成了HBM高带宽内存技术。

7a936b24-1d55-11ee-962d-dac502259ad0.png

此外,在CPU指令集上也做了优化,内置了英特尔高级矩阵扩展(英特尔AMX)等硬件加速器,负责矩阵计算,加速深度学习工作负载。

这有点类似于GPU里的张量核心Tensor Core)

AMX由两部分组成,一部分是1kb大小的2D寄存器文件,另一部分是TMUL模块,用来执行矩阵乘法指令。

7aa88ed2-1d55-11ee-962d-dac502259ad0.png

它可同时支持INT8和BF16数据类型,且BF16相较于FP32计算性能更优。

有了AMX指令集加持,性能比矢量神经网络指令集VNNI提升达8倍。

7ace93ca-1d55-11ee-962d-dac502259ad0.png

除了核心硬件平台外,实际情况中帮助OCR在CPU上落地的,还有推理框架OpenVINO

市面上大部分AI框架都是同时支持训练和推理,OpenVINO则是删减了很多训练部分所需的冗余计算,主要支持推理部分。

而且也是专门针对英特尔硬件打造的优化框架。框架替换也不复杂,只需5行代码就可以完成原有框架的替换。

用户可以针对不同业务场景,来优化OpenVINO运行参数

比如用友OCR业务涉及文字检测和文字识别两个AI模型,优化方向有所不同。

前者对单次推理要求高,后者需要整个系统吞吐量的优化,那么OpenVINO分别采用单路同步模式和多路异步模式。单一模块优化后,再针对整体流程的优化。

这样一套软硬件组合拳打下来,英特尔充分释放了CPU计算潜力,在实际场景中也实现了与GPU同等性能。

不再是你以为的CPU

以往谈到AI加速、AI算力,大众经常想到的就是GPU,又或者是专用TPU。

至于通用架构芯片CPU,受到计算单元和内存带宽的限制,始终无法适应于计算数据庞大的深度学习。

但现在的CPU,已经不再是“你以为的你以为”了:

它可以深入到各个行业当中,轻松Hold住各种场景应用。

尤其在AMX加速引擎加持下,能将深度学习训练和推理性能提升高达10倍。

比如,媒体娱乐场景中,能帮助个性化内容推荐速度提升达6.3倍;零售行业里,能将视频分析速度提升高达至2.3倍,还有像工业缺陷检测、医疗服务也都能从容应对。

即便是在前沿探索领域,CPU也已经成为不容忽视的存在:

像是在生命科学和医药方向,在某些场景下的表现效果甚至比GPU还要好。

英特尔用CPU速刷AlphaFold2,结果力压AI专用加速芯片,去年发布的第三代至强可扩展处理器经过优化后就能使其端到端的通量足足提升到了原来的23.11倍。今年基于第四代至可扩展处理器再次把性能提升到了上一代产品的3.02倍。

7ae3a3f0-1d55-11ee-962d-dac502259ad0.png

不过要实现CPU加速,背后也并非简单的硬件优化。

而是软硬件融合协同,从底层到应用的一整套技术创新,以及产业链上合作伙伴的支撑。

随着大模型时代的到来和深入,这种解决思路也正在成为共识。

像一些大模型玩家要实现大模型优化和迭代,并不能依靠以往单纯三驾马车来解决,而是需要从底层芯片到模型部署端到端的系统优化。

在算力加速层面的玩家,一方面摆脱不了摩尔定律的极限,另一方面要在应用场景中充分释放计算潜力,就需要与软件适配快速部署。

有意思的是,在最近OCR主题的《至强实战课》中,英特尔人工智能软件架构师桂晟曾这样形容英特尔的定位:

英特尔不仅仅是一个硬件公司,同时也拥有着庞大的软件团队。

在整个人工智能生态中,不论是从底层的计算库,到中间的各类组件,框架和中间件,再到上层的应用,服务和解决方案都有英特尔软件工程师的参与。

7af9aed4-1d55-11ee-962d-dac502259ad0.png

CPU加速,不再是你以为的加速。英特尔,也不再是以往所认知中的硬件公司。

但如果你以为英特尔只有CPU来加速AI,那你又单纯了。

针对AI的专用加速芯片HabanaGaudi 2即将迎来首秀;而通用加速芯片,同时兼顾科学计算和AI加速的英特尔数据中心GPU Max系列也刚刚结束了它在阿贡实验室Aurora系统中的部署,即将走近更多客户。

以这些多样化、异构的芯片为基石,英特尔也将形成更全面的硬件产品布局,并配之以跨异构平台、易用的软件工具组合(oneAPI为整个应用链上的合作伙伴及客户提供应用创新的支持,为各行各业AI应用的开发、部署、优化和普及提供全方位支持。

了解更多英特尔如何显著提升OCR性能,可点击文末【阅读原文】。

更多《至强实战课》相关内容,欢迎扫描如下海报中的二维码注册观看:

7b177b3a-1d55-11ee-962d-dac502259ad0.jpg


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9421

    浏览量

    168826
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10442

    浏览量

    206560

原文标题:大模型时代的OCR,“CPU” 的味道更重了

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    软通动力荣获百度智能云“大模型创新突破奖”“服务突破之星伙伴奖”

    4月9日,2024百度智能云GENERATE全球生态大会在成都举办。大会带来了百度智能云在大模型时代的全新生态战略、针对伙伴升级的大模型全栈产品解决方案,更重磅发布了全新生态政策。
    的头像 发表于 04-10 09:49 132次阅读

    半导体发展的四个时代

    台积电的 Suk Lee 发表题为“摩尔定律和半导体行业的第四个时代”的主题演讲。Suk Lee表示,任何试图从半导体行业传奇而动荡的历史中发掘出一些意义的事情都会引起我的注意。正如台积电所解释
    发表于 03-27 16:17

    半导体发展的四个时代

    台积电的 Suk Lee 发表题为“摩尔定律和半导体行业的第四个时代”的主题演讲。Suk Lee表示,任何试图从半导体行业传奇而动荡的历史中发掘出一些意义的事情都会引起我的注意。正如台积电所解释
    发表于 03-13 16:52

    OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

    : 无论是中英文的大段文字: 还是包含了公式的文档图片: 又或是手机页面截图: 甚至可以将图片中的表格转换成 Latex 格式: 当然,作为多模大模型,通用能力的保持也是必须的: Vary 表现出了很大的潜力和极高的上限,OCR 可以不再需要冗长的 pipline,直接
    的头像 发表于 12-24 21:40 1381次阅读
    <b class='flag-5'>OCR</b>终结了?旷视提出可以文档级<b class='flag-5'>OCR</b>的多模态大<b class='flag-5'>模型</b>框架Vary,支持中英文,已开源!

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    和1750亿参数的GPT-3都是非常由有竞争力的 MetaAI研究人员认为,当前大模型的高成本阻碍学术研究,因此,开发出这个更小更强的模型将有利于学术研究的发展。使用较少参数的模型
    发表于 12-22 10:18

    基于OpenVINO+OpenCV的OCR处理流程化实现

    预处理主要是基于OpenCV、场景文字检测与识别基于OpenVINO框架 + PaddleOCR模型完成。直接按图索骥即可得到最终结果。 OpenCV预处理主要是完成偏斜矫正、背景矫正等操作,然后使用场景文字检测模型+OCR识别
    的头像 发表于 11-07 11:21 384次阅读
    基于OpenVINO+OpenCV的<b class='flag-5'>OCR</b>处理流程化实现

    OCR如何自动识别图片文字

    OCR 是光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。 很早之前就有同学在公众号后台
    的头像 发表于 10-31 16:45 434次阅读
    <b class='flag-5'>OCR</b>如何自动识别图片文字

    【KV260视觉入门套件试用体验】Vitis AI Library体验之OCR识别

    Vitis AI Runtime,Vitis AI Library 有很多已经封装好的神经网络接口,直接拿来用即可。 OCR识别基于Vitis AI Library 的ocr_pt模型OCR
    发表于 10-16 23:25

    【KV260视觉入门套件试用体验】七、VITis AI字符和文本检测(OCR&amp;Textmountain)

    _pt sample_ocr.jpg OCR 该网络用于光学字符识别,包括文本检测和文本识别。该网络由 ResNet-FPN 特征提取器、检测分支和识别分支构成。 此模型由 ICDAR-2017 数据集进行训练。输入为包
    发表于 09-26 16:31

    模型时代后,游戏体验从此不一样

    模型
    脑极体
    发布于 :2023年09月01日 20:01:28

    在线研讨会 | 就在明天!NVIDIA TAO Toolkit 5.0 助力 OCR 视觉 AI 模型快速训练与优化

    技术的应用广泛,但构建和优化 OCR 的 AI 模型并非易事。它需要深厚的计算机科学知识,精细的编程技巧,以及对 AI 模型优化的深入理解。 NVIDIA TAO  是一款强大的 AI 模型
    的头像 发表于 08-21 21:05 297次阅读
    在线研讨会 | 就在明天!NVIDIA TAO Toolkit 5.0 助力 <b class='flag-5'>OCR</b> 视觉 AI <b class='flag-5'>模型</b>快速训练与优化

    推断FP32模型格式的速度比CPU上的FP16模型格式快是为什么?

    CPU 上推断出 FP32 模型格式和 FP16 模型格式。 FP32 模型格式的推断速度比 FP16 模型格式快。 无法确定推断 F
    发表于 08-15 08:03

    gpu和cpu哪个更重要?

    gpu和cpu哪个更重要? 当我们谈到计算机的性能时,CPU(中央处理器)和GPU(图形处理器)都是非常重要的组件。然而,在某些情况下,GPU和CPU的重要性会有所不同。在本文中,我们
    的头像 发表于 08-09 15:51 4787次阅读

    李彦宏:AI原生应用比大模型数量更重

    6月26日,百度创始人、董事长兼首席执行官李彦宏出席“世界互联网大会数字文明尼山对话”,发表了题为 《大模型重塑数字世界》 的演讲。 大模型是当下全球科技创新的焦点,也是全球人工智能竞赛的主战场
    的头像 发表于 06-26 13:20 269次阅读
    李彦宏:AI原生应用比大<b class='flag-5'>模型</b>数量<b class='flag-5'>更重</b>要

    PDF执行OCR使用指南(仅适用于万兴PDF专业版)

    然后单击“更改选择”按钮,从OCR语言列表中选择匹配PDF内容的正确语言(万兴PDF支持超过20种OCR语言)。您也可以点击“自定义页面”来选择单个页面或几个页面执行OCR
    的头像 发表于 06-06 15:54 1393次阅读
    PDF执行<b class='flag-5'>OCR</b>使用指南(仅适用于万兴PDF专业版)