0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度ERNIE-Tiny借力AMX:性能升至2.66倍

英特尔中国 来源:英特尔中国 2023-01-03 15:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前言概述

得益于近十年来在自有“飞桨”人工智能(Artificial Intelligence, AI)框架上的前瞻布局和大力投入,以及在语言与知识技术上积累的丰厚经验与成果,百度已在自然语言处理(Natural Language Processing,以下简称NLP)领域构建起完整的产品体系与技术组合。ERNIE 3.0 作为其飞桨文心 · NLP 大模型的重要组成部分,也在各种 NLP 应用场景,尤其是中文自然语言理解和生成任务中展现出卓越的性能。

随着 NLP 逐渐进入技术和产业结合的快车道,并在更多行业中实现商业化落地,用户对 ERNIE 3.0 也提出了更多细分需求,例如更高的处理效率和更广泛的部署场景等。为此,百度不仅借助其创新技术优势,推出了轻量版 ERNIE-Tiny,也与合作伙伴英特尔携手,提前引入即将发布的全新第四代英特尔 至强 可扩展处理器,作为 ERNIE-Tiny 未来的硬件承载基座。

为了让 ERNIE-Tiny 在第四代英特尔 至强 可扩展处理器及其内置的全新英特尔 高级矩阵扩展(Intel Advanced Matrix Extension,英特尔 AMX)技术的加速支持下实现更优推理性能,双方也携手开展了多项优化工作。而来自对比测试的数据表明,相比通过英特尔 AVX-512_VNNI 技术来实现AI加速的、面向单路和双路的第三代英特尔 至强 可扩展处理器,ERNIE-Tiny 在升级使用内置英特尔 AMX 技术的第四代英特尔 至强 可扩展处理器后,其整体性能提升高达 2.66 倍1,取得了令人满意的效果。

引言

“作为百度面向 NLP 领域的重要技术方案,基于轻量化技术的 ERNIE 3.0 轻量版可在搜索排序、推荐、信息抽取、地图检索、自然语言推断等应用场景中为用户提供响应迅速、质量可靠的能力输出。全新第四代英特尔 至强 可扩展处理器及英特尔 AMX 技术的引入,使得轻量版 ERNIE 3.0 在通用 CPU 平台上也能获得令人满意的推理效能,从而能帮助更多用户在其既有 IT 设施中更为方便地部署 ERNIE 3.0,从而进一步普及其应用范围。”

方案背景:ERNIE 3.0 走向轻量化

为更多行业用户提供 NLP 应用助力

作为 AI 领域的重要分支,NLP 正获得前所未有的市场关注与技术追踪。有预测数据表明,到 2024 年全球 NLP 市场规模将达 264 亿美元3,并将大幅缓解金融、医疗、法律等行业中人力密集型工作环节带来的效率和成本压力。例如在医疗健康领域,利用 NLP 应用对医疗记录开展筛查有助于发现药物的长期不良反应;在法律领域, NLP 应用也在帮助人们从浩如烟海的记录中梳理出案件的来龙去脉。

作为拥有强大互联网基础的领先 AI 公司,百度凭借其旗下飞桨文心 · NLP 大模型所具备的创新技术优势,在语言理解、语言生成等NLP场景中已获取了明显的市场优势,并在中国 AI 公有云 NLP 领域连续多年取得市场份额第一4。如图一所示,在大模型中,基于知识增强的多范式统一预训练框架 ERNIE 3.0 融合了自回归网络与自编码网络,并加入了大数据预训练与多源丰富知识相结合、持续学习等特性,在理解任务、生成任务、零样本学习任务和常识推理任务上均有着优秀的表现,在 14 种类型/45 个 NLP 数据集取得了 SOTA(State Of The Art Model,当前最佳模型)的结果。在中文领域,ERNIE 3.0 的表现则更为突出,不仅刷新了 54 个中文 NLP 任务基准,并登顶 SuperGLUE 全球榜首,同时也因具备非常出色的语言理解能力,还可以完成写小说、歌词、诗歌等的文学创作任务5。

241c530c-891f-11ed-bfe3-dac502259ad0.png

图一 ERNIE 3.0框架基本架构

在 ERNIE 3.0 的实际落地应用过程中,许多细分领域也根据自身业务特点,对它提出了特定化需求。众所周知,模型中更多的层数、参数意味着更大的模型体积、更强的计算资源需求以及更长的推理耗时,对于业务响应速度和构建成本敏感的用户而言,无疑提高了引入和使用门槛。

借助模型轻量化技术对 ERNIE 3.0 大模型进行蒸馏压缩,是助力 ERNIE 3.0 推广到更多行业与场景的有效方法。为此,百度基于其“在线蒸馏”等创新技术方案,推出多个 ERNIE 3.0 轻量化版本 ERNIE-Tiny,在保持模型平均精度的前提下实现了更短的运算时间以及更少的算力需求。同时,ERNIE-Tiny 在推理时,也无需再为之配备昂贵的专用 AI 算力设备,在通用平台,如 CPU 平台上即可高效率完成推理作业。这无疑能让用户在既有公有云或数据中心的 IT 配置上即可使用该模型,而无需增添额外硬件或服务。

244663b8-891f-11ed-bfe3-dac502259ad0.png

图二 ERNIE-Tiny 模型精度-推理时延对比度6

与此同时,引入更强的通用计算平台和优化方案,也是助力 ERNIE-Tiny 获得更优效率的另一项重要手段。百度为此与英特尔开展深度技术合作:一方面将全新第四代英特尔 至强 可扩展处理器引入 ERNIE-Tiny 的推理计算过程;另一方面,也推进了多项优化措施,例如通过英特尔 oneAPI 深度神经网络库(Intel oneAPI Deep Neural Network Library,英特尔 oneDNN)来调用英特尔 AMX指令等,以确保 ERNIE-Tiny 可以更为充分地利用这款处理器内置的全新AI加速技术带来的性能加速“红利”。

解决方案:三项优化方案

助 ERNIE-Tiny 尽释新平台 AI 加速潜能

新一代英特尔至强 可扩展处理器为 ERNIE 3.0 带来更强 AI 加速引擎

百度与英特尔携手开展的优化方案,首先围绕 ERNIE-Tiny 系列中 Medium 版展开,这一轻量版本与基础版 ERNIE 3.0 相比,其网络层数从 12 层减少到了 6 层,以此可有效降低所需的算力资源并缩短推理时长。

优化方案中,英特尔为 ERNIE-Tiny Medium 版本(以下简称 ERNIE-Tiny)提供了第四代英特尔 至强 可扩展处理器作为推理工作的算力输出引擎。这一采用 Intel 7 制程工艺的新一代至强 可扩展处理器,可凭借全新的性能核微架构设计来提升处理速度,并在低时延和单线程性能上实现突破。

在整个芯片的架构层面,第四代英特尔 至强 可扩展处理器通过使用嵌入式多芯片互连桥接(Embedded Multi-die Interconnect Bridge,EMIB)技术,可在保持既有单核优势的同时,大幅提升可扩展性。同时,新处理器也提供了对先进内存和下一代 I/O 技术,包括 DDR5、PCIe 5.0、CXL 1.1 以及高带宽内存(High Bandwidth Memory,HBM)技术的支持,这些技术特性能为 ERNIE 3.0 这样的 AI 模型所需的高强度工作负载提供更可靠的全局性能加速。

更重要的是,第四代英特尔 至强 可扩展处理器还增添了多种新的内置加速引擎来助力用户在不同应用场景中提升性能,如英特尔 加速器接口架构指令集(英特尔 AIA)、英特尔 数据流加速器(英特尔 DSA)和英特尔 高级矩阵扩展(英特尔 AMX)。其中,AMX 对于AI工作负载的加速尤为显著。

基于全新处理器和内置 AI 加速能力,双方携手为 ERNIE-Tiny 加入三项优化方案

1) 全新 AI 加速引擎优化提升处理效率

与英特尔在此前的至强 可扩展处理器中提供的两种 AI 加速能力,即英特尔 AVX-512_VNNI_INT8 与英特尔 AVX-512_VNNI_BF16 不同,英特尔 AMX 采用了全新的指令集与电路设计。在实际的工作负载中,英特尔 AMX 能同时支持 BF16 和 INT8 数据类型,其每个物理核在每个时钟周期可实现 2,048 次 INT8 运算和 1,024 次 BF16 运算7,与上一代 AI 加速引擎相比,大幅提升了 AI 工作负载的效率,这显然有助于提升 ERNIE-Tiny 在推理环节的性能表现。

246637c4-891f-11ed-bfe3-dac502259ad0.png

8

2) 利用英特尔 oneDNN 实现对英特尔 AMX 指令的调用

为了让英特尔 AMX 的加速能力能直接作用于 ERNIE-Tiny,百度与英特尔一同借助英特尔 oneDNN 来实现英特尔 AMX 指令的调用。作为开源的、跨平台的性能库,英特尔 oneDNN 可有效助力用户提升其 AI 应用与框架在英特尔 架构平台上的性能,而且它也已加入了对英特尔 AMX 的支持。

在本次合作中,双方除携手完成了英特尔 oneDNN 与飞桨开源深度学习平台(PaddlePaddle,https://www.paddlepaddle.org.cn/)的集成外,也根据 ERNIE-Tiny 的实际运行需求开展了一系列增量工作,包括将 Linux 操作系统的内核更新为支持英特尔 AMX 的版本等。

3) 内存性能优化

借助第四代英特尔 至强 可扩展处理器与英特尔 AMX 获得计算性能的大幅提升之后,内存性能的优化自然也不可或缺,为此百度与英特尔也制定了针对性的优化方案。双方通过分析发现,ERNIE-Tiny 在推理过程中有许多串行操作,即每次运算都会先读数据再写数据,然后下一次运算也是如此,这会消耗大量操作时间。优化方案则是将矩阵乘法与元素的运算及激活融合在一起,即把连续的操作合并为一个大操作,可使内存的运行效率显著提升。

同时,方案中针对多线程的优化也被证明可助力 ERNIE 3.0 提升推理计算性能,与上一版本相比,方案进一步优化了多线程的效率,并提升了多核的扩展性。

优化方案验证:

第四代英特尔 至强 可扩展处理器

可大幅提升 ERNIE-Tiny 性能表现

为了验证第四代英特尔 至强 可扩展处理器与上述多项优化方案对 ERNIE-Tiny 性能提升的实际作用,英特尔协助百度推进了性能对比测试。测试在第四代英特尔 至强 可扩展平台与第三代英特尔 至强 可扩展平台之间展开。后者使用英特尔 AVX-512_VNNI 对模型进行了 INT8 量化提速,而前者则启用英特尔 AMX 技术进行加速。

测试结果如图四所示,ERNIE-Tiny 的性能(测试采用吞吐量 (Throughput) 作为测评指标)获得了显著的提升,对比上一代英特尔 至强 可扩展平台,其吞吐量提升到了它的 2.66 倍9。

2489f65a-891f-11ed-bfe3-dac502259ad0.png

图四 ERNIE-Tiny 在不同处理器平台上的性能对比10

如图五所示,目前,各个 ERNIE-Tiny 不仅已部署在零门槛 AI 开发平台 EasyDL、全功能 AI 开发平台 BML 和 ERNIEKit(旗舰版)产品中,它们也将与平台和产品的其它能力一起协同,在基于第四代英特尔 至强 可扩展处理器的基础设施上,为使用者提供文本分类、关系抽取、文本生成以及问答等能力。同时,它们也将作为百度飞桨 PaddleNLP 自然语言处理开发库的核心模型,搭配训练-压缩-推理端到端全流程应用与丰富的产业实践范例,全力加速 NLP 技术产业落地。

(如欲了解更多详情,请访问:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0)

24b61384-891f-11ed-bfe3-dac502259ad0.png

图五 ERNIE-Tiny 对外能力输出

未来展望

百度与英特尔本次协作优化的成功,再一次证明各个行业用户在通用的 CPU 平台上也能同样方便地部署高效能的 ERNIE-Tiny,用以应对越来越多的 NLP 应用需求。使用这一方案,用户不必额外采购昂贵的专用 AI 算力设备,这将大幅降低企业借助 NLP 能力提升业务效率的门槛,并加速更多 NLP 技术与应用的商业落地过程。

面向未来,英特尔还将与百度一起在 NLP 领域开展更多也更为深入的技术合作,让新一代至强 可扩展处理器及其内置的更强 AI 加速技术为更多 AI 应用的落地与实践提供更多助力。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20152

    浏览量

    247331
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179345
  • 百度
    +关注

    关注

    9

    文章

    2368

    浏览量

    94249

原文标题:百度 ERNIE-Tiny 借力 AMX:性能升至 2.66 倍

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI云

    自2006年以来,百度世界大会已连续举办近20届,百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来
    的头像 发表于 11-13 15:47 1104次阅读

    百度世界2025进行中 百度昆仑芯超节点亮相 性能巨幅提升

    百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来已连续举办19年,持续为行业搭建起交流前沿技术、碰撞创新
    的头像 发表于 11-13 11:51 963次阅读

    百度地图重磅发布地图AI开放平台

    近日,在WGDC25全球时空智能大会上,百度地图重磅发布地图AI开放平台。百度地图深耕20年的数据能力、引擎能力与AI技术全面开放,向开发者深度开放四大核心能力和五大场景解决方案。
    的头像 发表于 05-26 11:26 1385次阅读

    百度智能云两大基础设施再升级

    近日,在Create2025百度AI开发者大会上,沈抖分享了百度智能云在智能基础设施建设方面的最新成果,并在算、模型及应用等方面发布一系列全新产品。
    的头像 发表于 04-30 10:20 727次阅读

    百度在AI领域的最新进展

    近日,我们在武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度在AI领域的新进展。
    的头像 发表于 04-30 10:14 1104次阅读

    上汽大众与百度地图达成战略合作

    近日,上海国际车展期间,百度地图与上汽大众举行科技X生态战略合作伙伴签约仪式,双方将基于百度领先的车道级地图产品,为上汽大众千万车主打造更安全、高效的智能化出行体验。上汽大众总经理陶海龙、百度副总裁尚国斌等出席签约仪式。
    的头像 发表于 04-29 17:28 1018次阅读

    格灵深瞳与百度智能云达成战略合作,共筑AI算新基建

    底座,推动政务、金融、公共安全等领域的智能化升级。 百度智能云泛科技业务部总经理张玮,格灵深瞳销售副总裁芦斌代表双方签约,百度集团执行副总裁、百度智能云事业群总裁沈抖,格灵深瞳CEO
    的头像 发表于 04-27 10:20 984次阅读

    百度AI荣获2025爱迪生奖金奖和银奖

    刚刚,百度AI在「2025爱迪生奖」中获得一金一银两项大奖。
    的头像 发表于 04-08 15:43 825次阅读

    百度搜索,能否将DeepSeek变成“内功”?

    实测之后,会发现百度搜索和DeepSeek称得上“王炸组合”
    的头像 发表于 02-21 10:04 2895次阅读
    <b class='flag-5'>百度</b>搜索,能否将DeepSeek变成“内功”?

    百度2024财报亮点:营收破千亿,净利润增21%

    百度近日发布了其2024年第四季度及全年财报,亮点纷呈。数据显示,百度在2024年的总营收达到了1331亿元,显示出强劲的增长势头。 其中,归属百度核心的净利润更是高达234亿元,与去年同期
    的头像 发表于 02-19 13:47 743次阅读

    百度智能云四款大模型应用接入DeepSeek

    近日,百度智能云旗下四款重量级大模型应用产品——客悦、曦灵、一见、甄知,正式迎来了全新升级,接入了先进的DeepSeek模型。这一重要更新,标志着百度智能云在为企业智能化转型提供更强动力方面迈出了坚实的一步。
    的头像 发表于 02-10 18:00 1131次阅读

    百度智能云点亮昆仑芯三代万卡集群

    的人工智能算需求。 昆仑芯三代作为百度自研的AI芯片,其性能卓越,能够满足复杂的人工智能任务需求。此次万卡集群的成功点亮,不仅展示了百度在AI芯片领域的深厚技术积累,也体现了
    的头像 发表于 02-05 14:58 997次阅读

    百度科启动“繁星计划”

    近日,百度科携手中国科协、中国科学院大学共同举办了史记2024·科学科100词发布会,并在此盛会上正式启动了“繁星计划”。这一计划的核心目标在于利用前沿的AI技术,包括数字人、智能体等,以及
    的头像 发表于 12-31 10:26 1164次阅读

    百度进军短剧领域,计划全面升级平台

    近日,据天眼查知识产权信息显示,百度在线网络技术(北京)有限公司已经正式申请注册了“百度短剧”商标。该商标的国际分类涵盖了网站服务、科学仪器以及教育娱乐等多个领域,且当前商标状态均为等待实质审查
    的头像 发表于 12-19 10:25 1075次阅读

    百度正式回应进军短剧领域

    近日,百度在线网络技术(北京)有限公司在知识产权领域有了新的动作,据天眼查信息显示,该公司已申请注册“百度短剧”商标,涵盖网站服务、科学仪器、教育娱乐等多个国际分类,目前这些商标均处于等待实质审查
    的头像 发表于 12-17 14:19 857次阅读