0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔AMX助华栖云多场景AI推理性能大幅提升多达96倍

英特尔中国 来源:英特尔中国 2024-01-13 10:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI技术应用已经深入到各行各业,特别是云服务提供商将AI能力集成到云服务中,能够更好地满足用户对性能、效率和体验的需求。而在主流媒体全面进入互联网阵地的大趋势下,媒体行业面临融合、高效、智能化的挑战。成都华栖云科技有限公司(简称:华栖云)正是这样一家面向蓬勃兴起的泛媒体、大视频时代的企业用户市场,为用户提供媒体云服务的提供商。

为了给用户带来更加智慧的应用体验,大幅提升内容来源的宽度,内容生产的速度、内容发布的广度,华栖云媒体云平台正在集成广泛的AI技术,推动光学字符识别(OCR) 识别、图像超分修复、人体姿态识别、大型语言模型 (LLM) 等应用的落地。

对于最终用户而言,这些 AI 技术对于媒体云基础设施带来了 AI 推理等方面的算力挑战,用户需要通过高性能、低成本、高灵活度的算力方案,来满足实际应用的严苛需求。于是,华栖云与英特尔合作,在媒体云平台上验证了第四代英特尔至强可扩展处理器及其内置的英特尔高级矩阵扩展(英特尔AMX)加速器。验证结果显示,在英特尔AMX 的加持下,第四代英特尔至强可扩展处理器可显著提升大型语言模型、人体姿态识别、CLIP 图像文本分类处理模型、OCR 识别、图像超分修复等模型的推理能力,提供了高性价比、高灵活性的 AI 基础设施构建选项。

英特尔AMX及CPU大模型推理与主流GPU性能一致

华栖云之所以选择基于英特尔 CPU 的 AI 推理方案,是因为该方案能够充分利用媒体云已有的服务器资源,在架构上无需进行大幅变动,性价比较高,且在性能上足以满足智能资源管理、智能审核、智能生产等场景所需。

现在,AIGC技术得到越来越多应用。华栖云同样采用了基于大语言模型的 AIGC 技术,使智能媒体云平台能够自动进行要点归纳及内容创作、改写,做到一课一虚拟助教,提高师生教学互动能力。此外,AIGC 技术还能用于课程内容识别理解等更多场景,带来智慧教育新体验。所以,大语言模型的推理能力对于华栖云至关重要。

华栖云采用内置AI加速器英特尔AMX的第四代英特尔至强可扩展处理器,在大语言模型推理性能上表现出强劲实力。在华栖云的测试中,对比了某主流 GPU 与第四代英特尔至强可扩展处理器的大语言模型推理性能,测试数据如图1 所示,两者性能基本保持在同一层面。这得益于英特尔AMX 针对广泛的硬件和软件优化,通过提供矩阵类型的运算,显着增加了人工智能应用程序的每时钟指令数 (IPC),可为 AI 工作负载中的训练和推理上提供显著的性能提升。从而使华栖云使用CPU不额外增加成本的情况下,获得了同样的AI推理性能。

70fe09d6-b1b9-11ee-8b88-92fbcf53809c.png

图1:大语言模型推理性能测试1

英特尔助华栖云多个AI推理场景性能大幅提升

除了大语言模型推理之外,华栖云多项AI推理性能均在英特尔至强可扩展处理器和英特尔AMX的加持下得到显著提升。

第一,对比语言图像预训练 (CLIP)是一种在各种(图像、文本)对上训练的神经网络,可以用自然语言指示它在给定图像的情况下推理最相关的文本片段,而无需直接针对任务进行优化。在媒体云平台场景中,CLIP 不仅提供了先进的图像分类结果,而且还提供了对象分类、视频中的动作识别和 OCR 等其他视觉任务。CLIP 有助于媒体云平台在不构建巨大数据集的前提下,训练高质量的模型,同时降低计算成本。

华栖云 CLIP 算法推理性能测试数据如图 2 所示,在将模型转化为BF16 后,第四代英特尔至强可扩展处理器的 CLIP 推理性能相较第二代英特尔至强可扩展处理器最高提升了 95.63 倍2。

711d3d2e-b1b9-11ee-8b88-92fbcf53809c.png

图2:华栖云 CLIP 算法推理性能测试3

第二,OCR 识别在媒体云平台中,常用于图像中的信息提取,如课件识别、版面识别、试卷识别等。华栖云在测试中,对比了第二代英特尔至强可扩展处理器与第四代英特尔至强可扩展处理器的单线程吞吐性能差异。测试数据如图 3 所示,对比第二代英特尔至强可扩展处理器,第四代英特尔至强可扩展处理器的性能最高可提升约 6.41 倍4。

7131926a-b1b9-11ee-8b88-92fbcf53809c.png

图3:OCR 单线程吞吐测试5

第三,超分辨率 (Super-Resolution) 是指通过硬件或软件的方法提高原有图像的分辨率,超分辨率算法有效提高放大后图像的质量,同时节约带宽、存储等方面的资源。ESRGAN 是一种基于生成对抗网络 (GAN) 的图像超分辨率算法,其主要思想是通过学习低分辨率 (LR) 图像与其高分辨率 (HR) 对应物之间的映射,来实现从 LR 图像到 HR 图像的映射过程,从而实现图像的超分辨率。SwinIR 则是一种基于 Swin Transformer 的图像超分辨率重建算法,相对于传统的 Transformer 模型,在处理图像等二维数据时,具有更好的并行性和更高的计算效率。

华栖云测试了第二代/第四代英特尔至强可扩展处理器在ESRGAN 算法推理中的性能表现,测试数据如图 4 所示,在将模型转化为 BF16 后,第四代英特尔至强可扩展处理器的ESRGAN 推理性能相较第二代英特尔至强可扩展处理器最高提升了 3 倍6。

7147808e-b1b9-11ee-8b88-92fbcf53809c.png

图4:ESRGAN 算法吞吐性能测试7

SwinIR 模型推理性能测试数据如图 5 所示,在将模型转化为BF16 后,第四代英特尔至强可扩展处理器的 SwinIR 推理性能相较第二代英特尔至强可扩展处理器最高提升了 7.4 倍8。

7156acda-b1b9-11ee-8b88-92fbcf53809c.png

图5:SwinIR 模型推理性能测试9

第四,人体姿态识别算法能够通过图像获取并识别人体骨架信息,通过算法判断动作类别和姿态,从而实现动作识别。华栖云在智能媒体云平台中采用了基于 OpenPose 方法与 EfficientHRNet 方法的多人 2D 姿势估计网络,针对图像中的每个人,网络都会检测到一个人体姿势:一个由关键点和关键点之间的连接组成的身体骨架。

华栖云基于 OpenPose 方法的人体姿态识别算法推理性能测试数据如图 6 所示,在将模型转化为 BF16 后,第四代英特尔至强可扩展处理器的 OpenPose 推理性能相较第二代英特尔至强可扩展处理器最高提升了 64.82 倍10。

7170307e-b1b9-11ee-8b88-92fbcf53809c.png

图6:基于 OpenPose 方法的人体姿态识别推理性能测试11

基于CPU的AI推理方案为华栖云降低TCO并增加灵活性

在采用内置了英特尔AMX 的第四代英特尔至强可扩展处理器之后,华栖云提升了多种典型算法的推理性能,满足了教育、广电等客户对于智能媒体云平台的性能要求,为客户带来以下价值:

在保证模型精度的前提下,显著提升多个 AI 模型的性能表现,有助于提供更加高效的智能媒体云服务; 通过软件优化充分释放了硬件潜力,支持有效利用服务器资源,无需独立、专用的 AI 加速器,有助于降低媒体云平台构建的 TCO; 通用的 CPU 平台不仅能够高效支撑 AI 推理,而且能够灵活应对编解码、转码等负载,更具可扩展性。

AIGC 等AI技术的应用正在为媒体行业注入充沛的活力,推动媒体行业的智能化转型。华栖云以超高清智能媒体处理云平台为驱动引擎,在泛媒体、大教育、政企等行业形成了成熟的云服务及云解决方案。通过与英特尔合作,并利用英特尔AMX 等创新技术,华栖云正在推动新一代智能融媒体平台覆盖媒体内容生产、管理、发布、运营和数据化管理全流程应用。

英特尔AMX及英特尔至强可扩展处理器以不逊于GPU的AI推理性能,为华栖云降低了云平台TCO的同时,提供了更大的灵活性和扩展性,支持华栖云智能媒体云平台以新思维、新技术重塑媒体全链路生产与运营模型,建立集内容、产品、用户、数据一体的全媒体融合运营体系,实现媒体基于内容的价值再造。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20332

    浏览量

    254981
  • 英特尔
    +关注

    关注

    61

    文章

    10321

    浏览量

    181086
  • OCR
    OCR
    +关注

    关注

    0

    文章

    176

    浏览量

    17278
  • ai技术
    +关注

    关注

    1

    文章

    1315

    浏览量

    25808
  • AI加速器
    +关注

    关注

    1

    文章

    73

    浏览量

    9538

原文标题:英特尔® AMX 助华栖云多场景 AI 推理性能大幅提升,最多达 96 倍

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英特尔至强6“芯”动GTC 2026,为英伟达DCG Rubin解锁系统级性能

    在英伟达GTC 2026大会上,英特尔正式宣布,英特尔至强 6处理器将作为主控处理器,应用于NVIDIA DGX Rubin NVL8 系统。这一举措充分彰显了在AI工作负载快速迈向大规模、实时
    的头像 发表于 03-19 16:43 385次阅读

    释放极致游戏性能英特尔酷睿Ultra 200S Plus发布

    英特尔酷睿Ultra 200S Plus的内容创作性能至高可达同类产品的两,游戏性能平均提升 15%。其中,酷睿 Ultra 7 270K
    的头像 发表于 03-19 13:13 393次阅读

    英特尔创新引领AI NAS:软硬结合引领本地数据智慧管理与场景创新应用

    展示面向中小企业、消费者和专业用户,赋能新场景、加速产品落地的最新技术方案。会上,绿联、极空间、铁威马、畅网、飞牛等AI NAS 厂商,发布和展示了一系列基于英特尔® 酷睿™ Ultra处理器和
    的头像 发表于 12-12 15:45 723次阅读
    <b class='flag-5'>英特尔</b>创新引领<b class='flag-5'>AI</b> NAS:软硬结合引领本地数据智慧管理与<b class='flag-5'>多</b><b class='flag-5'>场景</b>创新应用

    发力AI超节点和AI推理服务器,勤技术重磅亮相英特尔大会

    电子发烧友原创 章鹰 近日,在2025英特尔技术创新大会上,勤技术数据事业部总经理程励之指出,AI算力需求激增,万亿级模型参数需要GPU高带宽互联,超节点已经成为产业共识,但是落地
    的头像 发表于 12-07 05:59 1.1w次阅读
    发力<b class='flag-5'>AI</b>超节点和<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服务器,<b class='flag-5'>华</b>勤技术重磅亮相<b class='flag-5'>英特尔</b>大会

    发力图形工作站和AI推理市场,英特尔大显存GPU亮相湾芯展

    英特尔发布了面向专业的锐炫Pro B50和B60。这两款显卡比较RTX2000和5660Ti,有哪些性能上的优势?在支持AI推理工作站和大模型部署上,B60有哪些独到之处?10月16日
    的头像 发表于 10-22 13:40 1.2w次阅读
    发力图形工作站和<b class='flag-5'>AI</b><b class='flag-5'>推理</b>市场,<b class='flag-5'>英特尔</b>大显存GPU亮相湾芯展

    英特尔助力阿里推出多款实例和存储方案

    AI时代数据爆发式增长,让企业对数据的实时处理、深度分析与智能决策等提出了更高要求,同时也对基础设施在性能、成本效益上的综合能力提出了更迫切的需求。为应对这些挑战,阿里
    的头像 发表于 10-16 10:22 752次阅读

    到端:英特尔展示全栈AI能力,覆盖、边、PC场景

    2025年9月25日,杭州——今日,在2025云栖大会上,英特尔与阿里带来了多项基础设施创新成果,包括兼容代际服务器(支持第五代英特尔
    的头像 发表于 09-26 17:27 1749次阅读
    从<b class='flag-5'>云</b>到端:<b class='flag-5'>英特尔</b>展示全栈<b class='flag-5'>AI</b>能力,覆盖<b class='flag-5'>云</b>、边、PC<b class='flag-5'>多</b><b class='flag-5'>场景</b>

    使用NVIDIA NVLink Fusion技术提升AI推理性能

    本文详细阐述了 NVIDIA NVLink Fusion 如何借助高效可扩展的 NVIDIA NVLink scale-up 架构技术,满足日益复杂的 AI 模型不断增长的需求。
    的头像 发表于 09-23 14:45 1116次阅读
    使用NVIDIA NVLink Fusion技术<b class='flag-5'>提升</b><b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循
    的头像 发表于 08-15 09:45 1385次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    、资源分配的最优策略建议,减少资源浪费,提升整体网络效率。 客户实证:AI推理引擎的精准力量某大型政务平台遭遇核心业务运行缓慢问题,初步怀疑网络带宽不足。在利用信而泰xnSight
    发表于 07-16 15:29

    英特尔发布边缘AI控制器与边缘智算一体机,创造“AI新视界”

    处理器的边缘 AI 控制器 和 基于英特尔锐炫 ™ 显卡的边缘智算一体机 ,为工业AI的规模化落地注入强劲动力。 英特尔与诺达佳联合发布边缘AI
    发表于 06-24 17:50 1570次阅读
    <b class='flag-5'>英特尔</b>发布边缘<b class='flag-5'>AI</b>控制器与边缘智算一体机,创造“<b class='flag-5'>AI</b>新视界”

    英特尔锐炫Pro B系列,边缘AI的“智能引擎”

    CTO、高级首席AI工程师张宇博士 英特尔客户端计算事业部边缘计算CTO、高级首席AI工程师张宇博士在MWC AI终端峰会上指出,边缘将崛起为AI
    的头像 发表于 06-20 17:32 1052次阅读
    <b class='flag-5'>英特尔</b>锐炫Pro B系列,边缘<b class='flag-5'>AI</b>的“智能引擎”

    直击Computex 2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4

    电子发烧友原创  章鹰 5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——英特尔
    的头像 发表于 05-21 00:57 7754次阅读
    直击Computex 2025:<b class='flag-5'>英特尔</b>重磅发布新一代GPU,图形和<b class='flag-5'>AI</b><b class='flag-5'>性能</b>跃升3.4<b class='flag-5'>倍</b>

    直击Computex2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——英特尔锐炫Pro B60和
    的头像 发表于 05-20 12:27 5664次阅读
    直击Computex2025:<b class='flag-5'>英特尔</b>重磅发布新一代GPU,图形和<b class='flag-5'>AI</b><b class='flag-5'>性能</b>跃升3.4<b class='flag-5'>倍</b>

    英特尔发布全新GPU,AI和工作站迎来新选择

    Pro B50 GPU,搭载了为AI推理和专业工作站量身定制的配置,扩展了英特尔锐炫Pro产品系列。 英特尔 ® Gaudi 3 AI 加速
    发表于 05-20 11:03 1916次阅读