0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

第四代英特尔® 至强® 可扩展处理器助东华发思特“神农 AI 中台”推理性能提升4.5倍

英特尔中国 来源:未知 2023-07-28 19:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能 (AI) 技术的深入应用为数字化转型注入了充沛的动能,引领着新一轮技术与产业的创新浪潮。随着 AI 技术的不断发展以及行业应用的逐步成熟,AI 市场正在出现快速的增长。IDC 预计,中国人工智能市场规模在 2023 年将超过 147 亿美元,到 2026年将超过 264 亿美元1

在端到端的 AI 整体应用流程中,AI 推理是其中的关键环节。在 AI 推理的算力设备选择方面,CPU 服务器具备更强的灵活性、敏捷性,能够支持大数据、云计算、虚拟化等多种业务的弹性扩展,方便部署和管理,满足企业不同业务场景的动态资源需求。此外,通过面向 AI 工作负载的技术特性升级以及性能优化,CPU 已经能够广泛满足用户不同 AI 应用对于算力的要求,在大量场景中的推理性能可比肩GPU,助力客户节省成本,同时提升 AI 基础设施的可靠性与敏捷性。

为了进一步提升旗下产品“神农 AI 中台” 的性能,东华软件股份公司(以下简称:东华软件)和英特尔携手,由东华软件旗下的东华发思特 AI 团队与英特尔技术团队就神农 AI 中台展开合作,将基于英特尔至强 可扩展处理器的服务器作为推理服务器,并通过OpenVINO 工具套件将神农 AI 引擎框架训练的模型进行量化,利用英特尔DL Boost 的矢量神经网络指令 (VNNI) 提高人工智能推理能力。在既有合作成果的基础上,双方将推理服务器中的处理器升级为第四代英特尔至强 可扩展处理器,将OpenVINO 工具套件升级为 2023 版,将推理速度提升了数倍以上。

联合创新,神农AI中台在算力、
成本、敏捷性方面实现更好平衡

东华发思特研发的神农 AI 中台具备人工智能中台和模型 SaaS 服务能力,其推理引擎提供了丰富的版本,包含 OpenVINO版,为客户提供丰富、高效的模型推理服务,在智慧城市、数字乡村等场景有着广泛的应用。为了满足业务发展和用户增加的需要,在算力、成本、敏捷性等方面实现更卓越的平衡,东华发思特与英特尔进行了联合创新。在进行测试之后,东华发思特发现,将神农 AI 中台推理服务器的CPU 从英特尔 至强 黄金 6348 处理器升级为英特尔至强铂金 8480+ 处理器之后,能够最大程度上提升性能表现,同时保证较高的经济效益。

该方案除了搭载高性能、面向人工智能应用进行优化的第四代英特尔至强 可扩展处理器,还通过 OpenVINO 工具套件进行了性能优化,并支持技术的持续创新。第四代英特尔至强 可扩展处理器与 OpenVINO 工具套件的结合可以进一步提升 AI 推理性能。OpenVINO 工具套件支持从边缘到云的深度学习推理,可在包括英特尔 CPU、iGPU 和FPGA 在内的英特尔硬件平台(包括加速器)上部署并加速神经网络模型,能够在保持精度的同时提高推理速度。OpenVINO工具套件支持开发人员使用行业标准人工智能框架、标准或自定义层,将深度学习推理轻松集成到应用中。

东华发思特与英特尔合作,在以下方面进行了重点优化:

针对复杂网络的模型结构压缩技术:为压缩网络结构,节省数据在内存中的读写耗时,在读取训练模型后,将对其网络结构进行深度分析,基于预设策略,将一些常见的线性算子进行融合处理。 针对多任务场景的跨平台异构加速技术:通过异步执行策略,将推理任务平均分配到不同的 CPU 内核资源上,减少多线程间的任务同步,提供网络吞吐能力。同时能够根据设备负载情况,自动将推理任务以模型子图为单位,在 CPU 和 GPU上进行动态部署,全面激活英特尔 平台的 iGPU 资源,提升设备使用率,降低项目整体成本。 在图像识别等场景的深度学习中发挥优势:基于 MKL/MKLDNN对不同深度学习模型进行特定优化,利用英特尔 至强可扩展处理器内置的英特尔 深度学习加速技术对 INT8 提供更优的支持。

英特尔 AMX加持
推理性能大幅提升

在本次优化中,东华发思特重点利用了第四代英特尔至强 可扩展处理器内置的英特尔AMX (Advanced Matrix Extensions)高级矩阵扩展加速引擎。英特尔AMX 采用了全新的指令集与电路设计,包含了一系列用于矩阵运算的指令集 TMUL,以及新的矩阵寄存器文件 TILEs。英特尔 AMX 还支持 INT8 和 BF16 数据类型。其中,BF16 能够提供与 FP32 相似的精度,但是在 AI工作负载中的训练和推理方面能够带来大幅的性能提升。

为了验证新方案对比旧方案的性能提升,东华发思特进行了一系列测试,其选择的模型为图像分类模型 ResNet50_vd,ResNet50_vd是一种深度卷积神经网络模型,它是在 ResNet50 的基础上进行改进的。ResNet50 是一种非常流行的卷积神经网络模型,它在ImageNet 数据集上取得了很好的表现,但在训练过程中容易出现梯度消失或梯度爆炸等问题。ResNet50_vd 通过引入一些改进,使得网络的训练更加稳定,同时在性能上也有一定提升。


测试的软硬件配置如表 1 所示,东华发思特分别测试了在其他配置不变的前提下,处理器升级所带来的性能提升;以及在同样硬件配置的前提下,不同模型精度所带来的性能差异。

表 1. 测试软硬件配置

原有方案

新方案

处理器

2*英特尔至强金牌6348 处理器@ 2.60GHz

2*英特尔至强铂金8480+ 处理器@ 2.0GHz

核数

28 *2

56 *2

内存

24*32 GB DDR4 2933 MHz

16*16 GB DDR5 4800 MHz

操作系统

Ubuntu 20.04.5 LTS

CentOS Linux release 8.5.2111

神农AI中台

ShenNong-AI.2022 (OpenVINO)

ShenNong-AI.2022 (OpenVINO)

ShenNong-AI.2023 (OpenVINO)

在第一轮测试中,东华发思特对比了神农AI 中台推理引擎(OpenVINO2022 版)分别在第三代/第四代英特尔 至强 可扩展处理器上的运行性能差异。对比第三代英特尔至强 可扩展处理器方案,第四代英特尔 至强 可扩展处理器将推理能力提升了约4.5 倍 (FPS)2,同时保持了推理准确度。

在第二轮测试中,东华发思特对比了在 INT8 与 BF16 精度下的性能差异。测试数据如图 3 所示,INT8 处理模型在体积减少的同时,在推理性能上实现了 1.5 倍 (FPS) 的性能提升3

第四代英特尔 至强 可扩展处理器
为客户提供更低成本高收益的AI解决方案

众所周知,硬件算力是AI推理引擎运行的关键因素之一,因此选择合适的硬件设备对于推理引擎的性能和效率至关重要。虽然 GPU 服务器在深度学习模型推理方面具有较高的性能和效率,但是仍然存在一些不足之处。

首先,采用 GPU 服务器进行深度学习模型推理,需要专门的 GPU 硬件设备,这将带来较高的硬件采购和配套设施建设成本。此外,GPU 服务器的应用范围受限,不够灵活,难以适应不同场景的需求。 其次,GPU 服务器上进行深度学习模型推理需要复杂的部署和调优,门槛相对较高,难以满足新增应用快速上线的需求。相比之下,CPU 服务器具有更强的灵活性、敏捷性和可扩展性,适用于大数据、云计算、虚拟化等多种业务场景,方便部署和管理,能够满足企业不同业务场景的动态资源需求。 另外,随着技术的不断发展,CPU 在面向 AI 工作负载的技术特性升级和性能优化方面也有了很大的进步。通过使用新的处理器架构、加速器、向量计算单元等技术,CPU 已经能够广泛满足客户不同 AI 应用对于算力的要求。同时,CPU 的高可靠性和稳定性也能够保证算法的运行稳定性和数据的安全性。

基于第四代英特尔 至强 可扩展处理器以及最新版的 OpenVINO 工具套件,英特尔提供的AI解决方案,使东华发思特神农 AI 中台的 AI 推理性能得到提升的同时,使硬件采购成本以及空间、功耗和软硬件调优等成本则得到降低,为客户带来了以下价值:

[ 更好的性能表现 ]

推理引擎通过使用最新的技术和硬件平台,提高了推理性能和效率,从而可以更快地执行深度学习模型的推理计算,在部分应用场景中的性能表现比肩 GPU,为深度学习应用提供更高效、更稳定的支持。

[ 更低的成本和更高的效益 ]

推理引擎使用高效的 AI 工作负载加速方式,可以在保证性能的同时,降低硬件和软件的成本,提高推理的效益。对比基于独立 GPU 的方案,该方案的成本优势更加明显。

[ 更好的兼容性 ]

推理引擎可以在不同的硬件平台和操作系统内核上运行,支持多种深度学习框架和模型,具有很好的兼容性和灵活性,可以满足不同客户的需求。

东华发思特与英特尔在现有合作基础上,继续探索第四代英特尔至强可扩展处理器在 AI 领域的推理性能潜力,证明了第四代英特尔至强 可扩展处理器在架构和高级硬件特性方面的提升,有助于加速 AI 负载。切换到基于第四代英特尔 至强 可扩展处理器的基础设施平台后,东华发思特有望提高神农 AI 中台的效益和性能,为客户带来更高效的 AI 服务。

面向新一轮 AI 领域的大变革,东华发思特与英特尔未来将深度整合AI 领域的技术合作,包括基础设施和模型算法的优化等,为客户提供更先进的算法和模型,以及更灵活和更可扩展的计算架构和平台,助力客户实现业务 AI 的升级与转型。

资料援引:1.https://www.idc.com/getdoc.jsp?containerId=prCHC50539823 ,截至 2023 年 6 月。

2.数据援引自东华发思特与英特尔截止 2023 年 5 月的内部测试结果。测试配置:原有方案 — 双路英特至强金牌 6348 处理器 @ 2.60GHz,28 核,768 GB 总内存 (24*32 GB DDR4 2933 MHz),Ubuntu 20.04.5 LTS,ShenNong-AI.2022 (OpenVINO);新方案 — 双路英特尔至强铂金 8480+ 处理器 @ 2.0GHz,56 核,256 GB 总内存 (16*16 GB DDR5 4800 MHz),CentOS Linux release 8.5.2111,ShenNong-AI.2022 (OpenVINO) 和 ShenNong-AI.2023 (OpenVINO)。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。 3.数据援引自东华发思特与英特尔截止 2023 年 5 月的内部测试结果。测试配置:双路英特至强铂金 8480+ 处理器 @ 2.0GHz,56 核,256 GB 总内存 (16*16 GB DDR5 4800 MHz),CentOS Linux release 8.5.2111,ShenNong-AI.2022 (OpenVINO) 和 ShenNong-AI.2023 (OpenVINO)。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。

想看更多“芯”资讯

用你的在看告诉我们~

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10322

    浏览量

    181086
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11327

    浏览量

    225893

原文标题:第四代英特尔® 至强® 可扩展处理器助东华发思特“神农 AI 中台”推理性能提升4.5倍

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI工作站本地养龙虾!英特尔双芯混合算力,告别云端Token焦虑

    4月23日,英特尔公司在北京举办新一AI工作站平台发布会,英特尔中国区技术部总经理高宇宣布,面向AI工作站,
    的头像 发表于 04-26 16:27 1576次阅读
    <b class='flag-5'>AI</b>工作站本地养龙虾!<b class='flag-5'>英特尔</b>双芯混合算力,告别云端Token焦虑

    英特尔发布至强600系列工作站处理器与锐炫Pro B70 GPU,双芯联动重塑AI工作站格局

    4月23日,英特尔公司在北京举办新一AI工作站平台发布会,推出英特尔® 至强® 600工作站处理器
    的头像 发表于 04-24 09:28 3243次阅读
    <b class='flag-5'>英特尔</b>发布<b class='flag-5'>至强</b>600系列工作站<b class='flag-5'>处理器</b>与锐炫Pro B70 GPU,双芯联动重塑<b class='flag-5'>AI</b>工作站格局

    英特尔至强6“芯”动GTC 2026,为英伟达DCG Rubin解锁系统级性能

    的关键阶段,至强系列处理器为GPU加速AI系统,提供架构一致性与强大扩展能力所发挥的重要支撑作用。 英特尔公司副总裁兼数据中心战略项目总经理
    的头像 发表于 03-19 16:43 389次阅读

    小马智行与三一重卡及东风柳汽联合打造第四代自动驾驶卡车

    11月19日,小马智行宣布与三一重卡、东风柳汽达成合作,将联合打造第四代自动驾驶卡车家族。第四代自动驾驶卡车系统采用平台化设计,具有极强的车型适配能力。
    的头像 发表于 11-21 15:51 590次阅读

    Melexis推出第四代汽车LIN电机驱动MLX81350

    Melexis推出第四代汽车LIN电机驱动MLX81350,可为电机提供高达5W(0.5A)的功率。该驱动专为电动汽车(EV)的空调风门与自动通风系统设计,具备高性价比,不仅能实现电机静音、高效运行,还可简化系统集成流程,并
    的头像 发表于 11-08 17:04 3029次阅读

    从云到端:英特尔展示全栈AI能力,覆盖云、边、PC多场景

    2025年9月25日,杭州——今日,在2025云栖大会上,英特尔与阿里云带来了多项云基础设施创新成果,包括兼容多代际服务(支持第五英特尔® 至强
    的头像 发表于 09-26 17:27 1753次阅读
    从云到端:<b class='flag-5'>英特尔</b>展示全栈<b class='flag-5'>AI</b>能力,覆盖云、边、PC多场景

    派恩杰第四代碳化硅产品在AI基建的应用

    AI 基建中,碳化硅(SiC)凭借高频高效、耐高温、高功率密度等特性,成为解决 “算力飙升与能耗、空间、散热瓶颈” 矛盾的核心材料。从数据中心的电源系统到边缘 AI 设备的稳定运行,派恩杰第四代碳化硅正深度渗透到
    的头像 发表于 08-18 15:56 1693次阅读

    Wolfspeed推出第四代性能碳化硅MOSFET

    Wolfspeed 推出第四代 (Gen 4) 1200 V 车规级碳化硅 (SiC) 裸芯片 MOSFET 系列,专为严苛的汽车环境设计。Wolfspeed 第四代性能碳化硅 MOSFET,可在 185°C 下持续工作,助力
    的头像 发表于 08-11 16:54 3436次阅读

    英特尔至强6助力阿里云第九企业级ECS实例100天赢得超万家客户青睐

    近日,搭载英特尔® 至强® 6性能处理器的阿里云第九企业级ECS实例g9i正式迎来商业化100天里程碑,并获得超过10,000家客户的信
    的头像 发表于 07-29 15:44 698次阅读

    主控CPU全能选手,英特尔至强6助力AI系统高效运转

    有什么特殊之处呢? AI加速系统为何看重CPU主控能力? 作为造价极高的AI加速系统,DGX B300可以不计成本地选任何CPU,只要它能充分的发挥整套系统的性能。选择英特尔
    的头像 发表于 06-27 11:44 1031次阅读
    主控CPU全能选手,<b class='flag-5'>英特尔</b><b class='flag-5'>至强</b>6助力<b class='flag-5'>AI</b>系统高效运转

    英特尔亮相火山引擎春季原动力大会,共同发布第四代通用型计算实例家族

    今日,在火山引擎2025春季原动力大会上,英特尔联合火山引擎共同发布搭载英特尔至强6性能处理器第四代
    的头像 发表于 06-13 14:55 727次阅读
    <b class='flag-5'>英特尔</b>亮相火山引擎春季原动力大会,共同发布<b class='flag-5'>第四代</b>通用型计算实例家族

    直击Computex 2025:英特尔重磅发布新一GPU,图形和AI性能跃升3.4

    电子发烧友原创  章鹰 5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速产品系列。包括全新英特尔
    的头像 发表于 05-21 00:57 7755次阅读
    直击Computex 2025:<b class='flag-5'>英特尔</b>重磅发布新一<b class='flag-5'>代</b>GPU,图形和<b class='flag-5'>AI</b><b class='flag-5'>性能</b>跃升3.4<b class='flag-5'>倍</b>

    直击Computex2025:英特尔重磅发布新一GPU,图形和AI性能跃升3.4

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速产品系列。包括全新英特尔锐炫™ Pro B系
    的头像 发表于 05-20 12:27 5670次阅读
    直击Computex2025:<b class='flag-5'>英特尔</b>重磅发布新一<b class='flag-5'>代</b>GPU,图形和<b class='flag-5'>AI</b><b class='flag-5'>性能</b>跃升3.4<b class='flag-5'>倍</b>

    高通推出第四代骁龙7移动平台

    高通技术公司今日推出最新骁龙7系产品——第四代骁龙7移动平台。这一全新平台旨在增强用户喜爱的多媒体体验并提供全面的稳健性能。无论是利用先进图像处理功能拍摄珍贵瞬间,还是借助精选的Snapdragon
    的头像 发表于 05-19 15:02 2768次阅读

    ADSP-21467/ADSP-21469第四代性能DSP技术手册

    包括ADSP-21469在内的第四代SHARC®处理器可提供改进的性能、基于硬件的滤波加速、面向音频与应用的外设,以及能够支持最新环绕声
    的头像 发表于 05-12 15:49 1337次阅读
    ADSP-21467/ADSP-21469<b class='flag-5'>第四代</b>高<b class='flag-5'>性能</b>DSP技术手册