0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔® AMX助金山云为用户提供更高效经济的AI服务,Stable-Diffusion模型推理性能提升近5倍

英特尔中国 来源:未知 2023-08-04 20:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能已经成为推动数字化创新的重要动力,伴随着 AIGC 等应用的快速落地,深度学习模型规模与复杂度不断提升,数据量也持续增长,人工智能算力供给与需求之间的矛盾正在日趋凸显。用户希望优化硬件、软件和算法,在保证模型精度和时延等指标的前提下,提升人工智能端到端流程的性能表现,从而充分释放硬件的潜能,并降低系统总体拥有成本 (TCO),加速人工智能技术的创新。

生成式人工智能(AIGC) 等创新浪潮驱动了人工智能的新一轮增长,模型训练和模型推理成为云服务器的重要负载。要满足人工智能领域的市场需求,云服务提供商需要解决以下挑战:如何加速数据清理、模型推理等人工智能端到端工作流程中的多种工作负载,加快平台的一站式性能。如何高效使用CPU等现有的硬件资源,并且利用客户公有云、私有云和混合云中的服务器资源,以降低硬件成本。如何增强云服务器的灵活性,使其能够在复杂场景中敏捷扩展,支撑传统负载与人工智能等新型工作负载高效运行的需求。

为了帮助用户加速人工智能端到端流程,特别是提升人工智能推理性能,基于第四代英特尔 至强 可扩展处理器的金山云第七代性能保障型云服务器X7进行了针对性优化。服务器采用了处理器内置的英特尔 高级矩阵扩展(英特尔 AMX)加速器,并融合了金山云自主创新的加速技术,能够有效提高人工智能模型的推理性能,同时发挥云服务器在敏捷性、扩展性等方面的优势,助力客户挖掘人工智能时代的价值。

第四代英特尔 至强 及英特尔 AMX使金山云服务器模型推理性能提升3.97倍 - 4.96倍

金山云第七代性能保障型云服务器 X7 搭载英特尔 至强 铂金 8458P 处理器,网络带宽升级至100G,同时支持挂载极速云盘 ESSD ,整体机型在计算、网络、存储多维度进行了深度优化,可为用户提供计算速度更快、网络吞吐更大以及存储更加高效的云服务。

第四代英特尔 至强 可扩展处理器通过创新架构增加了每个时钟周期的指令,每个插槽多达 60个核心,支持 8 通道DDR5内存,有效提升了内存带宽与速度,并通过PCIe 5.0 (80个通道)实现了更高的PCIe带宽提升。第四代英特尔 至强 可扩展处理器提供了出色性能和安全性,可根据用户的业务需求进行扩展。借助内置的加速器,用户可以在人工智 能、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合,第四代英特尔 至强 可扩展处理器能够帮助用户构建更加高效、安全的基础设施。

wKgaomToPQOAVK3pAAKLtfLF2KM098.png

图:第四代英特尔 至强 可扩展处理器

第四代英特尔至强可扩展处理器在人工智能性能上更进一步,内置了创新的英特尔 AMX 加速引擎。英特尔 AMX 针对广泛的硬件和软件优化,进一步增强了前代技术——矢量神经网络指令 (VNNI) 和 BF16,从一维向量发展为二维矩阵,能够有效利用计算资源,提高高速缓存利用率,以及避免潜在的带宽瓶颈,从而可显着增加人工智能应用程序的每时钟指令数 (IPC),为人工智能工作负载 中的训练和推理带来显著的性能提升。

在计算方面,通过采用最新的第四代英特尔至强 可扩展处理器,金山云新一代云服务器X7计算性能较上一代最大提升60%5 ,同时借助内置的英特尔AMX 原生人工智能加速能力,大幅提高了云服务器的整体性能,更加适用于计算密集型、深度学习等业务场景。 在内存方面,金山云新一代云服务器 X7 支持八通道 DDR5 内存,单条内存带宽高达 4800MT/s,对比上一代实例性能提升50%6 ,更加适用于内存计算等数据密集型业务场景,服务深度学习以及人工智能相关领域。 在网络方面,金山云新一代云服务器 X7 的物理网络升级至 2x 100G,单虚机内网吞吐最高提升至 100G,PPS 提升至最高 2400 万,连接数最高支持 400 万,网络性能大幅提升7 在存储方面,金山云新一代云服务器 X7 支持挂载极速云盘 ESSD,单盘吞吐最高提升至 4GB/s,IOPS 提升至最高 100 万,访问延时降低至 0.2ms ,存储能力显著优化8

得益于第四代英特尔至强 可扩展处理器内置的英特尔AMX 技术,金山云新一代云服务器 X7 加速了人工智能推理性能,并在AIGC等负载中有着卓越的表现。

金山云测试了金山云新一代云服务器 X7在Stable-Diffusion模型推理中的性能表现。Stable- Diffusion是一种基于机器学习的生成 式人工智能模型,能够根据文本生成高分辨率图像。Stable-Diffusion一般需要数秒完成图片生成,计算量极大,其主要性能瓶颈在多头注意力计算部分 (MHA)。

第四代英特尔至强 可扩展处理器在Stable-Diffusion模型推理中有着卓越的性能表现,这源于其在算法上面的优化。针对该模型的 MHA 计算瓶颈,英特尔基于PyTorch 优化的 Intel-Extension-for-PyTorch (IPEX) 插件在2.0 版本发布了基于至强 可扩展处理器平台的Flash Attention算法,主要内容包括以合适的尺寸拆分矩阵计算,实现更高效的缓存利用;使用张量 AMX- BF16 加速MHA矩阵计算,达到更快的速度;将计算缓存区与线程绑定,实现更少的内存开销。

在搭载英特尔至强 铂金 8458P处理器的金山云新一代云服务器X7上,双方对 Stable-Diffusion模型推理性能进行了测试。测试数据如图所示,相较优化之前的模型,在使用 IPEX 2.0 BF16优化之后,Stable-Diffusion模型推理性能提升了3.97倍- 4.96倍9

wKgaomToPQOAKaQFAAFILaX_UTU759.png

图:Stable-Diffusion 模型优化前后性能对比10

赋能云服务器AI性能提升,英特尔携手合作伙伴为云上AI用户提供既高效又经济的解决方案

云服务器已经成为用户扩展人工智能创新,承载模型训练、模型推理等应用需求的重要选择,通过采用内置英特尔AMX 加速器的四代英特尔 至强 可扩展处理器,金山云第七代性能保障型云服务器X7能够显著加速AIGC等模型的性能表现,在端到端人工智能流程中的优势突出。而且,该方案不需要部署独立的加速器,因此在经济性方面有着更佳的表现。具体来讲,它为用户的云上业务带来的收益包括:

更高的性能,能够满足广泛实际应用场景的对于性能的需求。特别是在人工智能性能方面,金山云新一代云服务器 X7 能够有效加速AIGC等应用的运行。 通过英特尔 AMX 的应用以及算法优化,充分释放了硬件潜力,有效利用服务器资源,从而降低了端到端人工智能应用流程的TCO。 不受限于特定应用类型,能够灵活应对深度学习、数据库、高网络收发包等负载的支撑需求,实现更高的敏捷性与扩展性。

在当前合作成果的基础上,英特尔与金山云还将对第七代性能保障型云服务器X7进行进一步合作优化,包括验证服务器在更多场景中的性能表现、通过软件与算法优化进一步释放硬件潜力等,进而为用户提供更加卓越的云服务。同时,英特尔也将通过更多云服务合作伙伴,为云上的AI用户提供更高效、经济的解决方案。

参考资料:

1 数据来源自第四代英特尔 至强 可扩展处理器的最大核数(60 核)与第三代英特尔 至强 可扩展处理器的最大核数(40 核)的比较。

2 详细配置信息请访问:intel.com/processorclaims,选择 “第四代英特尔 至强 可扩展处理器”,查看编号“G2”。实际性能受使用情况、配置和其他因素的差异影响。

3 数据来源自第四代英特尔 至强 可扩展处理器(80 条 PCIe 5.0 通道)与第三代英特尔 至强 可扩展处理器(64 条 PCIe 4.0 通道)的比较。

4详细配置信息请访问:intel.com/processorclaims,选择 “第四代英特尔 至强 可扩展处理器”,查看编号“G1”。实际性能受使用情况、配置和其他因素的差异影响。

5,6,7,8 https://www.ksyun.com/nv/activity/X7launch,截止 2023 年 6 月。

9,10 数据援引自截止 2023 年 6 月金山云内部测试结果。测试配置:英特尔 至强 铂金 8458P 处理器,48vcore,HuggingFace stabilityai/stable-diffusion-2-1。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179311
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11218

    浏览量

    222953

原文标题:英特尔® AMX助金山云为用户提供更高效经济的AI服务,Stable-Diffusion模型推理性能提升近5倍

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NVIDIA NVLink Fusion技术提升AI推理性能

    本文详细阐述了 NVIDIA NVLink Fusion 如何借助高效可扩展的 NVIDIA NVLink scale-up 架构技术,满足日益复杂的 AI 模型不断增长的需求。
    的头像 发表于 09-23 14:45 583次阅读
    使用NVIDIA NVLink Fusion技术<b class='flag-5'>提升</b><b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    英特尔Gaudi 2E AI加速器DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、
    的头像 发表于 08-26 19:18 2582次阅读
    <b class='flag-5'>英特尔</b>Gaudi 2E <b class='flag-5'>AI</b>加速器<b class='flag-5'>为</b>DeepSeek-V3.1<b class='flag-5'>提供</b>加速支持

    直击Computex2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——
    的头像 发表于 05-20 12:27 5160次阅读
    直击Computex2025:<b class='flag-5'>英特尔</b>重磅发布新一代GPU,图形和<b class='flag-5'>AI</b><b class='flag-5'>性能</b>跃升3.4<b class='flag-5'>倍</b>

    英特尔发布全新GPU,AI和工作站迎来新选择

    英特尔推出面向准专业用户AI开发者的英特尔锐炫Pro GPU系列,发布英特尔® Gaudi 3 AI
    发表于 05-20 11:03 1668次阅读

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    的端侧部署,Token产生速度提升了40%,让端侧大模型拥有更高的计算效率和推理性能,使端侧AI交互响应更及时,
    发表于 04-13 19:52

    1.9性能提升英特尔至强6在MLPerf基准测试中表现卓越

    关键项目中,性能表现卓越。测试结果显示,相较于上一代产品,该处理器的AI性能实现了高达1.9的显著提升,这也充分显示了至强6处理器作为现代
    的头像 发表于 04-07 10:58 516次阅读

    英特尔®独立显卡与OpenVINO™工具套件结合使用时,无法运行推理怎么解决?

    使用英特尔®独立显卡与OpenVINO™工具套件时无法运行推理
    发表于 03-05 06:56

    英特尔至强6助力HPE Gen12,AI推理性能提升3

    ,CPU处理器永远都是C位的存在,没有它的基础性支撑,其他一切都是空中楼阁。 当然,CPU处理器也在积极适应新的时代趋势,既要不断增强计算性能,也要低碳环保提高能效,但它们俩如同硬币的正反面,不可能完美兼顾,那该怎么办呢? 对此,英特尔的解决方案是兵分
    的头像 发表于 02-18 14:18 538次阅读
    <b class='flag-5'>英特尔</b>至强6助力HPE Gen12,<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b><b class='flag-5'>提升</b>3<b class='flag-5'>倍</b>!

    英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    Pro模型进行了深度优化。 这一优化举措使得AI开发者能够以更低的成本和更高的效率实现复杂任务的部署与优化。英特尔Gaudi 2D AI
    的头像 发表于 02-10 11:10 929次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1318次阅读
    使用NVIDIA<b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    英特尔与扣子平台合作推出AI PC Bot专区和端侧插件商店

    通过创新的端协同技术,开发者提供更为便捷、高效的智能应用开发环境。 通过扣子的“端插件”机制,英特尔
    的头像 发表于 12-31 10:24 1463次阅读

    英特尔与扣子平台合作推出AI PC Bot专区与端侧插件商店

    。 Coze-AIPC是扣子平台与英特尔联合发布的增强版智能体开发平台,它深度整合了英特尔AI PC的端侧能力与扣子平台的优势。通过扣子
    的头像 发表于 12-27 14:11 1399次阅读

    英特尔带您解锁上智算新引擎

    在近日举办的2024火山引擎FORCE原动力大会上,英特尔与火山引擎联合发布基于英特尔 至强 6 性能核处理器的第四代服务器实例,以打造弹性算力底座的产品化实践。同时,
    的头像 发表于 12-23 14:05 1234次阅读

    如何开启Stable Diffusion WebUI模型推理部署

    如何开启Stable Diffusion WebUI模型推理部署
    的头像 发表于 12-11 20:13 1154次阅读
    如何开启<b class='flag-5'>Stable</b> Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b>部署

    使用英特尔AI PCYOLO模型训练加速

    之后,情况有了新的变化,PyTorch2.5正式开始支持英特尔显卡,也就是说,此后我们能够借助英特尔 锐炫 显卡来进行模型训练了。
    的头像 发表于 12-09 16:14 2109次阅读
    使用<b class='flag-5'>英特尔</b><b class='flag-5'>AI</b> PC<b class='flag-5'>为</b>YOLO<b class='flag-5'>模型</b>训练加速