0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

集成32GB HBM2e内存,AMD Alveo V80加速卡助力传感器处理、存储压缩等

晶芯观察 来源:电子发烧友网 作者:黄晶晶 2024-06-05 16:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/黄晶晶)日前,AMD推出Alveo V80加速卡,Versal FPGA自适应SoC搭配HBM,可处理计算以及内存密集型的工作负载,用于高性能计算、数据分析、金融科技、存储压缩等等。

突破网络访问和内存的瓶颈


此次Alveo V80为何采用HBM高速内存,AMD 自适应和嵌入式计算事业部( AECG )高级产品线经理Shyam Chander分析,在传统的处理器架构中,无论是存储器还是网络访问都容易形成瓶颈。网络接口只支持25G、100G,内存采用DDR而FPGA的带宽远高于内存提供的带宽。



那么Alveo V80针对于这两个问题进行了优化,带来显著的性能提升。内存采用高带宽存储器HBM2e,提供820 GB/s 的存储器带宽,容量达32GB。网络访问上采用QSFP56光纤模块可以支持从10G到800G的带宽,支持4X200G,以及4X10G/25G/40G/50G等不同工作模式。



这款加速卡采用全高、3/4 长( FH¾L )尺寸规格,由 AMD Versal HBM 自适应 SoC 提供支持,具备 2,600,000 个 LUT 逻辑单元的 FPGA 架构、10,848 个 DSP 计算逻辑片以及 820 GB/s 的存储器带宽。



与前代产品 AMD Alveo U55C 计算加速卡相比,Alveo V80 的逻辑密度至高翻倍、存储器带宽至高翻倍且网络带宽可高至 4 倍,可以实现强大的计算集群,同时还能优化卡、服务器数量以及机架空间。



Alveo V80还配有32GB DDR DIMM扩展插槽,MCIO扩展端口可直连NVMe驱动器,实现存储卡的连接。系统连接总线支持PCIe 5.0接口,可达64GB/秒传输速率。整卡功率300W,采用被动散热,总热设计功耗TDP则取决于器件和服务器。

V80集成高带宽网络核心600G以太网和400G加密引擎,硬化基础设施连接包括DDR控制器、支持DMA的PCIe 5.0、可编程片上网络。Shyam Chander表示,基于这些硬化的功能,用户没有必要使用软性的IP进行部署。



通常来说,传统的加速卡(如GPU)要与CPU进行连接,这会限制能够使用的加速卡的数量。但是V80能够避开CPU到加速卡的PCle瓶颈、低时延处理传入的网络数据,消除分立式网络接口卡、实现每服务器的卡数和计算密度最大化。同时,按照需求以网络限速的方式管理传入的数据,包括在线加密、数据包监控、传感器处理等等。

传统架构是固定的缓存层次用于数据的读取和写入,不规则的访问模式会降低效率。而V80的自适应计算,拥有灵活的架构,在计算附近分配内存,从而降低延迟和低功耗,并可以灵活适应自定义的数据类型和数据迁移。

AMD同时提供设计示例AVED,可在GitHub上获取,以及用户可继续使用 Vivado设计套件,从而硬件开发者能够更快地上手,助其缩短开发上市时间。

大规模加速内存密集型工作负载


Alveo V80加速卡可以应对很多大数据工作负载,包括高性能计算,包括基因组学和传感器处理、数据分析(像欺诈检测);金融科技,包括风险分析和算法交易;还有网络安全,像数据包监控;存储压缩,这是一个非常关键的工作负载。另外在AI计算领域,包括推荐引擎和大语言模型等等。因此可以帮助客户大规模加速以上工作负载,可以加快数据处理的速度,同时还能够进行实时的洞见和分析。



以传感器处理为例,联邦科学与工业研究组织( CSIRO )是澳大利亚的国立研究组织,其参与建造了世界上最大的射电天文学天线阵列,该天线阵列目前包含 420 张 Alveo U55C 加速器卡用于处理无线电波,以研究早期宇宙并探索星系演化。

CSIRO计划借助 Alveo V80 加速卡缩减占板面积与成本,并将所需加速卡的数量精简多达 66%,同时应对来自望远镜 131,000 个天线的新信号处理任务。考虑到卡、服务器、机架空间和功耗的潜在减少,每卡算力的跃升预计可带来至高 20% 总拥有成本( TCO )下降。



还有具备压缩与数据分析功能的服务器存储节点的例子,通过Alveo V80进行压缩,利用FPGA架构和AMD压缩IP可扩展存储节点,并可解压缩,查询加速等。



从总拥有成本的角度来分析,比如10Pb数据存储,没有压缩时需要55台服务器,1303个SSD驱动器,每年约427千瓦时的功耗。如果进行压缩,同样10Pb数据,只需要21台服务器,504个SSD驱动器,每年约233千瓦时,使用42张AMD Alveo V80卡进行压缩,总拥有成本三年以上至高可以达到56%的降低,而且服务器的数量、服务器成本以及功耗也都有非常显著的降低。



小结:

市面上加速卡也有GPU、ASIC等,但这些加速卡各有所长。Shyam Chander表示,相较而言GPU擅长浮点、并联、定点,FPGA擅长线上访问的实时处理,而且低时延、灵活应变,有非常丰富的存储器架构资源。AMD Alveo系列产品主要针对内联网络、实时处理比如传感器的实时处理、金融科技的需求,他们的诉求点在于低时延和灵活应变,FPGA的自适应SoC就是极好的解决方案。

另外,HBM的价格虽然高于DDR,但是如果能够正确地配置FPGA资源,最终就能实现高性价比的竞争优势。在产品路线上,全面看待工作负载方面的要求,也在考虑引入HBM3等存储。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1663

    文章

    22492

    浏览量

    638936
  • amd
    amd
    +关注

    关注

    25

    文章

    5703

    浏览量

    140386
  • AI
    AI
    +关注

    关注

    91

    文章

    40927

    浏览量

    302511
  • HBM
    HBM
    +关注

    关注

    2

    文章

    432

    浏览量

    15880
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    HBM迎头赶上!国产AI芯片飞跃

    HBM2e,单卡显存80GB,片间带宽400GB/s,接口规格是PCIe4.0×16,功耗400W;而H20的显存和片间带宽更强,单卡
    的头像 发表于 09-22 07:02 1.3w次阅读
    <b class='flag-5'>HBM</b>迎头赶上!国产AI芯片飞跃

    STTS424E02:内存模块温度传感器深度解析

    STTS424E02:内存模块温度传感器深度解析 产品概述 STTS424E02 作为一款集成了温度传感
    的头像 发表于 04-17 15:30 156次阅读

    选择AMD Alveo V80加速卡的五大理由

    V80 是一款用途高度多样化的加速卡,业已应用于高性能计算、金融科技、数据分析、传感器处理、网络、存储
    的头像 发表于 04-10 14:59 261次阅读

    AMD Alveo MA35D媒体加速卡的AMA SDK 1.4.0版本发布

    我们非常高兴地宣布,面向 AMD Alveo MA35D 媒体加速卡的最新 AMA SDK 1.4.0 版本现已发布。该版本旨在为要求严苛的媒体工作负载提供坚如磐石的稳定性和性能提升。此次更新体现了我们致力于优化平台以适应生产环
    的头像 发表于 03-19 09:36 592次阅读

    FPGA硬件加速卡设计原理图:1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA硬件加速, PCIe半高, XCKU115, 光纤采集, 信号计算板, 硬件加速卡
    的头像 发表于 02-12 09:52 521次阅读
    FPGA硬件<b class='flag-5'>加速卡</b>设计原理图:1-基于Xilinx XCKU115的半高PCIe x8 硬件<b class='flag-5'>加速卡</b> PCIe半高 XCKU115-3-FLVF1924-<b class='flag-5'>E</b>芯片

    新品 | LLM-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN标准嵌入式开发板

    LLM-8850KitLLM-8850Kit是一款面向边缘AI与嵌入式计算场景的高性能AI加速卡套件,由LLM-8850CardAI加速卡与LLM-8850PiHat转接板组成。核心加速卡
    的头像 发表于 01-30 16:11 1351次阅读
    新品 | LLM-8850 Kit,高性能AI<b class='flag-5'>加速卡</b>套件 DinMeter <b class='flag-5'>v</b>1.1,1/32DIN标准嵌入式开发板

    高速信号处理设计方案:413-基于双XCVU9P+C6678的100G光纤加速卡

    C6678, XCVU9P, ZU19EG开发板,, 高速信号处理, 光纤加速卡, XCVU9P光纤加速卡
    的头像 发表于 01-08 16:06 431次阅读
    高速信号<b class='flag-5'>处理</b>设计方案:413-基于双XCVU9P+C6678的100G光纤<b class='flag-5'>加速卡</b>

    JEDEC制定全新内存标准,将取代HBM

    电子发烧友网综合报道 随着人工智能算力需求的指数级爆发,数据中心对内存的性能、容量与成本平衡提出了前所未有的严苛要求。HBM凭借1024-bit甚至2048-bit的超高位宽,成为AI加速卡的核心
    的头像 发表于 12-17 09:29 1945次阅读

    AMD Alveo MA35D加速器:开启大规模交互式流媒体新时代

    AMD Alveo MA35D加速器:开启大规模交互式流媒体新时代 在当今全球视频市场被直播主导的背景下,低延迟应用不断涌现,对基础设施和视频处理技术的成本结构及部署策略产生了深远影响
    的头像 发表于 12-15 14:35 544次阅读

    昆仑芯R200 AI加速卡技术规格解析

    昆仑芯R200加速卡基于7nm XPU-R架构,在150W功耗下提供256 TOPS INT8算力,侧重高性能推理。配备最高32GB GDDR6内存(512GB/s带宽)及108路视频
    的头像 发表于 12-14 13:12 1859次阅读
    昆仑芯R200 AI<b class='flag-5'>加速卡</b>技术规格解析

    迈向云端算力巅峰:昆仑芯K200 AI加速卡全面解读

    昆仑芯K200作为云端AI加速卡,在K100架构基础上全面升级。其INT8算力达256 TOPS,配备16GB HBM内存与512GB/s带
    的头像 发表于 12-14 11:17 2250次阅读
    迈向云端算力巅峰:昆仑芯K200 AI<b class='flag-5'>加速卡</b>全面解读

    专为边缘而生:深度解析昆仑芯K100 AI加速卡,释放128 TOPS极致能效

    昆仑芯K100边缘AI加速卡以75W超低功耗实现128 TOPS的INT8算力,重新定义边缘推理能效标准。其半高半长设计搭载8GB HBM内存与256
    的头像 发表于 12-14 11:12 3146次阅读
    专为边缘而生:深度解析昆仑芯K100 AI<b class='flag-5'>加速卡</b>,释放128 TOPS极致能效

    AI大算力的存储技术, HBM 4E转向定制化

    在积极配合这一客户需求。从HMB4的加速量产、HBM4E演进到逻辑裸芯片的定制化HBM技术正在创新中发展。   HBM4
    的头像 发表于 11-30 00:31 8805次阅读
    AI大算力的<b class='flag-5'>存储</b>技术, <b class='flag-5'>HBM</b> 4<b class='flag-5'>E</b>转向定制化

    华强北TF回收 内存卡回收

    、威刚TF,索尼TF、创见TF.......长期大量回收内存SD,回收全新内存卡,收购原
    发表于 05-21 17:48

    寒武纪基于思元370芯片的MLU370-X8 智能加速卡产品手册详解

    MLU370-X8智能加速卡是全面升级的数据中心训推一体AI加速卡,基于寒武纪全新一代思元370芯片,接口为PCIe 4.0 X16,是全高全长双宽(FHFL-Dual-Slot)的标准PCIe加速卡,适用于业内最新的CPU平台
    的头像 发表于 04-24 17:57 6048次阅读
    寒武纪基于思元370芯片的MLU370-X8 智能<b class='flag-5'>加速卡</b>产品手册详解