目前,数据中心在异构计算和算法标准上不断变化,越来越多的应用领域需要专用的架构,使得硬件能够和算法去进行匹配以达到最佳运行效果或者是提高它的运行速度。网络上有很多不同的数据,这些数据在运行过程当中有不同的要求,而且网络自身也在不断迭代,计算、网络和存储对加速的要求都在水涨船高。对于硬件而言,理想的方式是能在不改变硬件的情况下,加速任何工作负载,并能降低总体拥有成本。
针对这一需求趋势,去年10月份的时候,赛灵思推出了Alveo系列加速卡。赛灵思数据中心业务部产品规划和市场营销总监Jamon Bowen将这一系列产品的规划目的总结为三个:快速、灵活应变和方便易用。即高吞吐量同时具有超低时延,能够为多种工作负载进行加速,并且可以运用于云和本地各种场景。Alveo系列包括U200、U250和U280,区别主要是FPGA中的LUT规模和总线资源。今天,该公司宣布推出了Alveo系列最新的一款加速卡Alveo U50。
轻——轻量级加速
和该系列之前的产品不同,Alveo U50是业界首款轻量级PCIe Gen4自适应计算加速卡,并且面向所有服务器、各种云和边缘的数据中心应用,包括网络和存储加速。“这是之前的产品做不到的。”Bowen说。
图:从赛灵思提供的资料看,U50似乎是U280的迷你版。
Alveo U50支持PCIe Gen4这一最新的服务器总线和CCIX互联标准,不同于GPU加速器的尺寸,U50要小的多,“GPU加速器的尺寸适合电脑,但不适用于网络和存储,”Bowen说,“采用赛灵思UltraScale+架构以及集成超高带宽的HBM2存储器技术大大减少了U50的尺寸。”
采用HBM2这种片上存储不仅仅是出于体积的考虑,还在于这能提升性能——HBM性能是DDR的10倍。U50内置8GB HBM2,可实现超过400Gbps的数据传输速度。PCIe Gen4也是目前最快的总线技术,这些都是存储加速的要素。在网络端口方面,U50的QSFP28端口可以实现100Gbps的网络连接,并支持多种前沿应用,如VMe-oF(NVM Express over Fabrics)、解耦计算存储和专业金融服务应用。满足所有这些性能只需要不到75W的功耗,这可以让很多应用不再为功耗预算而担心。
在一组针对语音翻译(深度学习推断加速)、数据库分析(数据分析加速)、数据压缩(计算存储加速)、电子交易(网络加速)和金融建模(网格计算)的加速测试中,与GPU和CPU加速相比,U50的表现优异。其中,语音翻译的时延降低25倍,吞吐量扩大10倍,在翻译性能方面,和英伟达T4 相比,U50 性能提升高达10倍;在运行TPC-H Query基准测试(数据库分析)时,相比CPU,U50每小时吞吐量提升4倍,运营成本降低3倍;在数据压缩上,U50将压缩/解压缩吞吐量提高了20倍,实现了更快的Hadoop和大数据分析,同时相比仅CPU节点将每节点成本降低了40%;在电子交易中,U50相比仅CPU的10us延时,能将时延降低20%,交易时间不到500ns;在金融建模时,运行蒙特卡洛模拟,U50的功效相比GPU提升了7倍。
图:U50在吞吐量,延迟和功效方面实现了10-20倍的改善
总的来说,U50在吞吐量,延迟和功效方面实现了10-20倍的改善。“我们的战略是致力于让赛灵思灵活应变的加速技术应用于数据中心的所有领域,具体来说就是计算、网络和存储,”Bowen说,“所有的计算工作负载都是这三个领域的一部分,这也是我们看到Alveo可以大展宏图的地方。”
重——两个重要堆栈
计算、网络和存储为什么需要加速?因为诸如AlexNet、GoogleNet、DenseNet这些网络结构都需要不同的硬件架构来实现高吞吐量、低时延和高效率。对于应用而言,加速可以灵活适应不同的需求。而数据中心要优化性能,需要定制数据路径、定制精度和定制存储器层级,没有比可编程的硬件更适合来进行定制化的加速了。不过,对于数据中心开发者而言,FPGA编程是个令人头痛的事情。
“我们从数据中心的客户那里听到的一个最大的抱怨就是FPGA的编程非常困难,”Bowen说,“Alveo提供开放的平台和开发环境,让开发者能够更加便捷地使用,随着越来越多的开发者到这个平台上来开发,会有更多的云和相关产品加入,并且能够实现原来只有在软件部分才有可能实现的硬件IP的灵活应变能力。”
对于赛灵思而言,这个开放平台正在形成一个解决方案的堆栈,好消息是,自去年10月份推出Alveo以来,目前已发布的应用已经是当初的2倍,而其培训的开发者已经是当初的4倍。
图:解决方案堆栈
“因为我们是一个非常标准化的产品,所以Kubernetes可以在系统内反映出Alveo插件,开发者也可以把它和docker配合起来,通过对Alveo进行编程而在系统中体现出加速应用。”Bowen解释道,“所有编排、云管理和应用都和这些免费的生态系统结合,如果没有这样一个标准化的产品配置,客户可能需要花费大量的投资才能够实现这样一个功能,这对于一些超大规模数据中心的应用来说是非常有必要的,既可以在云端,也可以用Alveo在本地进行加速,而且是一个非常开放式的框架,可以进行全面的加速。”
这个生态就是一个大规模部署堆栈,赛灵思在其中开发了一个标准框架,然后提供Alveo产品,让开发者像加速软件那样给服务器加速——重要的是,通过开发这个标准框架,赛灵思决定了应用场景的加速方式。
图:大规模部署堆栈
据悉,赛灵思选择在今天(8月7日)发布Alveo U50,是因为这两天(8月6-8日),闪存峰会(Flash Memory Summit (FMS) 2019)正在美国加州圣克拉拉会议中心举办,赛灵思执行副总裁兼数据中心部总经理Salil Raje将发表有关高速存储系统加速的的主题演讲,该公司同时也会在现场演示这款最新的产品。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
赛灵思
+关注
关注
33文章
1798浏览量
133764 -
加速卡
+关注
关注
1文章
75浏览量
11372
发布评论请先 登录
相关推荐
热点推荐
AMD正式推出Instinct MI350P PCIe GPU加速卡
AMD于2026年5月8日正式推出Instinct MI350P PCIe GPU加速卡,作为四年来首款面向企业级市场的PCIe接口Instinct系列产品,其以“精简架构+极致能效”为核心,专为AI推理任务优化,实现从部署到运行的“开箱即用”体验,重新定义企业级AI加速
瀚博半导体载天VA16加速卡成功适配DeepSeek-V4大模型
4月24日,深度求索正式开源全新系列模型DeepSeek-V4。瀚博半导体第一时间完成载天VA16加速卡的FP4+FP8 混合精度适配,加速大模型高并发、低成本落地。
选择AMD Alveo V80加速卡的五大理由
AMD Alveo V80 加速卡专为需要实时加速的企业数据中心和云服务提供商而设计,它结合了可编程逻辑、片上高带宽内存( HBM )、高速网络核心以及网络直连接口,可实现实时性能。Alveo
赛灵思FPGA电源解决方案全解析
赛灵思FPGA电源解决方案全解析 在当今的电子设计领域,现场可编程门阵列(FPGA)凭借其出色的设计灵活性和较低的工程成本,在众多应用和终端市场中占据了重要地位。然而,FPGA的电源设计和管理却是一
AMD Alveo MA35D媒体加速卡的AMA SDK 1.4.0版本发布
我们非常高兴地宣布,面向 AMD Alveo MA35D 媒体加速卡的最新 AMA SDK 1.4.0 版本现已发布。该版本旨在为要求严苛的媒体工作负载提供坚如磐石的稳定性和性能提升。此次更新体现了我们致力于优化平台以适应生产环
FPGA硬件加速卡设计原理图:1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡 PCIe半高 XCKU115-3-FLVF1924-E芯片
FPGA硬件加速, PCIe半高卡, XCKU115, 光纤采集卡, 信号计算板, 硬件加速卡
新品 | LLM-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN标准嵌入式开发板
LLM-8850KitLLM-8850Kit是一款面向边缘AI与嵌入式计算场景的高性能AI加速卡套件,由LLM-8850CardAI加速卡与LLM-8850PiHat转接板组成。核心加速卡
福田汽车新能源重卡及轻卡助力东南亚物流行业绿色转型
近日,福田汽车在东南亚区域实现重要突破,旗下新能源重卡及轻卡正式交付某全球领先物流企业。此次合作标志着福田汽车在东南亚新能源商用车市场的布局迈出坚实一步,也为当地物流行业的绿色转型注入
福田卡文重卡BEACON正式发布量产版
2025年12月18日,福田卡文重卡BEACON正式发布量产版,携纯电、气氢、液氢三款量产产品与公众见面,其中,液氢产品是行业首个将只应用于航空航天领域的液氢能源突破性地应用于量产化的
3U VPX板卡设计原理图:821-基于RFSOC的8路5G ADC和8路9G的DAC 3U VPX卡
3uvpx板卡, DA输出核心板, RFSOC, XCVU9P芯片, 信号输出播放, 硬件加速卡, 3U VPX板卡
算力密度翻倍!江原D20加速卡发布,一卡双芯重构AI推理标杆
的关键技术瓶颈。 在此背景下,江原科技推出采用自研AI芯片的AI加速卡江原D10,并在今年5月实现量产交付。在大算力AI芯片全流程国产化产业链实现首次突破后,11月11日,江原科技再次发布新一代全国产AI加速卡——江原D20
虚拟电厂加速卡不是噱头!万点规模VPP的性能分水岭
。 此时仅靠边缘MPU/CPU的通用算力,可能无法及时处理数据清洗、异常检测、指令下发校验等任务,而加速卡(如 GPU、FPGA 加速卡)的并行计算能力可快速消化数据洪流,避免“小包风暴”导致的系统卡顿。 虚拟电厂对AG
智算加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!
随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,算力才是硬通货。你有没有发现,现在越来越多的AI企业不光用GPU,也不怎么迷信TPU了?他们嘴里多了一个新词儿——智算加速卡。
今天发布!详解赛灵思加速卡Alveo U50的轻与重
评论