0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Xilinx公司Versal AI Core系列产品实现突破性的AI推断吞吐量和性能

我快闭嘴 来源:半导体行业观察 作者:半导体行业观察 2020-09-26 11:49 次阅读

在2018年初出任Xilinx CEO之后,Victor Peng就给FPGA巨头定下了三大战略,分别是数据中心加速、加速主流市场的发展以及推出 ACAP(Adaptive Compute Acceleration Platform, 自适应计算加速平台)。当中ACAP更是他们面向未来的重中之重。按照Xilinx的说法,这是继他们在1984年发明FPGA之后,又一次颠覆性的发明成就。

Victor Peng在中国参加媒体会甚至表示,如果你在一个行业内达到了一种高度,你就有资格玩下一关的游戏。现在Xilinx的ACAP已经上了一个新台阶,接下来我们要和英伟达英特尔处理器展开新竞争。

从最近发布的数据看来,Xilinx的ACAP也的确在一步步实现公司对它寄予的厚望。

不止FPGA,ACAP初战告捷

所谓ACAP,并不是FPGA,正如Victor Peng所说,这是一个整合了了硬件编程逻辑单元、软件可编程处理器、以及软件可编程加速引擎的计算平台产品。作为一种高度集成的多核异构计算平台,ACAP可在软硬件两个层面随时进行更改,从而动态地适应数据中心、汽车、5G 无线、有线以及国防市场的广泛应用与工作负载需求。而Versal 则是ACAP的首款平台。

据了解,Versal的体系架构从构建伊始即可支持软件可编程,拥有高度灵活的、每秒传输速率高达数兆比特的片上网络 (NoC)。NoC能无缝集成所有引擎和关键接口,使得该平台在启动时即可使用平台的各项资源,并且方便软件开发者、数据科学家和硬件开发者等都能轻松进行编程。通过一系列工具、软件、库、IP、中间件和固件,Versal ACAP让使用者能随时通过业界标准设计流程开发各种定制化的加速计算解决方案。资料显示,Versal包括了几个系列, AI Core和Prime 则是最先推出的两个产品线,并已经开始发货。

据介绍,Versal AI Core 系列在整个Versal产品系列中提供了最高计算性能和最低时延,并通过 AI 引擎实现了突破性的 AI 推断吞吐量和性能。该系列针对云端、网络和自动驾驶技术进行优化,提供了业界最广泛的 AI 和工作负载加速功能。Versal Prime 系列的设计则广泛适用于各种应用,并针对各种工作负载的连接性和在线加速进行了优化。

“自发货以来,Versal AI Core和Versal Prime现在已经是有几百家客户,反响非常好,客户甚至希望我们能够加速其生产”,赛灵思高端ACAP与FPGA高级产品线经理Mike Thompson告诉记者。

再下一城,Versal Premium为数据中心加速

在Versal AI Core和Versal Prime两个系列首战告捷之后,Xilinx又马不停蹄地在日前推出了Versal ACAP的高端系列Versal Premium,旨在帮助超大规模数据中心用户为多元化的数据中心工作负载实现最高加速水平。这一方面体现了Xilinx的有的放矢;另一方面,也再一次显露出了这家用于革自己命企业的底气。

众所周知,在过去几年里,随着AI、5G和物联网等多个新兴应用的崛起,数据成为了各大领域关注的重点。而庞大数据量的传输也给做相关支撑的基础设施带来严峻的挑战。如何提高高带宽、高性能、高可靠性和安全的方案,就成为了相关供应商需要考虑的重要问题。而Xilinx 的Versal Premium就是为了解决这些问题而生的。

Mike Thompson指出,Versal Premium是在Versal Prime的基础上,集成更多的连接和安全功能而打造的产品。从他的介绍我们得知,Versal Premium集成了PCIe Gen5、DMA和CCIX;同时还加上了CXL的支持;另外,最先进的112G PAM4收发器和可以做以太网即时连接的600G Interlaken硬核也是这个新旗舰的另一个亮点。在安全方面,Xilinx还为这款产品加入了400G加密引擎用于加密。是因为这些多样化异构集成,Xilinx让这个产品能给客户带来卓越的效果。

首先,通过软IP和硬IP的配置,能提供功耗优化的带宽密度。

以硬IP连接为例,它不但能够支持多速率以太网,还可以实现如网络遥测、虚拟化和数据包处理等高价值功能。在这些硬IP的支持下,不但可以支持更多标准,还能够以最小占板空间提供高达 5Tb/s 的吞吐量,同时能够让产品满足当前主流的100G和400G光通信需求,还提供了面向未来的800G连接支持,让客户可针对未来做更多提前布局。

Versal Premium 系列还提供了高达 9Tb/s 的可扩展、自适应串行带宽。具体方法是将 112G PAM4 收发器与集成的网络功能模块用于核心网、城域网和数据中心互联( DCI )基础设施,将每端口带宽密度提高两倍,并降低时延高达 50%。

其次,Versal Premium可以帮助客户实现800G DCI,但功耗不到100瓦。在与FPGA方案相比时,前者的功耗降低一半以上,占地面积也降低一半,功耗则提升了60%。

第三,Versal Premium集成的600G Interlaken 和400G高速加密引擎能协助打造更快速和安全的网络。如下图所示,这个产品可以以1.8Tb/s的速度现用Interlaken连接,高速加密引擎也可提供高达 1.6Tb/s 的加密线路速率吞吐量。

为了当前计算加速存储器架构上的瓶颈,Xilinx还给Versal Premium集成了1G片上存储器带宽,让其可以和计算引擎进行非常紧密地吻合,提高它的性能,降低功耗和时延。据Xilinx方面介绍,Versal Premium的存储器带宽为123TB/s,这个数字是英伟达Tesla V100的9倍,与Tesla T4相比,更是快乐25倍。“这让我们的产品解锁了GPU无法企及的性能”,Xilinx方面强调。这样的存储器带宽与异构引擎的搭配,让Versal Premium整体也提供了突破性的性能。

除了硬件之外,Xilinx还为这系列产品提供一个非常丰富和强大的软件生态,搭配其Vitis软件平台,使得软件开发者可以使用他们最熟悉的C、C++Python语言对硬件进行开发,另外数据科学家和算法开发人员也可以使用他们平时最熟悉的框架,在这个硬件上进行研究。Xilinx希望硬件开发者、软件开发者和数据开发者都能加入到其生态中来。

此外,针对当前网络应用的需求,Xilinx还给Versal Premium带来了网络异常检测AI和配置与网络性能AI。前者的引入让其能够执行入侵检测和恶意软件识别的功能,还拥有了应对新兴威胁的自适应算法,同时供公司还提供了随机森林算法(Random Forest) IP,满足客户的多样化需求;至于后者,则可以自动监测与性能瓶颈纠正,还可以自动配置,最大限度延长正常运行时间(MLP)

Mike Thompson强调。这样的异构集成创新使得ACAP尤其是Versal Premium能够超越摩尔定律的限制,能够专注于下一代高带宽和处理能力。还可以帮助客户大大降低资本支出和运营成本。更重要的一点,正因为使用了这样的设计,Versal Premium拥有了更多的逻辑可以用于定制。

虽然网络加速市场高手林立,但Xilinx的强势杀入,让整个市场又增添了几分变数。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18290

    浏览量

    222194
  • FPGA
    +关注

    关注

    1603

    文章

    21326

    浏览量

    593245
  • 数据中心
    +关注

    关注

    15

    文章

    4187

    浏览量

    70093
  • AI
    AI
    +关注

    关注

    87

    文章

    26462

    浏览量

    264088
收藏 人收藏

    评论

    相关推荐

    AMD发布第二代Versal自适应SoC,AI嵌入式领域再提速

    AMD表示,第二代Versal系列自适应SoC搭载全新的AI引擎,相较上一代Versal AI Edge
    的头像 发表于 04-11 16:07 284次阅读

    AMD Versal SoC刷新边缘AI性能,单芯片方案驱动嵌入式系统

    电子发烧友网报道(文/黄晶晶)边缘AI应用需要更多的高性能计算和算力的支持,AMD的Versal和Zynq系列产品一直支持医疗、交通、智能零售、智能工厂、智能城市等领域的边缘
    的头像 发表于 04-11 09:06 1996次阅读
    AMD <b class='flag-5'>Versal</b> SoC刷新边缘<b class='flag-5'>AI</b><b class='flag-5'>性能</b>,单芯片方案驱动嵌入式系统

    AMD推出第二代Versal器件,为AI驱动型嵌入式系统提供端到端加速

    Versal AI Edge 系列和第二代 Versal Prime 系列自适应 SoC,其将预处理、
    的头像 发表于 04-10 10:25 142次阅读

    AMD Versal SoC全新升级边缘AI性能,单芯片方案驱动嵌入式系统

    电子发烧友网报道(文/黄晶晶)边缘AI应用需要更多的高性能计算和算力的支持,AMD的Versal和Zynq系列产品一直支持医疗、交通、智能零售、智能工厂、智能城市等领域的边缘
    的头像 发表于 04-09 21:32 369次阅读
    AMD <b class='flag-5'>Versal</b> SoC全新升级边缘<b class='flag-5'>AI</b><b class='flag-5'>性能</b>,单芯片方案驱动嵌入式系统

    AMD 以全新第二代 Versal 系列器件扩展领先自适应 SoC 产品组合,为 AI 驱动型嵌入式系统提供端到端加速

    第二代 Versal 系列产品组合中首批器件借助下一代 AI 引擎将每瓦 TOPS 提升至高 3 倍,同时将基于 CPU 的标量算力较之第一代提升至高 10 倍 —   斯巴鲁位列首批宣布计划部署
    发表于 04-09 16:50 698次阅读
    AMD 以全新第二代 <b class='flag-5'>Versal</b> <b class='flag-5'>系列</b>器件扩展领先自适应 SoC <b class='flag-5'>产品</b>组合,为 <b class='flag-5'>AI</b> 驱动型嵌入式系统提供端到端加速

    如何提高CYBT-243053-02吞吐量

    你好我们一直在使用“EZ-Serial Firmware: v1.4.13.13 Sep 22 2023 10:24:41”测试“CYBT-243053-02”,我们得到的吞吐量比 PUART 高
    发表于 02-27 06:56

    【KV260视觉入门套件试用体验】KV260系列之Petalinux镜像+Resnet 50探索

    Vitis AI 概述 AMD Vitis™ AI 开发环境可在 AMD 硬件平台上加速 AI 推断,包括边缘器件和 AMD Versal
    发表于 10-16 04:22

    【KV260视觉入门套件试用体验】Vitis AI 构建开发环境,并使用inspector检查模型

    推断开发平台,它可以帮助开发者在赛灵思的 FPGA 和自适应 SoC 上实现高效的 AI 应用部署。它是一个强大而灵活的 AI 开发平台,它可以让您充分利用赛灵思硬件平台的优势,
    发表于 10-14 15:34

    【KV260视觉入门套件试用体验】5、简单几步体验Vitis AI

    和高层次 API 可实现自定义模型的极速部署l可配置的高效率 DPU 内核能够充分满足边缘及云端对吞吐量、时延和电源的不同需求关于该平台的详细介绍请参考:https://china.xilinx
    发表于 09-18 21:54

    实现更低功耗的更高吞吐量:Xilinx业界首款可配置集成型SD-FEC

    电子发烧友网站提供《实现更低功耗的更高吞吐量:Xilinx业界首款可配置集成型SD-FEC.pdf》资料免费下载
    发表于 09-18 09:31 0次下载
    <b class='flag-5'>实现</b>更低功耗的更高<b class='flag-5'>吞吐量</b>:<b class='flag-5'>Xilinx</b>业界首款可配置集成型SD-FEC

    Versal ACAP AI核心系列库指南

    电子发烧友网站提供《Versal ACAP AI核心系列库指南.pdf》资料免费下载
    发表于 09-14 14:48 0次下载
    <b class='flag-5'>Versal</b> ACAP <b class='flag-5'>AI</b>核心<b class='flag-5'>系列</b>库指南

    采用Versal AI Edge系列的边缘ACAP

    电子发烧友网站提供《采用Versal AI Edge系列的边缘ACAP.pdf》资料免费下载
    发表于 09-13 17:08 0次下载
    采用<b class='flag-5'>Versal</b> <b class='flag-5'>AI</b> Edge<b class='flag-5'>系列</b>的边缘ACAP

    GPU上OpenVINO基准测试的推断模型的默认参数与CPU上的参数不同是为什么?

    model.xml -d CPU 导致的 GPU 延迟和吞吐量高于 CPU。 无法确定为什么 GPU 上的延迟和吞吐量都高于 CPU,因为低延迟会导致高吞吐量
    发表于 08-15 06:43

    基于NVIDIA® Jetson™ Orin的凌华科技ROScube-X RQX-59系列,重新定义 AI 性能

    相比上一代产品,提供 6 倍的 AI 性能突破性的 RQX-59 系列,为您的机器人和自动驾驶解决方案带来巨大变革 ROScube-X R
    发表于 08-08 14:18 483次阅读
    基于NVIDIA® Jetson™ Orin的凌华科技ROScube-X RQX-59<b class='flag-5'>系列</b>,重新定义 <b class='flag-5'>AI</b> <b class='flag-5'>性能</b>

    利用Design Gateway的IP Core加速Xilinx VCK190评估套件上的AI应用

    Xilinx 的 Versal AI Core 系列器件旨在解决有关 AI 推理的最大而独特的难
    的头像 发表于 07-07 14:15 587次阅读
    利用Design Gateway的IP <b class='flag-5'>Core</b>加速<b class='flag-5'>Xilinx</b> VCK190评估套件上的<b class='flag-5'>AI</b>应用