0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

【产品测试】利用设计网关的 IP 内核在 Xilinx VCK190 评估套件上加速人工智能应用

innswaiter 2022-11-29 18:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

XilinxVersal AI Core 系列器件旨在解决独特且最困难的 AI 推理问题,方法是使用高计算效率 ASIC 级 AI 计算引擎和灵活的可编程结构来构建具有加速器的 AI 应用,从而最大限度地提高任何给定工作负载的效率,同时提供低功耗和低延迟。

Versal AI Core 系列VCK190 评估套件采用VC1902器件,该器件在产品组合中具有最佳的 AI 性能。该套件专为需要高吞吐量 AI 推理和信号处理计算性能的设计而设计。VCK190 套件的计算能力是当前服务器级 CPU 的 100 倍,并具有多种连接选项,是从云到边缘的各种应用的理想评估和原型设计平台。

赛灵思 Versal AI 内核系列 VCK190 评估套件图像图 1:赛灵思 Versal AI 内核系列 VCK190 评估套件。(图片来源:AMD, Inc)

VCK190 评估套件的主要特性

  • 板载 Versal AI 核心系列设备
    • 配备 Versal ACAP XCVC1902 量产芯片
    • AI 和 DSP 引擎的计算性能比当今的服务器级 CPU 高 100 倍
    • 用于快速原型设计的预构建合作伙伴参考设计
  • 用于前沿应用开发的最新连接技术
    • 内置 PCIe 第 4 代硬 IP,用于高性能设备接口,如 NVMe® 固态盘和主机处理器
    • 内置 100G EMAC 硬 IP,用于高速 100G 网络接口
    • DDR4 和 LPDDR4 内存接口
  • 协同优化工具和调试方法
    • Vivado® ML, Vitis 统一软件平台, Vitis™ AI, 用于 AI 推理应用开发的 AI 引擎工具

利用赛灵思 Versal AI 内核系列器件实现 AI 接口加速

赛灵思 Versal AI 内核 VC1902 ACAP 器件框图图 2:赛灵思 Versal AI 内核 VC1902 ACAP 器件框图。(图片来源:AMD, Inc)

Versal® AI Core 自适应计算加速平台 (ACAP) 是一款高度集成的多核异构设备,可在硬件和软件级别动态适应各种 AI 工作负载,使其成为 AI 边缘计算应用或云加速器卡的理想选择。该平台集成了用于嵌入式计算的下一代标量引擎、用于硬件灵活性的自适应引擎,以及由 DSP 引擎和用于推理和信号处理的革命性 AI 引擎组成的智能引擎。其结果是一个适应性强的加速器,其性能、延迟和能效超过了传统 FPGAGPU 的性能、延迟和能效,适用于 AI/ML 工作负载。

Versal ACAP 平台亮点

  • 适应性强的引擎:
    • 自定义内存层次结构优化了加速器内核的数据移动和管理
    • 预处理和后处理功能,包括神经网络 RT 压缩和图像缩放
  • 人工智能引擎 (DPU)
    • 矢量处理器的平铺阵列,使用 XCVC1902 设备(称为深度学习处理单元或 DPU)时,性能高达 133 INT8 TOPS
    • 非常适合神经网络,包括CNN,RNN和MLP;硬件可适应不断演变的算法进行优化
  • 标量引擎
    • 四核ARM处理子系统,用于安全、电源和比特流管理的平台管理控制器

VCK190 人工智能推理性能

与当前服务器级 CPU 相比,VCK190 能够提供超过 100 倍的计算性能。下面是基于 C32B6 DPU 内核的 AI 引擎实现的性能示例,批处理 = 6。有关 VCK190 上各种神经网络样本的吞吐量性能(以帧/秒或 fps 为单位),DPU 以 1250 MHz 运行,请参阅下表。

| | No | Neural Network | Input Size | GOPS | Performance (fps) (Multiple thread) |
| ---- | -------------------------- | ------------ | ------ | ------------------------------------- |
| 1 | face_landmark | 96x72 | 0.14 | 24605.3 |
| 2 | facerec_resnet20 | 112x96 | 3.5 | 5695.3 |
| 3 | inception_v2 | 224x224 | 4 | 1845.8 |
| 4 | medical_seg_cell_tf2 | 128x128 | 5.3 | 3036.3 |
| 5 | MLPerf_resnet50_v1.5_tf | 224x224 | 8.19 | 2744.2 |
| 6 | RefineDet-Medical_EDD_tf | 320x320 | 9.8 | 1283.6 |
| 7 | tiny_yolov3_vmss | 416x416 | 5.46 | 1424.4 |
| 8 | yolov2_voc_pruned_0_77 | 448x448 | 7.8 | 1366.0 |

Table 1: Example of VCK190 AI Inference performance.

See more detail of VCK190 AI performance from Vitis AI Library User Guide (UG1354), r2.5.0 at https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board

How Design Gateway's IP cores accelerate AI application performance?

Design Gateway's IP Cores are designed to handle Networking and Data Storage protocol without need for CPU intervention. This makes it ideal to fully offload CPU systems from complicated protocol processing and which enables them to utilize most of their computing power for AI applications including AI inference, pre and post data processing, user interface, network communication and data storage access for the best possible performance.

Block diagram of example an AI Application with Design Gateway's IP CoresFigure 3: Block diagram of example an AI Application with Design Gateway's IP Cores. (Image source: Design Gateway)

Design Gateway's TCP Offload Engine IP (TOExxG-IP) performance

Processing high speed, high throughput TCP data streams over 10GbE or 25GbE by traditional CPU systems needs more than 50% of CPU time which reduces overall performance of AI applications. According to 10G TCP performance test on Xilinx's MPSoC Linux systems, CPU usage during 10GbE TCP transmission is more than 50%, TCP send and receive data transfer speed could be achieved just around 40% to 60% of 10GbE speed or 400 MB/s to 600 MB/s.

By implementing Design Gateway's TOExxG-IP Core, CPU usage for TCP transmission over 10GbE and 25GbE can be reduced to almost 0% while ethernet bandwidth utilization can be achieved close to 100%. This allows the sending and receiving of data over the TCP network directly by pure hardware logic and be fed into the Versal AI Engine with minimum CPU usage and the lowest possible latency. Figure 4 below shows the CPU usage and TCP transmission speed comparison between TOExxG-IP and MPSoC Linux systems.

Image of performance comparison of 10G/25G TCP transmission by MPSoC Linux systemsFigure 4: Performance comparison of 10G/25G TCP transmission by MPSoC Linux systems and Design Gateway's TOExxG-IP Core. (Image source: Design Gateway)

Design Gateway’s TOExxG-IP for Versal devices

Diagram of TOExxG-IP systems overviewFigure 5: TOExxG-IP systems overview. (Image source: Design Gateway)

The TOExxG-IP core implements the TCP/IP stack (in hardwire logic) and connects with Xilinx’s EMAC Hard IP and Ethernet Subsystem module for the lower-layer hardware interface with 10G/25G/100G Ethernet speed. The user interface of the TOExxG-IP consists of a Register interface for control signals and a FIFO interface for data signals. The TOExxG-IP is designed to connect with Xilinx's Ethernet subsystem through the AXI4-ST interface. The clock frequency of the user interface depends on the Ethernet interface speed (e.g., 156.625 MHz or 322.266 MHz).

TOExxG-IP’s features

  • Full TCP/IP stack implementation without need of the CPU
  • Supports one session with one TOExxG-IP
  • Multi-session can be implemented by using multiple TOExxG-IP instances
  • Support for both Server and Client mode (Passive/Active open and close)
  • Supports Jumbo frame
  • Simple data interface by standard FIFO interface
  • Simple control interface by single port RAM interface

FPGA resource usages on the XCVC1902-VSVA2197-2MP-ES FPGA device are shown in Table 2 below.

| | Family | Example Device | Fmax (MHz) | CLB Regs | CLB LUTs | Slice | IOB | BRAMTile^1^ | URAM | Design Tools |
| ---------------- | -------------------------- | ------------ | ---------- | ---------- | ------- | ----- | -------------- | ------ | -------------- |
| Versal AI Core | XCVC1902-VSVA2197-2MP-ES | 350 | 11340 | 10921 | 2165 | - | 51.5 | - | Vivado2021.2 |

Table 2: Example Implementation Statistics for Versal device.

More details of the TOExxG-IP are described in its datasheet which can be downloaded from Design Gateway’s website at the following links:

Design Gateway's NVMe Host Controller IP performance

NVMe Storage interface speed with PCIe Gen3 x4 or PCIe Gen4 x4 has data rates up to 32 Gbps and 64 Gbps. This is three to six times higher than 10GbE Ethernet speed. Processing complicated NVMe storage protocol by the CPU to achieve the highest possible disk access speed requires more CPU time than TCP protocol over 10GbE.

Design Gateway solved this problem by developing the NVMe IP core that is able to run as a standalone NVMe host controller, able to communicate with an NVMe SSD directly without the CPU. This enables a high efficiency and performance of the NVMe PCIe Gen3 and Gen4 SSD access, which simplifies the user interface and standard features for ease of usage without needing knowledge of the NVMe protocol. NVMe PCIe Gen4 SSD performance can achieve up to a 6 GB/s transfer speed with NVMe IP as shown in Figure 6.

Image of performance comparison of NVMe PCIe Gen3 and Gen4 SSDFigure 6: Performance comparison of NVMe PCIe Gen3 and Gen4 SSD with Design Gateway's NVMe-IP Core. (Image source: Design Gateway)

Design Gateway's NVMe-IP’s for Versal devices

NVMe-IP 系统概述图图 7:NVMe-IP 系统概述。(图片来源:设计网关)

NVMe-IP的功能

  • 能够实现应用层、事务层、数据链路层和物理层的某些部分,无需CPU或外部DDR存储器即可访问NVMe SSD
  • 与赛灵思 PCIe 第 3 代和第 4 代硬 IP 配合使用
  • 能够利用BRAM和URAM作为数据缓冲区,而无需外部存储器接口
  • 支持六个命令:识别、关机、写入、读取、SMART 和刷新(提供可选的附加命令支持)

XCVC1902-VSVA2197-2MP-E-S FPGA 器件上的 FPGA 资源使用情况如表 2 所示。

| | 家庭 | 示例设备 | 最大频率 (兆赫) | 负载均衡注册 | 负载均衡 LUT | 片 | IOB | 布拉姆蒂勒^1^ | 乌兰 | 设计工具 |
| ---------------- | -------------------------- | ------------------- | -------------- | -------------- | ------ | ----- | ---------------- | ------ | ------------ |
| Versal AI Core | XCVC1902-VSVA2197-2MP-ES | 375 | 6280 | 3948 | 1050 | - | 4 | 8 | 万岁2022.1 |

表 3:Versal 设备的实现统计信息示例。

有关 Versal 器件的 NVMe-IP 的更多详细信息,请参见其数据表,可通过以下链接从 Design Gateway 的网站下载:

面向第四代赛灵思的 NVMe IP 核数据表

结论

TOExxG-IP 和 NVMe-IP 内核都可以通过将 CPU 系统从计算和内存密集型协议(如 TCP 和 NVMe 存储协议)中完全卸载来帮助加速 AI 应用程序性能,这对于实时 AI 应用程序至关重要。这使得赛灵思的 Versal AI Core 系列器件能够执行 AI 推理和高性能计算应用,而不会出现网络和数据存储协议处理的瓶颈或延迟。

VCK190 评估套件和 Design Gateway 的网络和存储 IP 解决方案可在 Xilinx 的 Versal AI Core 器件上以尽可能低的 FPGA 资源使用量和极高的能效在 AI 应用中实现最佳性能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网关
    +关注

    关注

    9

    文章

    6429

    浏览量

    55551
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Jtti设计网络态势感知测试海外VPS:安全评估与实施方案

    全球化网络环境中,海外VPS的安全性能测试已成为企业网络安全建设的核心环节。本文将系统解析如何通过设计网络态势感知测试方案,有效评估海外虚
    的头像 发表于 10-11 11:48 303次阅读

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    应用。 为什么选择 Neuton 作为开发人员,在产品中使用边缘人工智能的两个最大障碍是: ML 模型对于您所选微控制器的内存来说太大。 创建自定义 ML 模型本质是一个手动过程,需要高度的数据科学知识
    发表于 08-31 20:54

    AI 边缘计算网关:开启智能新时代的钥匙​—龙兴物联

    顺畅地通向云端,实现设备与云端之间高效的数据传输与交互。通过融合先进的边缘计算和人工智能技术,AI 边缘计算网关能够靠近数据源的网络边缘,对数据进行实时处理和精准分析,进而实现智能
    发表于 08-09 16:40

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    ,技术自主可控 如今这个科技竞争激烈的时代,国产化硬件的重要性不言而喻。比邻星人工智能综合实验箱就做到了这一点,采用国产化硬件,积极推进全行业产业链上下游环节的国产化进程,把国产自主可控的软硬件平台
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    ,技术自主可控 如今这个科技竞争激烈的时代,国产化硬件的重要性不言而喻。比邻星人工智能综合实验箱就做到了这一点,采用国产化硬件,积极推进全行业产业链上下游环节的国产化进程,把国产自主可控的软硬件平台
    发表于 08-07 14:23

    AMD Versal自适应SoC使用QEMU+协同仿真示例

    Cortex A72 (QEMU) 运行的固件进行仿真,该固件会访问当前 AMD Vivado Design Suite 仿真中正在进行仿真的 PL 中的 IP。本文将使用 Versal VCK190 和 Vivado 20
    的头像 发表于 08-06 17:21 1683次阅读
    <b class='flag-5'>在</b>AMD Versal自适应SoC<b class='flag-5'>上</b>使用QEMU+协同仿真示例

    是德示波器DSOX6002A人工智能芯片测试中的应用

    功能,AI芯片的研发、验证和量产测试中扮演着关键角色。本文将从信号完整性、电源完整性、时序分析、调试优化及一致性测试等方面深入探讨其应用。 一、AI芯片测试的核心挑战与示波器的关键作
    的头像 发表于 07-31 17:30 665次阅读
    是德示波器DSOX6002A<b class='flag-5'>在</b><b class='flag-5'>人工智能</b>芯片<b class='flag-5'>测试</b>中的应用

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    固态电池测试套件

    电极压实与界面优化,加速工艺突破 测试流程 首先将固态粉末放入STBE-SF10固态扣式电池装置 STBE-SF10固态扣式电池装置是一款应用于固态电池的专用测试装置,夹具由压杆、下
    发表于 07-25 17:15

    爱立信携手超微加速边缘人工智能部署

    爱立信与超微 Supermicro近日宣布有意开展战略合作,加速边缘人工智能部署。
    的头像 发表于 06-17 09:42 1.5w次阅读

    STM32N6570-DK:边缘人工智能开发的全能探索板

    STM32N6570-DKDiscovery套件是一款专为边缘人工智能开发设计的完整演示和开发平台,基于ArmCortex-M55内核的STM32N657X0H3Q微控制器。该套件集成
    的头像 发表于 05-06 16:00 1116次阅读
    STM32N6570-DK:边缘<b class='flag-5'>人工智能</b>开发的全能探索板

    开售RK3576 高性能人工智能主板

    ,HDMI-4K 输出,支 持千兆以太网,WiFi,USB 扩展/重力感应/RS232/RS485/IO 扩展/I2C 扩展/MIPI 摄像头/红外遥控 器等功能,丰富的接口,一个全新八核拥有超强性能的人工智能
    发表于 04-23 10:55

    Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用

    -Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用 Cognizant将在关键增长领域提供解决方案,包括企业级AI智能体、定制化行业大型语言模型及搭载N
    的头像 发表于 03-26 14:42 578次阅读
    Cognizant将与NVIDIA合作部署神经<b class='flag-5'>人工智能</b>平台,<b class='flag-5'>加速</b>企业<b class='flag-5'>人工智能</b>应用

    Reddit测试人工智能问答功能Reddit Answers

    近日,Reddit公司宣布了一项重要的新功能测试计划,旨在通过人工智能技术为用户提供更加便捷的问答体验。这项新功能被命名为Reddit Answers。 据Reddit官方介绍,Reddit
    的头像 发表于 12-12 09:46 964次阅读

    Banana Pi 携手 ArmSoM 推出人工智能加速 RK3576 CM5 计算模块

    的直接替代品。 ArmSoM 在其创建过程中写道:“ArmSoM-CM5 是一款由 Rockchip RK3576 第二代 8nm 高性能 AIOT(人工智能物联网)平台驱动的计算模块。它集成了四核
    发表于 12-11 18:38