0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

赛灵思AI引擎简介

YCqV_FPGA_EETre 来源:FPGA开发圈 2020-09-03 09:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Versal ACAP 简介

Versal 自适应计算加速平台 (ACAP) 是基于 TSMC 7nm FinFET 工艺技术构建的最新一代赛灵思器件。它利用高带宽片上网络 (NoC) 将代表处理器系统 (PS) 的标量引擎、代表可编程逻辑 (PL) 的自适应引擎与智能引擎有机结合在一起。

本文将着重介绍智能引擎中所包含的 AI 引擎。

赛灵思 AI 引擎简介

在部分赛灵思 Versal ACAP 中包含了 AI 引擎。这些 AI 引擎可排列组合为一组与内存、数据流和级联接口相连的二维AI 引擎拼块阵列。在当前 ACAP 器件(例如,VC1902 器件)上,此阵列最多可包含 400 个拼块。此阵列中还包含AI 引擎接口(位于最后一行),以便于阵列中的其它器件(PS、PL 和 NoC)进行交互。

AI 引擎接口包含PL 和 NoC 接口拼块以及配置拼块。从 PL 到 AI 引擎阵列的连接是使用 AXI4-Stream 接口通过 PL 和 NoC 接口拼块来实现的。从 NoC 到 AI 引擎阵列的连接是使用 AXI4 存储器映射接口通过 NoC 接口拼块来实现的。

有趣的是,从中可以看到,只有在 NoC 到 AI 引擎拼块之间才存在 AXI4 存储器映射直接通信通道,在 AI 引擎拼块到 NoC 之间却并不存在。

注:PL 和 NoC 接口拼块的精确数量因器件而异。《Versal 架构和产品数据手册:简介》(DS950)中罗列了 AI 引擎阵列的大小。

https://china.xilinx.com/support/documentation/data_sheets/ds950-versal-overview.pdf

AI 引擎拼块架构

现在,我们来详细了解下此阵列,看看 AI 引擎拼块的内部。

每个 AI 引擎拼块都包含:

1 个拼块互连模块,用于处理 AXI4-Stream 和存储器映射 AXI4 输入/输出

1 个存储器模块,其中包含 32 KB 数据内存,细分为 8 个内存 bank、1 个内存接口、DMA 和各种锁定。

1 个 AI 引擎

AI 引擎可访问全部 4 个方向中的多达 4 个内存模块(作为 1 个连续存储器块)。这意味着除了拼块本地的内存,AI 引擎还可以访问 3 个相邻拼块的本地内存(除非拼块位于阵列边缘)。

北侧内存模块

南侧内存模块

东侧或西侧内存模块(取决于 AI 引擎和内存模块所在的行和相对布局)。

AI 引擎架构

AI 引擎属于高度优化的处理器,包含下列主要特色:

32 位标量 RISC 处理器(名为 Scalar Unit)

1 个 512b SIMD 矢量单元(可提供矢量定点/整数单元)和 1 个单精度浮点 (SPFP) 矢量单元

3 个地址生成器单元 (AGU)

超长指令字 (VLIW) 功能

3 个数据内存端口(2 个负载端口,1 个存储端口)

直接流传输接口(2 个输入流,2 个输出流)

AI 引擎阵列编程

AI 引擎拼块按 10 或 100 为单位组成阵列。创建嵌入多项指令的单一程序用于指定并行性将是一项冗长且近乎不可能的任务。因此 AI 引擎阵列模型编程与 Kahn 处理网络 (Kahn Process Networks) 之间的共通之处在于自主计算进程通过通信边缘实现彼此互连,从而生成处理网络。

(请参阅https://perso.ensta-paris.fr/~chapoutot/various/kahn_networks.pdf)

在 AI 引擎框架中,Graph 边缘是缓存和数据流,而计算进程则被称为内核。在Graph中,内核经过例化,彼此相连并连接到设计其余部分(NoC 或 PL)。

编程流程分为 2 个阶段:

单内核编程:

内核用于描述特定计算进程。每个内核都将在单一 AI 引擎拼块上运行。但请注意,多个内核可在同一个 AI 引擎拼块上运行,并共享处理时间。任意 C/C++ 代码均可用于对 AI 引擎进行编程。标量处理器将处理大部分代码。如果您的目标是设计高性能内核,那么应考虑采用矢量处理器,它使用称为内部函数的专用函数。这些函数专用于 AI 引擎的矢量处理器,支持您从 AI 引擎中发掘出巨大的处理性能。赛灵思将提供预构建内核(包含在库内),以供用户在其定制 Graph 中使用。

Graph 编程:

赛灵思将提供 C++ 框架以从内核创建Graph。此框架包含 Graph 节点和连接声明。这些节点可包含在 AI 引擎阵列内或可编程逻辑(HLS 内核)中。为了完全掌握内核位置,将有一系列方法可用来约束布局(内核、缓存、系统内存等)。Graph 将例化并使用缓存和数据流将内核连接在一起。它还将描述 AI 引擎阵列与其它ACAP 器件(PL 或 DDR)之间的双向往来数据传输。

赛灵思将提供预构建 Graph(包含在库内),以供用户在其应用中使用。

在运行时以及仿真期间,AI 引擎应用由 PS 进行控制。

赛灵思将根据应用的操作系统提供多种 API,如下所述。

Xilinx Run Time (XRT) 和 OpenCL,适用于 Linux 应用

裸机驱动程序

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能引擎
    +关注

    关注

    0

    文章

    7

    浏览量

    7197
  • 处理器系统
    +关注

    关注

    0

    文章

    10

    浏览量

    7897
  • Versal
    +关注

    关注

    1

    文章

    172

    浏览量

    8384

原文标题:【工程师必看】 Versal ACAP AI 引擎入门

文章出处:【微信号:FPGA-EETrend,微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    晶振:高端装备的“数字心脏”,为何AI时代更离不开它?

    ”。从数据中心的万亿参数训练到工业机器人的精密协同,晶振系列产品以其精准控制,为智能世界注入稳定心跳。01晶振:数字世界的“指挥家”,AI系统的同步基石在AI
    的头像 发表于 10-17 10:21 354次阅读
    <b class='flag-5'>赛</b><b class='flag-5'>思</b>晶振:高端装备的“数字心脏”,为何<b class='flag-5'>AI</b>时代更离不开它?

    力斯凤凰与火山引擎达成战略合作

    近日,力斯发布公告,旗下子公司重庆凤凰技术有限公司(简称“力斯凤凰”)当日与字节跳动旗下火山引擎签署《具身智能业务合作框架协议》。
    的头像 发表于 10-16 14:09 404次阅读

    浙江电子科技有限公司产品手册-元器件

    元器件产品选型手册
    发表于 09-23 16:47 0次下载

    【作品合集】汇博SEEK100开发板测评

    SEEK100开发板开箱&amp;简介 【汇博SEEK100开发板试用体验】02 环境搭建及新建测试工程 【汇博SEEK100开发板试用体验】03 简约风天气APP开发--首页UI布局
    发表于 09-15 10:24

    特威第二届机器视觉方案大会圆满收官

    近日,由易特威联合举办的第二届机器视觉方案大会在深圳福田会展中心成功举行。本次大会以技术驱动与应用落地为核心,汇聚了行业专家、合作伙伴与资深工程师,共同探讨了机器视觉领域的前沿技术与未来趋势。
    的头像 发表于 09-02 12:51 679次阅读

    特威第二届机器视觉大会即将举办

    去年盛夏,首届易特威机器视觉技术大会点燃了行业创新的火花。易惊艳亮相的 TJ375 FPGA与
    的头像 发表于 08-13 09:53 694次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(
    发表于 07-16 15:29

    快讯 | 嘉兴市委书记陈伟一行莅临调研

    深化“教科人”一体、产学研融合!#嘉兴市委书记#陈伟一行莅临调研,副总经理田永和等陪同调研。5月16日下午,市委书记陈伟在南湖区走访创新平台、科技型企业,专题调研人才工作。他强
    的头像 发表于 05-23 10:22 731次阅读
    <b class='flag-5'>赛</b><b class='flag-5'>思</b>快讯 | 嘉兴市委书记陈伟一行莅临<b class='flag-5'>赛</b><b class='flag-5'>思</b>调研

    Deepseek海SD3403边缘计算AI产品系统

    SD3403边缘计算AI框架,提供了一套开放式AI训练产品工具包,解决客户低成本AI系统,针对差异化AI 应用场景,自己采集样本数据,进
    发表于 04-28 11:05

    ×火山引擎 | 高精度同步时钟助力字节跳动华东地区首个算力中心落地

    同步时钟全方位赋能火山引擎长三角算力中心,助力字节跳动火山引擎打造“云上新宇宙”。
    的头像 发表于 03-31 14:44 884次阅读
    <b class='flag-5'>赛</b><b class='flag-5'>思</b>×火山<b class='flag-5'>引擎</b> | 高精度同步时钟助力字节跳动华东地区首个算力中心落地

    ×字节跳动 高精度同步时钟助力火山引擎打造“云上新宇宙”

    摘要: 同步时钟将对火山引擎长三角算力中心进行从基础设施到业务引擎的全方位赋能,助力字节跳动旗下火山引擎打造“云上新宇宙”。 火山
    的头像 发表于 03-28 09:11 682次阅读
    <b class='flag-5'>赛</b><b class='flag-5'>思</b>×字节跳动  高精度同步时钟助力火山<b class='flag-5'>引擎</b>打造“云上新宇宙”

    MWC2025|5G与AI的深度融合势不可挡,高精度时钟同步为其筑基!

    从5G到AI时钟同步及SLIC语音产品及方案持续领跑!
    的头像 发表于 03-07 15:50 1131次阅读
    MWC2025|5G与<b class='flag-5'>AI</b>的深度融合势不可挡,<b class='flag-5'>赛</b><b class='flag-5'>思</b>高精度时钟同步为其筑基!

    国产EDA亿®接入DeepSeek

    国产EDA软件亿(eLinx)软件接入DeepSeek,为EDA行业注入变革性力量,开启FPGA应用开发的崭新篇章。通过集成DeepSeek插件,eLinx软件构建起连接FPGA开发的高效桥梁
    的头像 发表于 02-21 17:26 1320次阅读
    国产EDA亿<b class='flag-5'>灵</b><b class='flag-5'>思</b>®接入DeepSeek

    什么是AI查询引擎

    AI 查询引擎可高效处理、存储和检索大量数据,以增强生成式 AI 模型的输入。
    的头像 发表于 01-10 10:00 2367次阅读

    低温失效的原因,有没有别的方法或者一些见解?

    低温失效的原因,有没有别的方法或者一些见解。就是芯片工作温度在100°--40°区间,然后呢我们到了0°以下就不工作了,然后在低温的情况下监测了电流和电压都正常,频率也都正常,频率不是FPGA的频率是晶振的频率,焊接的话七
    发表于 12-30 16:28