0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新型的FPGA器件将支持多样化AI/ML创新进程

半导体芯科技SiSC 来源:半导体芯科技SiSC 作者:半导体芯科技SiS 2024-04-02 15:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:郭道正

职务:Achronix半导体中国区总经理

近日举办的GTC大会把人工智能/机器学习AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代的来临,而是包括GPU、FPGA和NPU等一众数据处理加速器时代的来临,就像GPU以更高的计算密度和能效胜出CPU一样,各种加速器件在不同的AI/ML应用或者细分市场中将各具优势,未来并不是只要贵的而是更需要对的。

此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点,它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。在其他算力器件品种中也是如此,AI/ML计算尤其是推理应用需要一种专为高带宽工作负载优化的新型FPGA,下面我们以Achronix的Speedster7t FPGA芯片为例来看看技术的演进方向,以及在实际推理应用中展现出来的在性价比和能效比等方面优于先进GPU的特性。

先来快速看看Speedster7t的产品亮点:该器件集成了800K到1500K等效逻辑单元以及326K到692K 6输入查找表(LUT),高达120T算力的机器学习处理单元(MLP),同时还配备了高性能存储和I/O接口,以及最高可达190Mb的嵌入式存储容量。在外部连接接口部署上,Speedster7t包含16个GDDR6通道,可提供高达4 Tbps的高速存储带宽;32对SerDes通道,支持1-112Gbps的数据速率;4个400G以太网端口(4× 400G或16× 100G)和2个PCIe Gen5端口,支持16通道(×16)和8通道(×8)配置。

Achronix的Speedster7t FPGA芯片被用户认为非常适合AI/ML推理原因是:足够的算力,灵活可配的计算精度;高带宽大容量低成本的GDDR6(4Tbps带宽, 32GB容量);革命性的全新二维片上网络(2D NoC)路由架构;灵活通用的芯片间互联;支持用户基于该芯片开发自定义的推理系统,比如单板多片FPGA甚至多板互联以组成更高性能(如1TBbps/64GB,2TBbps/128GB, 4TBbps/256GB…等更高带宽和更大容量的计算存储)以支持更大或超大模型推理部署。

简而言之,相比传统的推理算力平台,Speedster7t FPGA可以提供更高性价比和能耗比的大模型推理能力;另外,在传统的FPGA处理功能中,越来越多的用户在该系统中加入机器学习的能力, Speedster7t FPGA能很好胜任传统FPGA功能和高性能机器学习融合在一起。

一类创新性的高性能FPGA系列产品

Achronix Speedster®7t系列FPGA基于革命性的FPGA架构,该架构经过了高度优化提供了高速、高带宽内外连接,可以满足日益增长的人工智能/机器学习、网络密集型和数据加速应用的需求。Speedster7t系列FPGA芯片具有一个革命性的全新二维片上网络,以及一个针对人工智能/机器学习进行优化的高密度的机器学习处理单元阵列。通过将FPGA的可编程性与类似ASIC路由架构和计算引擎相结合,Speedster7t系列提高了高性能FPGA的标准。

全新的二维片上网络(2D NoC)提供ASIC级别的性能

Speedster7t系列FPGA芯片具有革命性的2D NoC,可在整个FPGA逻辑阵列中传输数据,并将数据传输到高性能I/O和内存子系统,同时可提供高达20 Tbps的总带宽。凭借2D NoC,在Speedster7t FPGA芯片不需要消耗任何可编程逻辑资源的情况下来进行数据传输。在该芯片上的2D NoC提供了20 Tbps的二维片上网络总带宽;该2D NoC不仅覆盖了芯片全域,而且还连接到各类高速接口和总带宽高达4 Tbps的高速存储接口。

高速接口

无论是支持输入和输出的数据流,还是存储缓冲这些数据,对于高性能计算、机器学习和硬件加速解决方案而言,都需要在片内和片外传输数据。Speedster7t系列FPGA芯片的架构可支持前所未有的带宽。包括:

400G以太网:Speedster7t系列FPGA芯片支持多达4个400GbE端口或16个100GbE端口,通过2D NoC连接到FPGA逻辑。

PCI Express Gen5:Speedster7t系列FPGA芯片配备了多个PCle Gen5接口,支持速率达32GT/s。

存储接口:GDDR6 + DDR4/5

Speedster7t器件是唯一在片上支持GDDR6存储器的FPGA,以最低的DRAM成本(每存储位)提供最快的SDRAM访问速度。Speedster7t系列FPGA芯片具有高达4 Tbps的GDDR6带宽,以很低的成本就可提供相当于基于HBM的FPGA存储器带宽。Speedster7t系列FPGA芯片包括了DDR4/5存储器接口,以支持更深入的缓冲需求。PHY和控制器支持由JEDEC规范定义的所有标准功能。

机器学习处理单元

每个Speedster7t FPGA器件都具有可编程的数学计算单元,这些单元被集成至全新的机器学习处理单元(MLP)模块中。每个MLP都是一个高度可配置的计算密集型模块,具有多达32个乘法器/累加器(MAC),支持4到24位整数格式和各种浮点模式,包括Tensorflow的bfloat16格式以及高效的块浮点格式,大大提高了性能。

MLP模块包括紧密集成的嵌入式存储器模块,以确保机器学习算法将以750 MHz的最高性能运行。这种高密度计算和高性能数据传输的结合造就了高性能机器学习处理结构,该结构可提供市场上基于FPGA的极高TOPS级别运算能力(TOPS即Tera-Operations Per Second,每秒万亿次运算)。

wKgaomYLsuuAQtmXAACXryWEzHM364.jpg

图中文字说明:Register File - 寄存器文件,Fracturable Adder/Accumulator - 可拆分的加法器/累加器,Float MAC - 浮点乘累加单元(MAC),Memory Cascade in - 存储器级联,Operand Cascade in - 操作数级联。

设计工具支持

Achronix Tool Suite工具套件是一个支持所有Achronix硬件产品的工具链。它可与行业标准的逻辑综合和仿真工具结合使用,从而使FPGA设计人员能够轻松地将其设计映射到Speedster7t FPGA器件中。Achronix Tool Suite工具套件包括Synopsys的Synplify Pro的优化版本和Achronix Snapshot调试器。Achronix仿真库由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO提供支持。

展望:在推理等领域帮助开发者打造综合性能优于先进GPU的应用

随着AI/ML技术在各个领域开始广泛走进应用,Achronix根据Speedster7t FPGA器件的高性能和高带宽特性,选择了推理这一个应用面非常广的技术市场方向,与合作伙伴加大了在Speedster7t FPGA器件上的推理算法和IP的研发,以期帮助更多的创新者实现突破。

该芯片提供了足够的算力,并利用其片上搭载的二维片上网络(2D NoC)和机器学习处理单元(MLP),各种高速接口和GDDR6高带宽存储接口,提供了用于大规模推理应用需要的计算器件内外连接、硬件加速和存储调用等新技术,从而可以支持开发者快速去实现创新。

这个策略取得了显著的成果,其中一个领域是加速自动语言识别(ASR)解决方案,它由搭载Speedster7t FPGA器件的VectorPath加速卡提供支持,运行Myrtle.ai提供的基于Achronix FPGA的ASR IP,从而提供业界领先的、实时的、超低延迟的语音转文本功能。运行在服务器中的单张VectorPath加速卡可替代多达20台仅基于CPU的服务器或10张GPU加速卡。

Speedster7t FPGA的技术创新为人工智能推理带来了更高性价比和更高能效比以及可以让用户开发自定义的推理硬件平台和系统。 在ASR实际性能方面,其出色的超低单词错误率和仅有最先进GPU解决方案八分之一以下的端到端延迟(包括了预处理和后处理以及与CPU做数据交互的时间)颠覆了ASR领域。该解决方案可以在标准的机器学习框架中使用垂直应用特定的或自定义的数据集进行定制或重新训练。

对于越来越多的其他的推理应用,Speedster7t FPGA的独创高带宽架构也可以为这些应用提供有力的支撑。Achronix正在通过不断研发,以完善其工具链和应用生态,将在2024年推出更好的工具来帮助各种推理应用的开发,使众多的用户更加便捷地使用Speedster7t FPGA器件或者VectorPath加速卡来实现性价比和能效提升,而不用去争抢紧俏的高性能GPU加速卡。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1664

    文章

    22571

    浏览量

    640772
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5321

    浏览量

    136211
  • AI
    AI
    +关注

    关注

    91

    文章

    41976

    浏览量

    303077
  • ML
    ML
    +关注

    关注

    0

    文章

    154

    浏览量

    35555
  • 大模型
    +关注

    关注

    2

    文章

    3863

    浏览量

    5296
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    BERGQUIST热界面材料选型指南:满足多样化电子散热需求

    BERGQUIST热界面材料选型指南:满足多样化电子散热需求 在电子设备的设计中,热管理是一个至关重要的环节。有效的热管理能够确保电子设备在各种环境下稳定运行,延长其使用寿命。BERGQUIST作为
    的头像 发表于 05-16 14:30 513次阅读

    Altera发布FPGA AI套件

    近期,全球最大专注于FPGA解决方案的提供商Altera正式推出FPGA AI套件26.1.1版本,完成其AI软件平台的又一次重要升级。这款专为FP
    的头像 发表于 05-12 10:18 703次阅读

    连接器的多样化应用有哪些?

    可以传输电力、信号和数据等信息,广泛应用于计算机、通信、汽车、航空航天和医疗设备等领域中。连接器的多样化应用有哪些?
    的头像 发表于 04-16 16:47 245次阅读
    连接器的<b class='flag-5'>多样化</b>应用有哪些?

    飞凌嵌入式ElfBoard-进程的相关信息之父进程和子进程

    进程在创建时,创建进程新进程的父进程新进程是创建进程的子
    发表于 03-12 17:12

    Banana Pi开源硬件社区基于龙芯2K3000+多样化AI算力卡构建的全国产化工业边缘AI算力底盘

    智联万物,芯启未来 ——基于龙芯2K3000+多样化AI算力卡构建的 全国产化工业边缘AI算力底座 添加图片注释,不超过 140 字(可选) 在数字经济与人工智能深度融合的今天,大模型正从云端
    的头像 发表于 02-06 14:14 778次阅读
    Banana Pi开源硬件社区基于龙芯2K3000+<b class='flag-5'>多样化</b><b class='flag-5'>AI</b>算力卡构建的全国产化工业边缘<b class='flag-5'>AI</b>算力底盘

    飞凌嵌入式ElfBoard-进程之什么是进程

    的开始和结束在 Linux 操作系统中,程序是静态的可执行文件,而进程是动态的实体。从程序变为进程的过程涉及多个步骤,其中还包括系统资源的管理和初始。1.当用户在 Shell 中输入命令时,Shell
    发表于 01-26 08:42

    进程的控制

    进程控制的主要功能是对系统中的所有进程实施有效的管理,它具有创建新进程、撤销已有进程、实现进程状态转换等功能。在操作系统中,一般把
    发表于 01-15 06:05

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    、Transformer 模型的后继者 二、用创新方法实现深度学习AI芯片 1、基于开源RISC-V的AI加速器 RISC-V是一种开源、模块的指令集架构(ISA)。优势如下: ①模
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    AI的应用多种多样。比如:DALL-E2、Midjourney、Stable Diffusion等,不仅包括对话功能,还包括生成图像、视频、语音和程序代码等功能。 竟然连代码都可以生成,会取代程序员
    发表于 09-12 16:07

    AT_DEVICE支持ML307吗?

    这个到底支不支持ML305 ML307,图形界面有 ,但是保存配置后并没有这个文件,如果没有就在介绍上删掉吧,浪费一天时间加这个东西
    发表于 09-11 07:42

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    ,其中第一章是概论,主要介绍大模型浪潮下AI芯片的需求与挑战。第二章和第三章分别介绍实现深度学习AI芯片的创新方法和架构。以及一些新型的算法和思路。第四章是全面介绍半导体芯产业的前沿技
    发表于 09-05 15:10

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),在某些方面模仿并超越人类的视觉能力,从而推动创新应用。3D 视觉解决方案大致分为立体视觉、结构光和飞行时间 (TOF) 技术
    发表于 09-05 07:24

    接口多样化:M-ITX国产主板的丰富连接性能

    在数字化时代,设备间的互联互通愈发重要。对于主板而言,丰富且实用的接口不仅是连接外部设备的桥梁,更是决定其能否广泛应用于各种复杂场景的关键因素。高能计算机的国产飞腾主板GM-M201F-D作为一款标准M-ITX 主板,在接口设计上独具匠心,为用户带来了多样化的连接选择。
    的头像 发表于 08-14 09:22 905次阅读
    接口<b class='flag-5'>多样化</b>:M-ITX国产主板的丰富连接性能

    MCU AI/ML - 弥合智能和嵌入式系统之间的差距

    本文探讨MCU技术和AI/ML的交集,以及它如何影响低功耗边缘设备。同时讨论在电池供电设备的MCU上运行人工智能的困难、创新和实际应用场
    的头像 发表于 08-01 09:02 686次阅读

    AIBOX 产品矩阵:支持主流大模型的私有部署,满足个性 AI 应用需求

    AIBOX系列产品具备高性能、低功耗、环境适应性强等特点,算力覆盖6-157TOPS,通过搭配多样化深度学习算法,体积小巧,能够支持主流大模型的私有部署,为多个智慧行业进行数字赋能
    的头像 发表于 06-25 16:32 2132次阅读
    AIBOX 产品矩阵:<b class='flag-5'>支持</b>主流大模型的私有<b class='flag-5'>化</b>部署,满足个性<b class='flag-5'>化</b> <b class='flag-5'>AI</b> 应用需求