Achronix新推出一款用于AI/ML计算或者大模型的B200芯片-电子发烧友网

近日举办的GTC大会把人工智能/机器学习（AI/ML）领域中的算力比拼又带到了一个新的高度，这不只是说明了通用图形处理器（GPGPU）时代的来临，而是包括GPU、FPGA和NPU等一众数据处理加速器时代的来临，就像GPU以更高的计算密度和能效胜出CPU一样，各种加速器件在不同的AI/ML应用或者细分市场中将各具优势，未来并不是只要贵的而是更需要对的。

此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点，它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。在其他算力器件品种中也是如此，AI/ML计算尤其是推理应用需要一种专为高带宽工作负载优化的新型FPGA，下面我们以Achronix的Speedster7t FPGA芯片为例来看看技术的演进方向，以及在实际推理应用中展现出来的在性价比和能效比等方面优于先进GPU的特性。

先来快速看看Speedster7t的产品亮点：该器件集成了800K到1500K等效逻辑单元以及326K到692K 6输入查找表（LUT），高达120T算力的机器学习处理单元(MLP),同时还配备了高性能存储和I/O接口，以及最高可达190Mb的嵌入式存储容量。在外部连接接口部署上，Speedster7t包含16个GDDR6通道，可提供高达4 Tbps的高速存储带宽；32对SerDes通道，支持1-112Gbps的数据速率；4个400G以太网端口（4× 400G或16× 100G）和2个PCIe Gen5端口，支持16通道（×16）和8通道（×8）配置。

Achronix的Speedster7t FPGA芯片被用户认为非常适合AI/ML推理原因是：足够的算力，灵活可配的计算精度；高带宽大容量低成本的GDDR6（4Tbps带宽， 32GB容量）；革命性的全新二维片上网络（2D NoC）路由架构；灵活通用的芯片间互联；支持用户基于该芯片开发自定义的推理系统，比如单板多片FPGA甚至多板互联以组成更高性能（如1TBbps/64GB，2TBbps/128GB, 4TBbps/256GB…等更高带宽和更大容量的计算存储）以支持更大或超大模型推理部署。

简而言之，相比传统的推理算力平台，Speedster7t FPGA可以提供更高性价比和能耗比的大模型推理能力；另外，在传统的FPGA处理功能中，越来越多的用户在该系统中加入机器学习的能力， Speedster7t FPGA能很好胜任传统FPGA功能和高性能机器学习融合在一起。

一类创新性的高性能FPGA系列产品

Achronix Speedster7t系列FPGA基于革命性的FPGA架构，该架构经过了高度优化提供了高速、高带宽内外连接，可以满足日益增长的人工智能/机器学习、网络密集型和数据加速应用的需求。Speedster7t系列FPGA芯片具有一个革命性的全新二维片上网络，以及一个针对人工智能/机器学习进行优化的高密度的机器学习处理单元阵列。通过将FPGA的可编程性与类似ASIC路由架构和计算引擎相结合，Speedster7t系列提高了高性能FPGA的标准。

全新的二维片上网络（2D NoC）提供ASIC级别的性能

Speedster7t系列FPGA芯片具有革命性的2D NoC，可在整个FPGA逻辑阵列中传输数据，并将数据传输到高性能I/O和内存子系统，同时可提供高达20 Tbps的总带宽。凭借2D NoC，在Speedster7t FPGA芯片不需要消耗任何可编程逻辑资源的情况下来进行数据传输。在该芯片上的2D NoC提供了20 Tbps的二维片上网络总带宽；该2D NoC不仅覆盖了芯片全域，而且还连接到各类高速接口和总带宽高达4 Tbps的高速存储接口。

高速接口

无论是支持输入和输出的数据流，还是存储缓冲这些数据，对于高性能计算、机器学习和硬件加速解决方案而言，都需要在片内和片外传输数据。Speedster7t系列FPGA芯片的架构可支持前所未有的带宽。包括：

400G以太网：Speedster7t系列FPGA芯片支持多达4个400GbE端口或16个100GbE端口，通过2D NoC连接到FPGA逻辑。

PCI Express Gen5：Speedster7t系列FPGA芯片配备了多个PCle Gen5接口，支持速率达32GT/s。

存储接口：GDDR6 + DDR4/5

Speedster7t器件是唯一在片上支持GDDR6存储器的FPGA，以最低的DRAM成本（每存储位）提供最快的SD RAM访问速度。Speedster7t系列FPGA芯片具有高达4 Tbps的GDDR6带宽，以很低的成本就可提供相当于基于HBM的FPGA存储器带宽。Speedster7t系列FPGA芯片包括了DDR4/5存储器接口，以支持更深入的缓冲需求。PHY和控制器支持由JEDEC规范定义的所有标准功能。

机器学习处理单元

每个Speedster7t FPGA器件都具有可编程的数学计算单元，这些单元被集成至全新的机器学习处理单元（MLP）模块中。每个MLP都是一个高度可配置的计算密集型模块，具有多达32个乘法器/累加器（MAC），支持4到24位整数格式和各种浮点模式，包括Tensorflow的bfloat16格式以及高效的块浮点格式，大大提高了性能。

MLP模块包括紧密集成的嵌入式存储器模块，以确保机器学习算法将以750 MHz的最高性能运行。这种高密度计算和高性能数据传输的结合造就了高性能机器学习处理结构，该结构可提供市场上基于FPGA的极高TOPS级别运算能力（TOPS即Tera-Operations Per Second，每秒万亿次运算）。

图中文字说明：Register File - 寄存器文件，Fracturable Adder/Accumulator - 可拆分的加法器/累加器，Float MAC - 浮点乘累加单元（MAC），Memory Cascade in - 存储器级联，Operand Cascade in - 操作数级联。 设计工具支持

Achronix Tool Suite工具套件是一个支持所有Achronix硬件产品的工具链。它可与行业标准的逻辑综合和仿真工具结合使用，从而使FPGA设计人员能够轻松地将其设计映射到Speedster7t FPGA器件中。Achronix Tool Suite工具套件包括Synopsys的Synplify Pro的优化版本和Achronix Snapshot调试器。Achronix仿真库由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO提供支持。

展望：在推理等领域帮助开发者打造综合性能优于先进GPU的应用

随着AI/ML技术在各个领域开始广泛走进应用，Achronix根据Speedster7t FPGA器件的高性能和高带宽特性，选择了推理这一个应用面非常广的技术市场方向，与合作伙伴加大了在Speedster7t FPGA器件上的推理算法和IP的研发，以期帮助更多的创新者实现突破。

该芯片提供了足够的算力，并利用其片上搭载的二维片上网络（2D NoC）和机器学习处理单元（MLP），各种高速接口和GDDR6高带宽存储接口，提供了用于大规模推理应用需要的计算器件内外连接、硬件加速和存储调用等新技术，从而可以支持开发者快速去实现创新。

这个策略取得了显著的成果，其中一个领域是加速自动语言识别（ASR）解决方案，它由搭载Speedster7t FPGA器件的VectorPath加速卡提供支持，运行Myrtle.ai提供的基于Achronix FPGA的ASR IP，从而提供业界领先的、实时的、超低延迟的语音转文本功能。运行在服务器中的单张VectorPath加速卡可替代多达20台仅基于CPU的服务器或10张GPU加速卡。

Speedster7t FPGA的技术创新为人工智能推理带来了更高性价比和更高能效比以及可以让用户开发自定义的推理硬件平台和系统。在ASR实际性能方面，其出色的超低单词错误率和仅有最先进GPU解决方案八分之一以下的端到端延迟（包括了预处理和后处理以及与CPU做数据交互的时间）颠覆了ASR领域。该解决方案可以在标准的机器学习框架中使用垂直应用特定的或自定义的数据集进行定制或重新训练。

对于越来越多的其他的推理应用，Speedster7t FPGA的独创高带宽架构也可以为这些应用提供有力的支撑。Achronix正在通过不断研发，以完善其工具链和应用生态，将在2024年推出更好的工具来帮助各种推理应用的开发，使众多的用户更加便捷地使用Speedster7t FPGA器件或者VectorPath加速卡来实现性价比和能效提升，而不用去争抢紧俏的高性能GPU加速卡。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43865

浏览量
230618
图形处理器

图形处理器

+关注

关注
0

文章
185

浏览量
24901
机器学习

机器学习

+关注

关注
66

文章
8124

浏览量
130567
FPGA器件

FPGA器件

+关注

关注
1

文章
22

浏览量
11571
GDDR6

GDDR6

+关注

关注
0

文章
51

浏览量
11186

原文标题：新型的FPGA器件将支持多样化AI/ML创新进程

文章出处：【微信号：Achronix，微信公众号：Achronix】欢迎添加关注！文章转载请注明出处。

新型的FPGA器件将支持多样化AI/ML创新进程

的来临，而是包括GPU、FPGA和NPU等一众数据处理加速器时代的来临，就像GPU以更高的计算密度和能效胜出CPU一样，各种加速器件在不同的AI/ML应用或者细分市场中将各具优势，未来

发表于 04-02 15:25 •142次阅读

新型的FPGA器件将支持多样化<b class='flag-5'>AI</b>/<b class='flag-5'>ML</b>创新进程

英伟达发布新一代AI芯片B200

在美国加州圣何塞举办的英伟达GTC生态大会上，英伟达CEO黄仁勋以一场震撼人心的演讲，正式推出了公司的新一代GPU——Blackwell。作为Blackwell家族的首款芯片，B200以其前所未有的性能表现和革命性的技术创新，再

发表于 03-20 10:07 •335次阅读

英伟达发布性能大幅提升的新款B200 AI GPU

英伟达宣称，B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上一代，运算能力飞跃性提升，甚至能使大语言模型的训练速度翻番。

发表于 03-20 09:37 •214次阅读

戴尔发布英伟达B200 AI GPU：高功耗达1000W，创新性冷却工程设计必要

市场传言，这款B200虽然运算性能更强，却又面临着惊人的能耗，最高或可至1000W，同比H100增长超过40%。由于搭载Hopper架构及HBM3e高带宽内存，英伟达B200被行业视为运行速度最高的AI

发表于 03-05 09:30 •1298次阅读

是德科技推出AI数据中心测试平台旨在加速AI/ML网络验证和优化的创新

2024年2月29日，是德科技（Keysight Technologies,Inc.）宣布，针对人工智能（AI）和机器学习（ML）基础设施生态系统，推出了 AI数据中心测试平台，旨在加

发表于 02-29 09:32 •249次阅读

是德科技<b class='flag-5'>推出</b><b class='flag-5'>AI</b>数据中心测试平台旨在加速<b class='flag-5'>AI</b>/<b class='flag-5'>ML</b>网络验证和优化的创新

DP9503芯片的multisim模型

请问multisim中没有DP9503B这个芯片的模型，需要怎么找啊？这个芯片是一款非隔离LED恒流驱动

发表于 01-09 11:54

AI大模型怎么解决芯片过剩?

AI大模型

电子发烧友网官方
发布于 :2024年01月02日 15:42:05

英伟达推出新款AI芯片H200 性能飙升90%但是估计依然被出口管制

生成式AI火爆全球之后，英伟达的AI芯片一张难求，就在英伟达重量级选手H100 AI芯片目前依然是一货难求的情况下，英伟达

发表于 11-14 16:45 •991次阅读

一款国产USB3.0HUB集线器芯片

*附件：和芯润德 USB3.0HUB 设计资料.rar 推荐一款国产 USB3.0 HUB芯片，型号SL6340 推荐一款国产3.0HUB，型号SL6340，是一款由和芯润德科技自主研

发表于 10-20 18:20

【KV260视觉入门套件试用体验】Vitis AI 构建开发环境，并使用inspector检查模型

量化七、Vitis AI 通过迁移学习训练自定义模型八、Vitis AI 将自定义模型编译并部署到KV260中铺垫 Vitis AI

发表于 10-14 15:34

Achronix“内外兼修”赋能AI/ML数据加速

来源：Achronix 新推出的Achronix网络基础架构代码提供400 GbE传输速度和PCIe Gen 5.0功能作为业内唯一一家既可以提供高端FPGA芯片以及对应的PCIe加

发表于 08-02 17:25 •574次阅读

用于区分人类和大象的ML模型

电子发烧友网站提供《用于区分人类和大象的ML模型.zip》资料免费下载

发表于 06-14 11:02 •0次下载

NVIDIA推出DGX GH200 AI超级计算机

——2023年5月29日—— NVIDIA今天宣布推出一款新型大内存AI超级计算机——由NVIDIA® GH200 Grace Hoppe

发表于 05-30 14:15 •449次阅读

COMPUTEX2023 | NVIDIA 推出 DGX GH200 AI 超级计算机

—2023 年 5 月 29 日— NVIDIA 今天宣布推出一款新型大内存 AI 超级计算机——由 NVIDIA GH200 Grace

发表于 05-30 01:40 •1517次阅读

将ML模型推向边缘实现了AI的新用例

如前文所讨论的那样，ML模型通常依赖于大量的并行运算。本质上讲，它们需要原始的计算能力。但是，在算力和设备消耗的实际功率之间始终要进行权衡与取舍。要将ML

发表于 05-09 09:51 •618次阅读