匹敌7nm GPU，燧原科技第二代云端AI推理卡发布，落地服务器、身份识别、车路协同等应用-电子发烧友网

数据算力需求的日益增长带动了AI 芯片行业的兴起，作为中国AI芯片的中坚力量，燧原科技聚焦于AI训练与推理不断推出芯片以及加速卡产品。12月7日，燧原科技重磅发布第二代云端人工智能推理加速卡“云燧i20”，这是时隔仅五个月，继今年7月发布云端人工智能训练加速卡“云燧T20”之后，燧原科技又推出的全新一代针对云端推理场景的AI加速产品。

燧原科技CEO赵立东和COO张亚林发布第二代云端AI推理产品

燧原科技CEO赵立东在发布会上表示，我们的第1代训练和推理产品已经在国家重点实验室、互联网、智慧城市、智慧金融等几大方向上实现了突破，已产生了过亿的订单和收入。在这个过程中，我们也通过多种业务模式和产学研结合，建立了强大的朋友圈和生态圈。随着第2代训练和推理两条产品线逐步量产，以及软件生态的不断优化和完善，业务的加速落地和规模化正按计划逐步实现。未来，我们除了继续大力拓展上述的几个业务方向之外，还会在高性能计算，交通和能源等领域投入资源，拓展商机。

从2017年到2023年，整个AI云端市场训练和推理产品比例在发生变化，推理产品比例在慢慢变高。基于这样的AI市场趋势，燧原科技COO张亚林表示，燧原科技也在做产品线拓展，AI的业务从传统的单一的机器视觉、声音、文字，还有决策、推荐等方向性的算法，已经变成多场景、多应用的落地，广泛分布在用户日常生活中。

12nm工艺打造的新一代“邃思”AI推理芯片

第二代云端推理加速卡云燧i20，基于新一代“邃思”AI推理芯片，它采用第二代高性能计算核心和数据引擎，由12nm工艺打造，通过架构升级，大大提高了单位面积的晶体管效率，从而实现了与目前业内7nm GPU相匹敌的计算能力。不仅如此，基于12nm成熟工艺带来的成本优势，使得云燧i20在相同性能表现下更具性价比优势。并且供应链体系更加稳定成熟，客户的业务需求可以得到及时满足。

燧原科技发布全新一代“邃思”云端AI推理芯片

具体来看，邃思推理芯片的计算架构具备全AI的算力空间，其中单精度FP32达到了32 TFLOPS，以及单精度张量TF32，达到了128 TFLOPS，它同样具备半精度BF16/FP16的算力，达到128 TFLOPS。最重要的在推理方面，提升整个整数精度INT8，达到256TOPS。也就是，从FP32到INT8，包含中间精度TF32、BF16、FP16五个精度构成了全AI算力空间，满足各种各样推理的客户需求。

邃思推理芯片用16位算力做到32位的精度效果。如何做到的？它具备TF32张量单精度，拥有4倍于FP32的算力，但是在整个模型上拥有99%的精度一致性。于是，就可以用4倍的FP32算力达到99%FP32的算力精度，这也是中国第一颗TF32的推理芯片。

邃思推理芯片的数据架构，拥有完全自研的SVS (Sparse Value Segment ) 数据压缩格式。它能够进行独立的分层压缩和硬件自动循环解压，使得所有的数据，特别是稀疏数据在传输过程之中，能够节省带宽和功耗。它支持硬件指令预取的操作，使得指令的预取、数据的传输和计算可以同时进行。进行并行的数据广播，使得同样的数据可以广播到多个处理器上进行并行执行。同时，它具有很强的动态功耗控制，让整个数据传输的动态功耗变得非常的有效。

在存储方面，燧原科技依然采用了业内最领先的HBM2E，由2颗HBM2E构建，单芯片容量达到16GB，最大带宽达到819GB/s，在整个封装上，依然采用2.5D的高级封装，整合了五颗芯片，它的整个封装尺寸达到了55毫米乘以55毫米。大芯片加上两颗HBM2E存储的护航，构建了计算加存储的互促，使得AI的推理在带宽、存储容量和算力上能够进行极致的发挥。

云燧i20加速卡性能显著提升

比上一代云燧i10相比，云燧i20在浮点32位、浮点16位、整点8位的算力，以及存储带宽，存储类型等方面都有巨大提升。云燧i20单精度FP32峰值算力达到32 TFLOPS，单精度张量TF32峰值算力达到128 TFLOPS，整型INT8峰值算力达到256 TOPS。对比第一代推理产品，云燧i20将浮点算力提升到1.8倍，整型算力提升到3.6倍。

燧原科技发布第二代人工智能推理加速卡“云燧i20”

和业内主流的GPU的次旗舰相比，云燧i20的浮点16位的算力、INT8的算力，都是其2倍，内存带宽是2.65倍。

基准测试部分，在业内的主流模型中以友商的GPU次旗舰为baseline，从图像分类、识别到目标检测到图像分割到图像超分等整个模型来看，云燧i20是友商的GPU次旗舰的2.5到3.7倍不等。

一个例子是，针对bert文本场景分析，每一个白色的框是一段文本，通过邃思推理芯片DTU和GPU的实时渲染和处理，分析出每一段文字的情感，这个情感用彩色框标注为各种情绪。运时显示，DTU整个分析速度明显加快，彩色的框出现的比率明显增高，频率也越来越快。同时，DTU的实时性能是GPU的2.5倍以上，而实时的延时DTU只有GPU的不到一半。

软件生态升级，搭建训推一体化

此次，在软件支持层面，升级后的“驭算TopsRider”软件栈，在性能、开发效率和模型覆盖面上得到大幅提升。通过引入通用高层图优化和大规模算子融合技术，充分释放了大容量片内存储和高带宽存储的利用率，将模型平均性能提升3.5倍，硬件算力利用率平均提升2倍；通过升级的编程模型以及算子自动分片、自动生成技术，自定义算子开发效率翻倍，模型迁移成本大大降低；此外，驭算增强了对动态性的支持，使云燧i20在检测、语音识别、语义理解等场景更具竞争力。

张亚林表示，T20和i20组合的训推一体化系统日臻完善，在TopsRider软件系统里，从高层的图优化到中间的算子库再到中间的编程模型，最后到底层的Runtime，四个阶段中分别统一了整个训练和推理引擎，使得用一套结构可以支持所有训练和推理软件栈，通过统一的表达，统一的训练推理的算子编程模型和Runtime，训练和推理栈进行了深度融合和充分泛化，在运用训推一体化时更高效、精密和兼容。

同时，我们支持Lazy、Graph、Eager、Trace mode四种图执行模式，这四种模式涵盖了广泛的框架和图执行，它能适配各种各样的训练和推理的场景。通过今天i20和i20相关匹配的DTU2.5和TopsRider2.5的发布，燧原科技已经拥有第二代全系统、全自主的技术栈。

云燧i20已量产应用

目前，已经有不少合作伙伴推出了基于燧原科技i20板卡的服务器产品，包括浪潮、华三和超威等等，产品涵盖4U到2U的服务器，搭配16张DTU的卡到2到4张DTU的卡，

比如，浪潮标准的4U服务器配置了16张i20板卡，以及2CPU，通过16张i20板卡，4U服务器能够提供非常高的算力密度。

浪潮信息副总裁刘军表示：“燧原科技是国产人工智能计算芯片的领军企业，浪潮信息与燧原科技通过元脑生态联合创新，在AI整机系统、AI算力优化、场景方案落地等多方面深入合作。此次云燧i20的发布，标志着燧原从训练到推理全面进入2.0时代，这也是国产AI算力发展的里程碑。我们期待和燧原一起紧密合作，共同推进中国人工智能产业的快速发展。”

此外，在身份证识别、人像卡通化、人体姿态检测、车路协同等应用场景，燧原云燧推理卡和相关识别技术的搭配，实现快速、精准的智能效果。

燧原科技以其国产AI算力产品为核心，以商业生态和科研生态为支撑，实现燧原科技的云端AI推理产品在互联网、金融、政务等多家客户的商业落地，并获得认可。在第一代训练和推理产品产生了过亿的订单和收入之后，相信第二代产品将加速向更多领域进行渗透。根据规划，面向训练和推理的下一代产品T30/T31,i30已经在研发中，三年完成两代产品迭代，随着燧原科技产品和技术路线图延伸，将有更多惊喜的产品和技术的展露。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

推理

推理

+关注

关注
0

文章
8

浏览量
7215
AI芯片

AI芯片

+关注

关注
17

文章
1646

浏览量
34369
燧原科技

燧原科技

+关注

关注
0

文章
98

浏览量
8143

台积电：AI服务器处理器预计翻番，拉动收入增长

台积电将 AI 服务器处理器严格限定为用于 AI 训练与推理的 GPU、CPU 及 AI 加速器

发表于 04-19 15:04 •83次阅读

AMD推出第二代Versal器件，为AI驱动型嵌入式系统提供端到端加速

Versal AI Edge 系列和第二代 Versal Prime 系列自适应 SoC，其将预处理、AI 推理与后处理集成于单器件中，能够为 A

发表于 04-10 10:25 •133次阅读

2024年全球与中国7nm智能座舱芯片行业总体规模、主要企业国内外市场占有率及排名

类型及应用 2.9 7nm智能座舱芯片行业集中度、竞争程度分析 2.9.1 7nm智能座舱芯片行业集中度分析：2023年全球Top 5生产商市场份额 2.9.2 全球7nm智能座舱芯片第一梯队、

发表于 03-16 14:52

瑞芯微第二代8nm高性能AIOT平台 RK3576 详细介绍

RK3576处理器 RK3576瑞芯微第二代8nm高性能AIOT平台，它集成了独立的6TOPS（Tera Operations Per Second，每秒万亿次操作）NPU（神经网络处理单元），用于

发表于 03-12 13:45

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •206次阅读

gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

gpu服务器是干什么的 gpu服务器与cpu服务器的区别 GPU

发表于 01-30 15:31 •309次阅读

超微gpu服务器评测

随着科技的不断发展和进步，GPU服务器在大数据分析、深度学习、人工智能等领域正变得越来越重要。而超微GPU服务器因其出色的性能和高度定制化的优势，成为了众多企业和研究机构的首选。本文将

发表于 01-10 10:37 •420次阅读

白皮书 | 第二代ClearClock™三次泛音晶体振荡器

白皮书 第二代ClearClock™三次泛音晶体振荡器在这份全新的白皮书中，我们讨论了最新一代超低抖动三次泛音晶体振荡器的特点、优势、性能和特性，这些振荡

发表于 09-13 09:51

Gaudi2夹层卡HL-225B数据表

高迪第二代Al深度学习夹层卡HL-225B专为数据中心的大规模扩展而设计。训练处理器基于第一代高迪的高效架构，目前采用7nm工艺技术，在性能

发表于 08-04 07:54

Ai 部署的临界考虑电子指南

虽然GPU解决方案对训练，AI部署需要更多。预计到2020年代中期，人工智能行业将增长到200亿美元，其中大部分增长是人工智能推理。英特尔Xeon可扩展处理

发表于 08-04 07:25

Gaudi2架构和软件的全面解释

Gaudi®2是哈瓦那的第二代深度学习加速器，支持训练和推理。 Gaudi®在DL1实例中首次在AWS EC2云上推出，并通过Supermicro X12 Gaudi培训服务器进行内部

发表于 08-04 06:15

今日看点丨高通第二代骁龙4芯片发布，传由台积电转单三星代工；华为明年将发布端到端 5.5G 商用产品

1. 高通第二代骁龙4 芯片发布，传由台积电转单三星代工据外媒报道，高通公司本月27日正式发布第二代骁龙4移动平台（Snapdragon 4 Gen 2），据传将从前代的台积电6

发表于 06-29 10:54 •1144次阅读

AI服务器与传统服务器的区别是什么？

AI 服务器确实是整个服务器市场的一部分，但它们是专门为基于云的 AI 模型训练或推理而设计的。在规格方面，广义的

发表于 06-21 12:40 •1310次阅读

国产第二代“香山”RISC-V 开源处理器计划 6 月流片：基于中芯国际 14nm 工艺，性能超 Arm A76

的“RISC-V 开源处理器芯片生态发展论坛”上，第二代“香山”（南湖架构）开源高性能 RISC-V 核心正式发布。据介绍，“香山”于 2022 年 6 月启动工程优化，同年 9 月研制完毕，计划 2023 年 6

发表于 06-05 11:51

性能超ARM A76！国产第二代“香山”RISC-V开源处理器最快6月流片

据开芯院首席科学家包云岗介绍，第二代“香山”于2022年6月启动工程优化，同年9月研制完毕，计划2023年6月流片，性能超过2018年ARM发布的Cortex-A76，主频2GHz@14nm

发表于 05-28 08:41

搜索历史

匹敌7nm GPU，燧原科技第二代云端AI推理卡发布，落地服务器、身份识别、车路协同等应用

12nm工艺打造的新一代“邃思”AI推理芯片

云燧i20加速卡性能显著提升

软件生态升级，搭建训推一体化

云燧i20已量产应用

评论

台积电：AI服务器处理器预计翻番，拉动收入增长

AMD推出第二代Versal器件，为AI驱动型嵌入式系统提供端到端加速

2024年全球与中国7nm智能座舱芯片行业总体规模、主要企业国内外市场占有率及排名

瑞芯微第二代8nm高性能AIOT平台 RK3576 详细介绍

使用NVIDIA Triton推理服务器来加速AI预测

gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

超微gpu服务器评测

白皮书 | 第二代ClearClock™三次泛音晶体振荡器

Gaudi2夹层卡HL-225B数据表

Ai 部署的临界考虑电子指南

Gaudi2架构和软件的全面解释

今日看点丨高通第二代骁龙4芯片发布，传由台积电转单三星代工；华为明年将发布端到端 5.5G 商用产品

AI服务器与传统服务器的区别是什么？

国产第二代“香山”RISC-V 开源处理器计划 6 月流片：基于中芯国际 14nm 工艺，性能超 Arm A76

性能超ARM A76！国产第二代“香山”RISC-V开源处理器最快6月流片