0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

匹敌7nm GPU,燧原科技第二代云端AI推理卡发布,落地服务器、身份识别、车路协同等应用

21克888 来源:电子发烧友网 作者:黄晶晶 2021-12-09 13:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据算力需求的日益增长带动了AI芯片行业的兴起,作为中国AI芯片的中坚力量,燧原科技聚焦于AI训练与推理不断推出芯片以及加速卡产品。12月7日,燧原科技重磅发布第二代云端人工智能推理加速卡“云燧i20”,这是时隔仅五个月,继今年7月发布云端人工智能训练加速卡“云燧T20”之后,燧原科技又推出的全新一代针对云端推理场景的AI加速产品。

燧原科技CEO赵立东和COO张亚林发布第二代云端AI推理产品


燧原科技CEO赵立东在发布会上表示,我们的第1代训练和推理产品已经在国家重点实验室、互联网、智慧城市、智慧金融等几大方向上实现了突破,已产生了过亿的订单和收入。在这个过程中,我们也通过多种业务模式和产学研结合,建立了强大的朋友圈和生态圈。随着第2代训练和推理两条产品线逐步量产,以及软件生态的不断优化和完善,业务的加速落地和规模化正按计划逐步实现。未来,我们除了继续大力拓展上述的几个业务方向之外,还会在高性能计算,交通和能源等领域投入资源,拓展商机。


从2017年到2023年,整个AI云端市场训练和推理产品比例在发生变化,推理产品比例在慢慢变高。基于这样的AI市场趋势,燧原科技COO张亚林表示,燧原科技也在做产品线拓展,AI的业务从传统的单一的机器视觉、声音、文字,还有决策、推荐等方向性的算法,已经变成多场景、多应用的落地,广泛分布在用户日常生活中。

12nm工艺打造的新一代“邃思”AI推理芯片


第二代云端推理加速卡云燧i20,基于新一代“邃思”AI推理芯片,它采用第二代高性能计算核心和数据引擎,由12nm工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内7nm GPU相匹敌的计算能力。不仅如此,基于12nm成熟工艺带来的成本优势,使得云燧i20在相同性能表现下更具性价比优势。并且供应链体系更加稳定成熟,客户的业务需求可以得到及时满足。

燧原科技发布全新一代“邃思”云端AI推理芯片


具体来看,邃思推理芯片的计算架构具备全AI的算力空间,其中单精度FP32达到了32 TFLOPS,以及单精度张量TF32,达到了128 TFLOPS,它同样具备半精度BF16/FP16的算力,达到128 TFLOPS。最重要的在推理方面,提升整个整数精度INT8,达到256TOPS。也就是,从FP32到INT8,包含中间精度TF32、BF16、FP16五个精度构成了全AI算力空间,满足各种各样推理的客户需求。

邃思推理芯片用16位算力做到32位的精度效果。如何做到的?它具备TF32张量单精度,拥有4倍于FP32的算力,但是在整个模型上拥有99%的精度一致性。于是,就可以用4倍的FP32算力达到99%FP32的算力精度,这也是中国第一颗TF32的推理芯片。

邃思推理芯片的数据架构,拥有完全自研的SVS (Sparse Value Segment ) 数据压缩格式。它能够进行独立的分层压缩和硬件自动循环解压,使得所有的数据,特别是稀疏数据在传输过程之中,能够节省带宽和功耗。它支持硬件指令预取的操作,使得指令的预取、数据的传输和计算可以同时进行。进行并行的数据广播,使得同样的数据可以广播到多个处理器上进行并行执行。同时,它具有很强的动态功耗控制,让整个数据传输的动态功耗变得非常的有效。

在存储方面,燧原科技依然采用了业内最领先的HBM2E,由2颗HBM2E构建,单芯片容量达到16GB,最大带宽达到819GB/s,在整个封装上,依然采用2.5D的高级封装,整合了五颗芯片,它的整个封装尺寸达到了55毫米乘以55毫米。大芯片加上两颗HBM2E存储的护航,构建了计算加存储的互促,使得AI的推理在带宽、存储容量和算力上能够进行极致的发挥。

云燧i20加速卡性能显著提升


比上一代云燧i10相比,云燧i20在浮点32位、浮点16位、整点8位的算力,以及存储带宽,存储类型等方面都有巨大提升。云燧i20单精度FP32峰值算力达到32 TFLOPS,单精度张量TF32峰值算力达到128 TFLOPS,整型INT8峰值算力达到256 TOPS。对比第一代推理产品,云燧i20将浮点算力提升到1.8倍,整型算力提升到3.6倍。

燧原科技发布第二代人工智能推理加速卡“云燧i20”




和业内主流的GPU的次旗舰相比,云燧i20的浮点16位的算力、INT8的算力,都是其2倍,内存带宽是2.65倍。

基准测试部分,在业内的主流模型中以友商的GPU次旗舰为baseline,从图像分类、识别到目标检测到图像分割到图像超分等整个模型来看,云燧i20是友商的GPU次旗舰的2.5到3.7倍不等。



一个例子是,针对bert文本场景分析,每一个白色的框是一段文本,通过邃思推理芯片DTU和GPU的实时渲染和处理,分析出每一段文字的情感,这个情感用彩色框标注为各种情绪。运时显示,DTU整个分析速度明显加快,彩色的框出现的比率明显增高,频率也越来越快。同时,DTU的实时性能是GPU的2.5倍以上,而实时的延时DTU只有GPU的不到一半。

软件生态升级,搭建训推一体化


此次,在软件支持层面,升级后的“驭算TopsRider”软件栈,在性能、开发效率和模型覆盖面上得到大幅提升。通过引入通用高层图优化和大规模算子融合技术,充分释放了大容量片内存储和高带宽存储的利用率,将模型平均性能提升3.5倍,硬件算力利用率平均提升2倍;通过升级的编程模型以及算子自动分片、自动生成技术,自定义算子开发效率翻倍,模型迁移成本大大降低;此外,驭算增强了对动态性的支持,使云燧i20在检测、语音识别、语义理解等场景更具竞争力。

张亚林表示,T20和i20组合的训推一体化系统日臻完善,在TopsRider软件系统里,从高层的图优化到中间的算子库再到中间的编程模型,最后到底层的Runtime,四个阶段中分别统一了整个训练和推理引擎,使得用一套结构可以支持所有训练和推理软件栈,通过统一的表达,统一的训练推理的算子编程模型和Runtime,训练和推理栈进行了深度融合和充分泛化,在运用训推一体化时更高效、精密和兼容。

同时,我们支持Lazy、Graph、Eager、Trace mode四种图执行模式,这四种模式涵盖了广泛的框架和图执行,它能适配各种各样的训练和推理的场景。通过今天i20和i20相关匹配的DTU2.5和TopsRider2.5的发布,燧原科技已经拥有第二代全系统、全自主的技术栈。

云燧i20已量产应用


目前,已经有不少合作伙伴推出了基于燧原科技i20板卡的服务器产品,包括浪潮、华三和超威等等,产品涵盖4U到2U的服务器,搭配16张DTU的卡到2到4张DTU的卡,

比如,浪潮标准的4U服务器配置了16张i20板卡,以及2CPU,通过16张i20板卡,4U服务器能够提供非常高的算力密度。



浪潮信息副总裁刘军表示:“燧原科技是国产人工智能计算芯片的领军企业,浪潮信息与燧原科技通过元脑生态联合创新,在AI整机系统、AI算力优化、场景方案落地等多方面深入合作。此次云燧i20的发布,标志着燧原从训练到推理全面进入2.0时代,这也是国产AI算力发展的里程碑。我们期待和燧原一起紧密合作,共同推进中国人工智能产业的快速发展。”

此外,在身份证识别、人像卡通化、人体姿态检测、车路协同等应用场景,燧原云燧推理卡和相关识别技术的搭配,实现快速、精准的智能效果。





燧原科技以其国产AI算力产品为核心,以商业生态和科研生态为支撑,实现燧原科技的云端AI推理产品在互联网、金融、政务等多家客户的商业落地,并获得认可。在第一代训练和推理产品产生了过亿的订单和收入之后,相信第二代产品将加速向更多领域进行渗透。根据规划,面向训练和推理的下一代产品T30/T31,i30已经在研发中,三年完成两代产品迭代,随着燧原科技产品和技术路线图延伸,将有更多惊喜的产品和技术的展露。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 推理
    +关注

    关注

    0

    文章

    9

    浏览量

    7403
  • AI芯片
    +关注

    关注

    17

    文章

    2062

    浏览量

    36562
  • 燧原科技
    +关注

    关注

    0

    文章

    148

    浏览量

    9718
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新品 | 采用.XT扩散焊和第二代1200V SiC MOSFET的Easy C系列

    EasyPACK1C1200V13mΩ四单元模块,搭载第二代CoolSiCMOSFET技术,集成NTC温度传感,采用大电流PressFIT引脚,并预涂2.0导热界面材料。产品型号:■F4
    的头像 发表于 11-24 17:05 1022次阅读
    新品 | 采用.XT扩散焊和<b class='flag-5'>第二代</b>1200V SiC MOSFET的Easy C系列

    南芯科技发布第二代规级高边开关SC77450CQ

    今日,南芯科技(证券代码:688484)正式发布第二代规级高边开关 (HSD) SC77450CQ,基于国内自主研发的垂直沟道 BCD 集成工艺和全国产化封测供应链,在 N 型衬底单晶圆上实现了
    的头像 发表于 08-05 15:17 1125次阅读
    南芯科技<b class='flag-5'>发布</b><b class='flag-5'>第二代</b><b class='flag-5'>车</b>规级高边开关SC77450CQ

    新品 | 第二代CoolSiC™ MOSFET G2 750V - 工业级与规级碳化硅功率器件

    新品第二代CoolSiCMOSFETG2750V-工业级与规级碳化硅功率器件第二代750VCoolSiCMOSFET凭借成熟的栅极氧化层技术,在抗寄生导通方面展现出业界领先的可靠性。该器件在图腾柱
    的头像 发表于 07-28 17:06 760次阅读
    新品 | <b class='flag-5'>第二代</b>CoolSiC™ MOSFET G2 750V - 工业级与<b class='flag-5'>车</b>规级碳化硅功率器件

    AMD第二代Versal AI Edge和Versal Prime系列加速量产 为嵌入式系统实现单芯片智能

    我们推出了 AMD 第二代 Versal AI Edge 系列和第二代 Versal Prime 系列,这两款产品是对 Versal 产品组合的扩展,可为嵌入式系统实现单芯片智能。
    的头像 发表于 06-11 09:59 1524次阅读

    恩智浦推出第二代OrangeBox规级开发平台

    第二代OrangeBox开发平台集成AI功能、后量子加密技术及内置软件定义网络的能力,应对快速演变的信息安全威胁。
    的头像 发表于 05-27 14:25 1090次阅读

    第二代AMD Versal Premium系列SoC满足各种CXL应用需求

    第二代 AMD Versal Premium 系列自适应 SoC 是一款多功能且可配置的平台,提供全面的 CXL 3.1 子系统。该系列自适应 SoC 旨在满足从简单到复杂的各种 CXL 应用需求
    的头像 发表于 04-24 14:52 966次阅读
    <b class='flag-5'>第二代</b>AMD Versal Premium系列SoC满足各种CXL应用需求

    方正微电子推出第二代规主驱SiC MOS产品

    2025年4月16日,在上海举行的三电关键技术高峰论坛上,方正微电子副总裁彭建华先生正式发布第二代规主驱SiC MOS 1200V 13mΩ产品,性能达到国际头部领先水平。
    的头像 发表于 04-17 17:06 1323次阅读

    推理服务器7大可靠性指标,宽温/抗震/EMC防护实测数据分享

    在 AIoT 设备突破百亿级的今天,边缘计算推理服务器已成为智能时代的 "神经末梢"。根据 Gartner 预测,到 2025 年将有 75% 的企业关键任务部署在边缘端。然而,工业级应用场景(如智能工厂、无人矿山、
    的头像 发表于 04-02 10:43 820次阅读
    <b class='flag-5'>推理</b><b class='flag-5'>服务器</b>的<b class='flag-5'>7</b>大可靠性指标,宽温/抗震/EMC防护实测数据分享

    Framework召开第二代产品发布会,新品抢先看!

    2025年2月25日,Framework在美国旧金山召开了盛大的第二代产品发布会。Framework发布了有史以来最大规模的一系列新品,包括Framework台式机
    的头像 发表于 03-19 17:55 1208次阅读
    Framework召开<b class='flag-5'>第二代</b>产品<b class='flag-5'>发布</b>会,新品抢先看!

    第二代高通3D Sonic超声波指纹解锁亮相新机

    解锁解决方案,第二代高通3D Sonic传感在多个方面实现了显著升级。首先,其指纹识别面积更大,能够更准确地捕捉用户的指纹信息,提高了解锁的准确性和便捷性。其次,该技术采用了更为先进的技术,使得传感
    的头像 发表于 01-21 14:56 1261次阅读

    简单认识第二代高通3D Sonic传感

    目前,已有多款搭载骁龙8至尊版移动平台的新机陆续发布,其中不少机型采用第二代高通3D Sonic超声波指纹解锁,为用户带来了更为便捷、高效的解锁体验。作为高通新一超声波指纹解锁解决方案,第二
    的头像 发表于 01-21 10:05 1403次阅读

    第二代AMD Versal Premium系列器件的主要应用

    随着数据中心工作负载持续呈指数级增长,存储层也需要同等的性能提升才能跟上步伐。第二代 AMD Versal Premium 系列器件为各种存储应用提供了巨大优势,包括企业级 SSD、加密/压缩加速
    的头像 发表于 01-15 14:03 1012次阅读

    瑞芯微第二代8nm高性能AIOT平台,看这款板卡怎么样?

    瑞芯微近期推出了第二代8nm高性能AIOT平台——RK3576。RK3576应用方向指向工业控制及网关,云终端,人脸识别设备,车载中控,商显等等。参数方面,内置了四核Cortex-A72+四核
    的头像 发表于 01-09 08:03 2040次阅读
    瑞芯微<b class='flag-5'>第二代</b>8<b class='flag-5'>nm</b>高性能AIOT平台,看这款板卡怎么样?

    第二代AMD Versal Premium系列产品亮点

    第二代 AMD Versal Premium 系列提供了全新水平的存储和数据带宽,具备 CXL 3.1、PCIe Gen6 和 DDR5/LPDDR5X 接口功能,可满足当今和未来数据中心、通信
    的头像 发表于 01-08 11:50 1218次阅读

    Windows端USB读二代身份证C#样例程序

    本开发包支持USB免驱型、串口型这2种类型的读卡,支持读取二代居民身份证、M1和CPU等。提供动态连接库dll,提供C++(MFC)和C#下的演示程序执行文件和示例源码。动态库文件
    发表于 12-21 14:47