0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

技术革新,GCU-LARE实现高性能互联

燧原科技Enflame 来源:燧原科技Enflame 作者:燧原科技Enflame 2020-10-31 09:40 次阅读

2020年10月26日,燧原科技正式推出搭载燧原科技云燧T10的PCIe Gen4全互联AI高算力训练系统。该系统目前为国内第一套基于PCIe Gen4的全互联AI高算力训练系统,不仅使配备云燧T10的机内PCIe带宽得以全面提升,同时结合燧原科技GCU-LARE技术可实现系统高性能互联。

Supermicro 4U A+ 服务器(搭载8张云燧T10)

技术革新,GCU-LARE实现高性能互联

PCIe Gen4全互联AI高算力训练系统由燧原科技与Supermicro合作研发,其中,燧原科技云燧系列产品PCIe Gen4的高带宽和GCU-LARE智能互联特点,在此研发中发挥了关键作用。

以该系统的创新技术——GCU-LARE来说,燧原科技GCU-LARE智能互联技术为系统提供了最大提供双向200GB/s的互联带宽。在2D Torus 6x6节点连接方式中,若采用GCU-LARE互联,一个机柜内3台8卡服务器,垂直方向环6个节点,水平方向用2张RDMA/RoCE网卡,通过类似可扩展的连接方式,可以实现千卡级别高线性度互联,其线性加速比可达86%以上,远超业内水平,故而实现其高性能互联特色。

2D Torus 6x6节点示意图(144张云燧T10)

精准攻克,强强联手解决算力瓶颈

燧原科技产品部资深总监邓辉表示,随着AI模型的复杂化和大型化,AI算力需求成指数级增长。其中,运算集群和CPU通信带宽,以及运算加速卡节点之间scale out时的高性能、低延迟、智能化互联成为高算力集群的瓶颈。

此次燧原科技正式推出的PCIe Gen4全互联AI高算力训练系统,便着重解决通信带宽与运算加速卡节点之间的高性能、低延迟、智能化互联问题。

PCIe Gen4连接拓扑

燧原科技通过直接连接PCIe Gen4 x16 CPU至云燧T10,使得Supermicro新的4U A+ Server 4124GS-TNR系统支持最多可8张云燧T10 PCIe AI加速卡,而单机8张云燧T10支持4卡作为一个节点的HCM(HybridCube Mesh)互联拓扑,节点内通过GCU-LARE桥接卡实现4卡间点对点全互联,节点之间通过GCU-LARE高速线缆实现互联,总互联带宽高达800GB/s。最终,该系统无需任何PCIe Switch,便可实现最低延迟、最高带宽和最大限度的加速。

GCU-LARE互联HCM拓扑(单机8卡)

此外,该系统还支持最多两个额外高性能PCIe Gen4扩展槽,且支持单个PCIe Gen4 x8以及最多2个用于RDMA高速网卡提供最高200Gb/s的高性能网络连接,用于实现最先进的2D Torus的高性能AI训练集群互联拓扑。

多方攻克,具有强大算力与超高加速的PCIe Gen4全互联AI高算力训练系统搭载燧原科技云燧T10,应运而生。该系统加速了计算和网络性能,极大的丰富和提升了整个AI高算力训练系统互联拓扑和带宽,为客户带来强大的产品性能和可扩展性,使其拥有前所未有的速度为最复杂的Al网络进行训练。

系统落地,彰显训练芯片实力

燧原科技正是认可Supermicro在全球企业服务器先进解决方案上的突出地位,并与其创新性、革命性的研发特理念不谋而合,故而凭借其独创的GCU-LARE互联技术与Supermicro展开合作,成功地推出了中国第一套PCIe Gen4的多卡AI服务器训练系统,解决了大型AI训练系统互联接口的瓶颈和规模部署的门槛。此次合作的成功还为双方后期深入合作奠定了良好基础,让未来更多基于多卡互联的AI模型训练系统逐一实现。

对于燧原科技而言,这款搭载云燧T10的中国第一套PCIe Gen4全互联AI高算力训练系统成功推出,是对其研发方向的极致肯定,同时也彰显了燧原科技在训练芯片领域的技术实力与企业地位。

燧原科技创始人兼COO张亚林认为,能与全球企业服务器先进解决方案的倡导者和领先者Supermicro保持前瞻性技术上的一致,并展开深入合作,最后成功落地合作成果,是燧原科技走向国际舞台的标志性一步,代表我国训练芯片行业曙光在即,前景远大。

未来,AI训练芯片的算力需求将以每三个月增长一倍的惊人速度增长,而AI应用率到2025年将达80%。急速变化的AI训练芯片技术、产量需求为该领域企业带来了严峻考验,燧原科技必将全力践行其研发战略,全面攻克数据分析、深度学习和深度学习推理等多方难题,为真正的算力普惠和应用落地创造价值和铺平道路。

原文标题:燧原科技上线AI高算力训练系统PCIe Gen4

文章出处:【微信公众号:燧原科技Enflame】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    445

    文章

    47494

    浏览量

    407907
  • 服务器
    +关注

    关注

    12

    文章

    8017

    浏览量

    82212
  • AI
    AI
    +关注

    关注

    87

    文章

    26150

    浏览量

    263716

原文标题:燧原科技上线AI高算力训练系统PCIe Gen4

文章出处:【微信号:gh_1222367b8780,微信公众号:燧原科技Enflame】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    大屏拼接器行业发展趋势:未来展望与技术革新

    ,大屏拼接器的需求将持续增长。特别是在安防监控、指挥调度、会议室、展示中心等领域,大屏拼接器已经成为不可或缺的设备。预计未来几年,大屏拼接器市场将继续保持稳定的增长态势,市场规模将进一步扩大。 二、技术革新
    的头像 发表于 02-26 14:49 110次阅读

    千兆到万兆:万兆电口模块推动网络技术革新

    本文将探讨万兆电口模块如何推动网络技术革新。万兆电口模块相较于千兆电口模块具有更高的传输速率和更大的带宽,可实现数据传输速度的10倍增长和更高的传输质量和稳定性。
    的头像 发表于 02-21 16:17 147次阅读

    国产深海1万米六维力传感器引领卡脖子技术革新

    国产深海万米六维力传感器引领卡脖子技术革新
    的头像 发表于 02-20 16:09 223次阅读

    如何在有限空间里实现高性能?结合最低特定RDS(On)与表面贴装技术是个好方法!

    如何在有限空间里实现高性能?结合最低特定RDS(On)与表面贴装技术是个好方法!
    的头像 发表于 11-23 17:43 278次阅读
    如何在有限空间里<b class='flag-5'>实现</b><b class='flag-5'>高性能</b>?结合最低特定RDS(On)与表面贴装<b class='flag-5'>技术</b>是个好方法!

    驱动云/边缘侧算力建设的高性能互联接口方案

    驱动云/边缘侧算力建设的高性能互联接口方案
    的头像 发表于 11-23 16:30 186次阅读
    驱动云/边缘侧算力建设的<b class='flag-5'>高性能</b><b class='flag-5'>互联</b>接口方案

    一种高性能多通道通用DMA设计与实现

    为充分发挥异构多核DSP芯片的实时计算能力,设计并实现了一种高性能多通道的通用DMA,该DMA最大支持64个通道的数据搬运,并支持一维、二维、转置以及级联描述符等多种传输模式。芯片实测传输性能最高可达11.7 GB/s,
    的头像 发表于 11-20 15:52 513次阅读
    一种<b class='flag-5'>高性能</b>多通道通用DMA设计与<b class='flag-5'>实现</b>

    实现可靠高性能数字电源

    电子发烧友网站提供《实现可靠高性能数字电源.pdf》资料免费下载
    发表于 11-16 15:02 0次下载
    <b class='flag-5'>实现</b>可靠<b class='flag-5'>高性能</b>数字电源

    拓维信息旗下开鸿智谷引领OpenHarmony技术革新,共建万物智联未来

    ”为主题,旨在向全球展示OpenHarmony操作系统的技术革新成果,探讨下一代技术方向,绘制智慧生态共建的宏伟蓝图。作为开放原子开源基金会黄金捐赠人、OpenHa
    的头像 发表于 11-05 08:14 239次阅读
    拓维信息旗下开鸿智谷引领OpenHarmony<b class='flag-5'>技术革新</b>,共建万物智联未来

    技术筑生态,智联赢未来 第二届OpenHarmony技术大会即将在京启幕

    OpenHarmony操作系统的技术革新、分享阶段性技术成果,还将特邀全球开源操作系统技术领袖,行业前沿领域的实践专家、高校技术导师、众多开发者与贡献者,共话操作系统未来
    发表于 10-31 11:27

    PrimeCell高性能矩阵(PL301)技术概述

    HPM是一个高度可配置的自动生成的AMBA 3总线子系统,基于称为AXI总线矩阵的高性能AXI交叉开关,并由AMBA基础设施组件进行扩展。 有关这些组件的信息,请参阅PrimeCell高性能矩阵
    发表于 08-22 06:22

    国芯科技:正在流片验证chiplet芯片高性能互联IP技术

    国芯科技(688262)。sh) 8月2日的投资者在互动平台(interface),公司目前正在与合作伙伴一起流片验证相关chiplet芯片高性能互联IP技术,和上下游合作厂家积极开展包括HBM
    的头像 发表于 08-02 12:01 648次阅读

    点云标注的未来发展与技术革新

    点云标注作为自动驾驶技术中的重要一环,随着技术的不断发展和进步,其未来发展与技术革新将具有重要意义。 首先,点云标注技术的发展将更加注重智能化和自动化。未来的点云标注系统将采用更加先进
    的头像 发表于 07-18 15:13 299次阅读

    实现敏感薄膜的高性能化的主要途径

    。其中,敏感薄膜材料创制和高性能化是获得高性能薄膜荧光传感器的关键,其核心又是高性能敏感单元的创制;而只有在实现理性设计、激发态过程精准调控后才可获得理想敏感单元,进而
    的头像 发表于 06-12 09:57 358次阅读
    <b class='flag-5'>实现</b>敏感薄膜的<b class='flag-5'>高性能</b>化的主要途径

    SiGe技术提高无线前端性能

    SiGe (硅锗)技术是最近的一项技术革新,能同时改善接收机的功耗、灵敏度和动态范围。GST-3是新的基于硅锗技术的高速IC处理工艺,其特点是具有35GHz的特征频率(fT)。下面的典型前端框图(图1)中给出了用硅锗
    的头像 发表于 06-09 14:11 548次阅读
    SiGe<b class='flag-5'>技术</b>提高无线前端<b class='flag-5'>性能</b>

    DPDK技术原理、性能高性能代码实现

    私有云的出现通过网络功能虚拟化(NFV)共享硬件成为趋势,NFV的定义是通过标准的服务器、标准交换机实现各种传统的或新的网络功能。急需一套基于常用系统和标准服务器的高性能网络IO开发框架。
    发表于 05-08 10:41 484次阅读
    DPDK<b class='flag-5'>技术</b>原理、<b class='flag-5'>性能</b>及<b class='flag-5'>高性能</b>代码<b class='flag-5'>实现</b>