0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

燧原科技如何立足于国产云端AI算力攻克通用性与性能双重挑战

燧原科技Enflame 来源:燧原科技Enflame 作者:燧原科技Enflame 2021-10-29 11:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

由中国工程院信息与电子工程学部主办,浪潮信息承办,2021年人工智能计算大会(AICC)于北京成功召开。作为全球AI计算领域最具影响力的技术盛会,本次大会以“智算·新际”为主题,邀请到众多专家学者与产业领袖,就智能算力发展、人工智能产业创新以及产业数字化转型展开精彩分享。燧原科技副总裁邓辉先生受邀出席“AI芯片创新技术”分论坛,并就燧原科技如何立足于国产云端AI算力攻克通用性与性能双重挑战发表演讲。

起点

长期处于自主创新空白的云端训练AI算力一切要从2012年那场改变人工智能发展史的ImageNet图像分类竞赛开始谈起。在当时的比赛中,“深度学习之父”、图灵奖获得者——多伦多大学Geoffrey Hinton教授首次提出深度卷积神经网络模型“AlexNet”,参数量达6000万。AlexNet的出现是人工智能技术发展史上重要的转折点,它将沉寂已久的深度学习技术再次推至历史舞台。除了革命性的“大模型”,Geoffrey Hinton教授创新性地采用了异构算力GPU作为训练加速资源。“AI加速”这个概念由此进入广大AI科研工作者与产业落地先锋的视野。

新一轮技术文明由此开始,可这并没有带来我国自主创新AI算力的繁荣,一直以来,AI加速产品与技术都被GPU厂商所垄断,尤其是在云端训练领域,由于云端数据中心整体架构的高度复杂性、大规模分布式AI训练带来的巨大挑战及其本身要支撑的业务多样性等原因,云端训练是国内厂商切入难度最为高的一个领域,长期处于空白的状态,燧原科技作为行业领头羊于2019年发布邃思1.0云端训练芯片,开始了攻坚技术壁垒、打破垄断的征程。

挑战

云端专用AI训练产品的性能与通用性互联网是人工智能技术与产业发展的沃土,人工智能在互联网的广泛应用得益于各类深入人们生活的终端应用所产生的大量数据,而云计算作为关键的底层技术支撑,正与互联网共同以孪生体姿态不断地蓬勃发展,为我们带来了空前的数据井喷与突破人类认知的巨量模型,对超强算力产生了爆炸性的需求;传统GPU架构虽然早期开创了人工智能发展的篇章,但随着人工智能产业蓬勃发展,在规模效应的驱使下,DSA架构带来的更经济的成本与更高效的计算能力使得专用AI训练产品变得越来越有优势。然而由于专用AI训练产品天生缺乏生态积累,在模型泛化与通用性上一直是业界痛点。因此如何保证比GPU更高效的AI模型计算能力,同时兼顾一定的通用性是云端AI训练芯片面临的最大挑战。燧原科技副总裁邓辉先生表示:“我们把性能与通用性作为产品成功最重要的衡量标准,经过3年的努力,这两方面的能力在我们第二代产品上取得飞跃。”

燧原

中国首家发布二代云端训练加速产品组合的企业燧原科技以助力发展我国集成电路和人工智能产业、推动AI算力普惠化为使命,秉承“做大芯片、拼硬科技”的原则,自2019年12月推出第一代云端训练芯片邃思1.0以后,率先实现国产AI芯片数据中心与千卡液冷集群的商业落地,并于2021年7月在世界人工智能大会(WAIC)发布邃思2.0,是中国唯一一家推出二代云端训练加速产品组合的企业。

基于燧原科技自研的GCU-CARE计算引擎,邃思2.0进行了大规模的架构升级,针对人工智能计算的特性进行深度优化,夯实了支持通用异构计算的基础。支持全面的计算精度,涵盖从FP32、TF32、FP16、BF16到INT8;并在单精度算力方面达到与7nm GPU相当的性能水平:单精度FP32峰值算力最高达到40 TFLOPS,单精度张量TF32峰值算力最高达到160 TFLOPS,大大提高了能效比。同时搭载了4颗HBM2E片上存储芯片,高配支持64 GB内存,带宽最高可达1.8 TB/s。GCU-LARE也全面升级,提供双向300 GB/s互联带宽,支持数千张云燧CloudBlazer加速卡互联,实现优异的线性加速比。

而同步升级的驭算TopsRider软件平台,成为燧原科技构建原始创新软件生态的基石。通过软硬件协同架构设计,充分发挥邃思2.0的性能;基于算子泛化技术及图优化策略,支持主流深度学习框架下的各类模型训练;利用Horovod分布式训练框架与GCU-LARE互联技术相互配合,为超大规模集群的高效运行提供解决方案。开放升级的编程模型和可扩展的算子接口,为客户模型的优化提供了自定义的开发能力。

基于邃思2.0,燧原科技推出了云燧T20人工智能训练加速卡与云燧T21人工智能训练OAM模组,能够通过300GB/s的独立片间互联通道提供灵活的多芯片算力扩展方案,支持单机多卡、单机柜多节点、多机柜大机群多种部署方式。

未来

更多的AI解决方案与产品孵化除了强劲的原始创新芯片支撑,AI算力的腾飞与人工智能产业的发展需要依托于健全的生态合作体系。在演讲的最后,燧原科技副总裁邓辉先生表示:“未来,我们期望在人工智能领域和浪潮以及更多的合作伙伴一起合作打造更多AI解决方案和产品,助力中国AI产业蓬勃发展。”

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54637

    浏览量

    470986
  • AI
    AI
    +关注

    关注

    91

    文章

    41988

    浏览量

    303082
  • 燧原科技
    +关注

    关注

    0

    文章

    162

    浏览量

    10645

原文标题:原始创新架构助力云端AI算力腾飞

文章出处:【微信号:gh_1222367b8780,微信公众号:燧原科技Enflame】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    端侧AI爆发!斯贝达全栈自研技术,助力国产AI力崛起

    江接受采访,分享了国产AI力布局和产品市场拓展等话题。   全栈式国产AI力方案   此次
    的头像 发表于 04-14 16:51 5484次阅读

    国产AI芯片厂商原科技正式入驻Gitee

    国产 AI 芯片厂商原科技,近日以开源组织身份正式入驻 Gitee。
    的头像 发表于 03-20 11:43 774次阅读
    <b class='flag-5'>国产</b><b class='flag-5'>AI</b>芯片厂商<b class='flag-5'>燧</b>原科技正式入驻Gitee

    边缘AI力临界点:深度解析176TOPS香橙派AI Station的产业价值

    、内存革命:48GB/96GB LPDDR4X 背后的带宽博弈 很多开发者容易陷入唯力论的误区,但在实际部署大模型时,内存容量和带宽往往是真正的性能瓶颈。OrangePi AI Station提供了
    发表于 03-10 14:19

    国产连接器如何抓住AI PC赛道红利?

    发生。如果说力芯片是AI PC的“心脏”,那么连接器就是输送数据与电力的“血管”。随着本地推理和高负载协同成为标配,连接器正在经历一场从“通用连接”到“力级连接”的本质跃迁。 这不
    的头像 发表于 03-04 10:03 460次阅读
    <b class='flag-5'>国产</b>连接器如何抓住<b class='flag-5'>AI</b> PC赛道红利?

    赋能电源芯片国产替代,智芯谷助力AI力稳定前行

    近年来,随着人工智能、云计算、自动驾驶等技术的飞速发展,全球对高性能计算芯片的需求呈现爆发式增长。在这一轮AI力竞赛中,电源管理芯片作为确保系统稳定、高效运行的核心组件,其重要日益
    的头像 发表于 12-30 12:02 921次阅读
    赋能电源芯片<b class='flag-5'>国产</b>替代,智芯谷助力<b class='flag-5'>AI</b><b class='flag-5'>算</b>力稳定前行

    原科技与浩瀚深度签署战略合作协议

    12月23日,上海原科技股份有限公司(以下简称原科技)与北京浩瀚深度信息技术股份有限公司(以下简称浩瀚深度)签署战略合作协议,双方宣布共建联合实验室,打造金融智能体服务一体机,致力AI
    的头像 发表于 12-29 10:02 488次阅读

    迈向云端力巅峰:昆仑芯K200 AI加速卡全面解读

    昆仑芯K200作为云端AI加速卡,在K100架构基础上全面升级。其INT8力达256 TOPS,配备16GB HBM内存与512GB/s带宽,专为千亿参数大模型训练与高并发推理优化。采用全高全长双
    的头像 发表于 12-14 11:17 2481次阅读
    迈向<b class='flag-5'>云端</b><b class='flag-5'>算</b>力巅峰:昆仑芯K200 <b class='flag-5'>AI</b>加速卡全面解读

    国产AI芯片冲至160亿美元:狂欢下的“可靠”大考

    国产AI芯片年销售额达160亿美元,标志着设计环节实现突破,但商业落地的核心考验已转向可靠AI芯片因高力、高功耗特性,面临电源与时钟稳
    的头像 发表于 12-11 15:33 558次阅读

    国产AI芯片真能扛住“力内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“力是AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下力直接拉到256 TFLOPS,比上一代提升了
    发表于 10-27 13:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    景嘉微电子、海光信息技术、上海复旦微电子、上海壁仞科技、上海原科技、上海天数智芯半导体、墨芯人工智能、沐曦集成电路等。 在介绍完这些云端数据中心的AI芯片之后,还为我们介绍了边缘AI
    发表于 09-12 16:07

    原科技DeepSeek一体机与S60卡:引领国产新潮流

    电子发烧友网报道(文/李弯弯)在日前世界人工智能大会(WAIC)上,国产力量大放异彩。其中,原科技展示了其最新的DeepSeek一体机,凭借低门槛、高效率的独特优势,迅速成为全场瞩目的焦点
    的头像 发表于 08-03 07:35 1w次阅读
    <b class='flag-5'>燧</b>原科技DeepSeek一体机与S60卡:引领<b class='flag-5'>国产</b>智<b class='flag-5'>算</b>新潮流

    摩尔线程副总裁王华:AI工厂全栈技术重构力基建,开启国产 GPU 黄金时代

    协同,重新定义了 AI 基础设施的生产力公式 ——AI 工厂生产效率 = 加速计算通用性 × 单芯片有效力 × 单节点效率 × 集群效率 × 集群稳定性。作为国内率先实现单芯片集成 
    的头像 发表于 08-02 14:21 5930次阅读
    摩尔线程副总裁王华:<b class='flag-5'>AI</b>工厂全栈技术重构<b class='flag-5'>算</b>力基建,开启<b class='flag-5'>国产</b> GPU 黄金时代

    原科技加速国产破局

    7月27日上午,原科技与中国电子信息产业发展研究院、人工智能产业工作委员会、上海市集成电路行业协会、上海市力网络协会、上海赛西科技发展有限责任公司共同举办“芯节点·新突破——协同创新聚力 加速
    的头像 发表于 08-01 16:12 2057次阅读

    原科技亮相WAIC,以国产力使能互联网创新应用

    第六年参展,全面展示力基础设施建设、AI商业化落地和研发探索的最新成果。 原科技展台   展现多元智算进阶落地实践 当前,国家正大力推进“人工智能+”行动,强化力基础设施建设,促
    发表于 07-26 20:34 2924次阅读
    <b class='flag-5'>燧</b>原科技亮相WAIC,以<b class='flag-5'>国产</b><b class='flag-5'>算</b>力使能互联网创新应用

    弘华创携手合作伙伴共筑智能力新生态

    在数字经济加速演进的时代背景下,力作为核心生产力,正深刻重塑全球科技与产业竞争格局。近日,原科技、锐捷网络、厦门半导体与弘华创各方管理层在厦门举行战略会议,重点围绕国产
    的头像 发表于 06-23 11:51 1616次阅读