0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寒武纪首颗AI训练芯片:7纳米制程且算力提升四倍

电子观察说 来源:时刻头条 作者:电子观察说 2021-01-21 13:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1月21日,寒武纪思元290智能芯片及加速卡、玄思1000智能加速器在官网低调亮相,寒武纪表示该系列产品已实现规模化出货。去年,寒武纪招股书曾简单披露了一款训练芯片的“彩蛋”,此后,寒武纪思元290芯片就一直被业界广泛关注并引发行业诸多猜想。如今,随着新一代训练产品线集中亮相,寒武纪略显“神秘”的训练芯片及相应的业务布局逐渐清晰。

思元290智能芯片是寒武纪的首颗训练芯片,采用台积电7nm先进制程工艺,集成460亿个晶体管,支持MLUv02扩展架构,全面支持AI训练、推理或混合型人工智能计算加速任务。寒武纪MLU290-M5智能加速卡搭载思元290智能芯片,采用开放加速模块OAM设计,具备64个MLU Core,1.23TB/s内存带宽以及全新MLU-Link™多芯互联技术,在350W的最大散热功耗下提供AI算力高达1024 TOPS(INT4)。

寒武纪玄思1000智能加速器,在2U机箱内集成4颗思元290智能芯片,高速本地闪存、Mellanox InfiniBand网络,对外提供高速MLU-Link™接口,打破智能芯片、服务器、POD与集群的传统数据中心横向扩展架构,实现AI算力在计算中心级纵向扩展,是AI算力的高集成度平台。寒武纪训练产品线采用自适应精度训练方案,面向互联网、金融、交通、能源、电力和制造等领域的复杂AI应用场景提供充裕算力,推动人工智能赋能产业升级。

思元290采用MLUv02扩展架构

MLUv02架构为寒武纪MLU200全产品线共享,满足云、边、端三个场景的算力需求。云端训练对AI算力的要求更为苛刻,因此寒武纪对思元290的MLUv02架构进行了多项扩展,包括业内领先的MLU-Link™多芯互联技术、高带宽HBM2内存、高速片上总线NOC以及新一代PCIe 4.0接口。相比寒武纪思元270芯片,思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍。新架构结合7nm制程,思元290可提供更优性能功耗比,以及多MLU系统的扩展能力。

MLU290的MLUv02架构进行了多项扩展

寒武纪MLU-Link™多芯互联技术

近年来,AI算法模型的复杂程度高速增长,对算力和训练速度提出了更高的要求。为了构建更强大的计算平台,多芯片间的互联技术已成为市场刚需。

寒武纪推出MLU-Link™多芯互联技术,并首次搭载于寒武纪思元290芯片,每颗思元290的多芯互联总带宽高达600GB/s。MLU-Link™具备丰富的互联特性,突破PCIe带宽和互联的瓶颈,相比思元270芯片通过PCIe并行的通讯方式,带宽提高19倍。MLU-Link™多芯互联技术支持多颗思元芯片无缝互联,支持跨系统互联,将纵向扩展能力整合到整个人工智能计算中心(AIDC),可以端到端加速大型AI模型训练。

寒武纪vMLU解决方案

不同场景下的AI训练对计算和存储的要求千差万别,如何提供更灵活也更稳定的服务,但同时让算力得到充分地利用,是AIDC面临的持续挑战。寒武纪虚拟化技术vMLU,支持在思元290上实现4个相互隔离的AI计算实例,每个实例独占计算、内存和编解码资源。实例之间的硬件资源互不干扰,即使在虚拟化环境下仍可保持90%以上的极高效率,帮助客户充分利用硬件资源。

vMLU还可以帮助思元290芯片提供最佳的灵活性。通过热迁移技术,云管理员可将正在运行的AI负载及其应用程序移动到另外一台主机上,从而平衡整个AIDC的负载,并实现更好的容灾功能。

寒武纪首款训练智能加速卡MLU290-M5

寒武纪MLU290-M5智能加速卡搭载了思元290智能芯片,采用开放加速模块OAM设计,具备64个MLU Core,1.23TB/s 内存带宽以及全新MLU-Link™多芯互联技术,在350w的最大散热功耗下提供AI算力高达1024 TOPS(INT4)。

寒武纪首款智能加速器玄思1000

寒武纪首款智能加速器玄思1000包含4片思元290智能加速卡,最大AI算力超过4100万亿次每秒(4.1 PetaOPS INT4),一台玄思1000计算单元就足以替代一个小型传统超级计算中心。

玄思1000内置高带宽低延时的MLU-Link™多芯互联技术,实现内部4颗思元290进行高速互联,同时打破服务器、紧耦合微集群(POD)与集群的传统数据中心横向扩展架构,将AIDC构建为节点、POD乃至超大规模混合扩展架构(Hybrid Scale-out),实现AI算力计算中心级纵向扩展,满足高性能、高扩展性、灵活性、高鲁棒性的要求。

重塑AIDC基础架构

算力、算法、数据是人工智能发展的三大要素,随着这几年AI的逐步发展,算力的核心地位更为凸显。人工智能技术落地于实际应用中需要芯片和硬件层面强大的算力支撑。算力已成为驱动AI产业化和产业AI化发展的关键要素。

下一代AIDC要求更多智能芯片无缝协同、并行运行的同时,还能保持高计算效率,从而提供超级巨大的算力,以应对超大规模训练的需要。寒武纪玄思1000智能加速器重新思考了未来AIDC的基础架构,在内部和外部采用统一的MLU-Link™多芯互联技术进行通讯,使得思元290智能芯片的互联范围可以从单机扩展到POD乃至整个计算中心,重塑了基础架构。

玄思1000配置8个对外互联的MLU-Link™接口,支持跨系统互联构建MLU POD。标准配置支持MLU POD 16、24、32。在POD内部,所有290芯片均可通过MLU-Link™多芯互联技术进行通讯,在带宽和延时方面实现了突破;POD外部通过玄思1000内置的网卡与其他系统进行通讯,实现了AI训练集群性能、扩展性和鲁棒性的协同提升。

o4YBAGAJFpWAC0W4AADP_k_qtac699.jpg

POD内所有思元芯片通过MLU-Link™全互联

除了标准配置的POD之外,在计算中心条件允许的前提下,通过MLU-Link™多芯互联技术,可实现1024颗或更多思元290互联,不需要额外的网卡即可实现无缝加速。

寒武纪Neuware™训练软件栈

寒武纪Neuware™软件栈为思元 290 芯片提供完善的软件及应用生态,支持业界主流的TensorFlow和PyTorch等深度学习框架,用户不需要改变使用习惯,即可在思元290芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。其中,基于Horovod分布式训练框架与MLU-Link™多芯互联技术相互配合,让思元290在单机多卡、多机多卡的场景下达到业界领先的训练加速比。寒武纪Neuware™提供完善的开发工具包和社区支持,帮助用户在思元290芯片进行方便、灵活的定制开发及部署工作。配合强大的BANG智能编程语言及配套调试工具,用户可以为自定义的算法提供最佳性能调优。

2021年1月,IDC发布了《2020-2021 中国人工智能计算力发展评估报告》,该报告预计,中国人工智能市场规模在2020年达到62.7亿美元,2019-2024年的复合增长率为30.4%。IDC的调研还发现,超过九成的企业正在使用或者计划在三年内使用人工智能,其中74.5%的企业期望在未来可以采取具备公用设施意义的人工智能基础设施。

随着AI算法突飞猛进的发展,越来越多的模型训练需要巨量的算力支撑才能快速有效地实施,算力是未来人工智能应用取得突破的决定性因素。值得强调的是,在巨量的人工智能市场中,云服务市场表现更为突出。早前,2020年7月,IDC发布的另一份报告显示,2018至2024年,中国AI云服务市场年复合增长率将达到93.6%。而目前人工智能芯片仍处于成长期,未来三年,人工智能芯片市场将呈现多元化发展趋势。

寒武纪290产品线,有望在持续高速增长的人工智能市场尤其是云服务市场,抢占更多的市场份额,推动自身和AI行业的发展。据悉,寒武纪思元290芯片及加速卡已与部分硬件合作伙伴完成适配,并已实现规模化出货。

寒武纪最初布局终端IP场景,连续迭代推出让其声名鹊起的寒武纪1A、寒武纪1H、寒武纪1M系列处理器,而后迅速布局云端智能芯片及加速卡系列产品思元100和思元270,又于2019年推出基于思元220芯片的边缘智能加速卡。由此建立起覆盖云边端、训练、推理的完整产品矩阵,同时利用平台级基础系统软件Cambricon Neuware,连接全线产品,由点及面,实现了“训推一体、端云融合”。寒武纪也成为目前国际上少数几家全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术的企业之一。

以寒武纪一年迭代推出一到两款新品的研发速度,我们有理由开始期待,寒武纪的下一个新品 “彩蛋” 了。

fqj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54632

    浏览量

    470941
  • 寒武纪
    +关注

    关注

    13

    文章

    222

    浏览量

    75101
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中国AI企业50强发布!寒武纪位居榜首,AI芯片公司包揽前三

    主营业务及商业化不足的企业,上榜门槛高达95亿元,较2024年提升了35亿元;前十名门槛更是飙升至730亿元,是2024年的3;企业平均价值达到540亿元,同比增长140%。   在众多上榜企业中,AI
    的头像 发表于 01-21 09:08 7424次阅读
    中国<b class='flag-5'>AI</b>企业50强发布!<b class='flag-5'>寒武纪</b>位居榜首,<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>公司包揽前三

    业绩大爆发!寒武纪Q1财报发布,国产AI芯片的历史性拐点?

    股东的净利润为10.13亿元,同比增长185.04%。此次业绩高速增长的核心源于全球 AI 需求持续爆发、国产替代加速落地,以及公司思元系列芯片产品
    的头像 发表于 05-06 09:14 2186次阅读

    寒武纪Day 0适配DeepSeek-V4模型

    代码已开源到GitHub社区(点击文末“阅读原文”可直接跳转)。这一成果得益于寒武纪长期积累的自研 NeuWare 软件生态与芯片设计技术,也是寒武纪芯片与算法联合创新持续投入的延续
    的头像 发表于 04-29 10:14 470次阅读

    寒武纪2025年报解读:AI芯片的机遇与隐忧 营收64.97亿,同比暴涨453.21%

    竞争力持续拓展市场,积极推动人工智能应用场景落地,报告期内营业收入较上年同期大幅增长。 寒武纪发布的2025年年度报告,在AI芯片行业投下了一重磅炸弹。报告显示
    的头像 发表于 04-22 11:49 1847次阅读

    AI芯片企业赚疯了?寒武纪营收暴涨453.21%,沐曦推理GPU销量大增866.02%

    电子发烧友网报道(文/李弯弯)近期,多家AI芯片企业发布2025年年度报告,包括寒武纪、海光信息、沐曦股份、天数智芯等,多家企业实现营业收入大幅增长。如寒武纪营业收入同比激增453.2
    的头像 发表于 04-11 07:31 1.2w次阅读

    寒武纪去年营收增长超400% 净利润20.59亿同比扭亏 寒武纪首个盈利年度

    盈利年度。 寒武纪在2026年3月12日晚间发布的2025年年度报告犹如一重磅炸弹,在AI芯片行业和资本市场激起千层浪。寒武纪2025年年
    的头像 发表于 03-13 11:49 1794次阅读

    寒武纪实现对GLM-5的Day 0适配

    的技术积累,寒武纪得以快速实现对 GLM-5 的 Day 0 适配。  寒武纪一直重视芯片和算法的联合创新,致力于以软硬件协同的方式,优化大模型部署性能,降低部署成本。此前,我们对 GLM 系列模型进行了深入的软硬件协同性能优化
    的头像 发表于 02-12 15:07 1028次阅读

    寒武纪产品与众智FlagOS全面适配

    大模型的快速发展正推动AI需求进入爆发式增长阶段。与此同时,不同应用场景又对AI芯片提出了多样化的挑战:例如在大模型Prefill场景,
    的头像 发表于 11-17 09:16 1367次阅读
    <b class='flag-5'>寒武纪</b>产品与众智FlagOS全面适配

    寒武纪引领AI芯片软件新生态

    寒武纪成立的初衷是为“人工智能的大爆发”提供底层支持,不仅要硬件强大,更要软件通用、易用。多年来,
    的头像 发表于 11-06 11:23 1739次阅读
    <b class='flag-5'>寒武纪</b>引领<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>软件新生态

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下
    发表于 10-27 13:12

    商汤科技与寒武纪达成战略合作

    近日,商汤科技与中科寒武纪科技股份有限公司(以下简称“寒武纪”)签署面向新发展阶段的战略合作协议,重点推进软硬件的联合优化,并共同构建开放共赢的产业生态。
    的头像 发表于 10-15 17:54 975次阅读

    寒武纪成功适配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。代码地址和测试步骤见文末,开发者可以在寒武纪软硬件平台上第一时间体验DeepSeek-V3.2-Exp的亮点。
    的头像 发表于 10-11 17:14 2003次阅读
    <b class='flag-5'>寒武纪</b>成功适配DeepSeek-V3.2-Exp模型

    寒武纪股价破1200大关创历史新高 DeepSeek适配国产芯片成直接原因

    今日,寒武纪股价突破1200元!8月单月涨幅100%、市值站上5200亿,成为继贵州茅台之后的A股史上第二只千元股。 01 半导体芯片股集体爆发 寒武纪是中国AI
    的头像 发表于 08-26 13:54 1274次阅读
    <b class='flag-5'>寒武纪</b>股价破1200大关创历史新高 DeepSeek适配国产<b class='flag-5'>芯片</b>成直接原因

    寒武纪85后创始人陈天石身价超1500亿

    芯片生产和DeepSeek适配国产芯片的利好刺激下,加之还有国外投行高盛宣布将寒武纪-U目标价上调50%至1835元,AI芯片龙头
    的头像 发表于 08-26 10:37 7246次阅读

    商汤大装置Mall重磅发布

    近日,商汤科技联合华为、库帕思、海光、寒武纪、曦望Sunrise、壁仞科技、麒麟软件、摩尔线程等十余家国产生态伙伴,共同发布“商汤大装置Mall”。
    的头像 发表于 08-05 10:05 1356次阅读