0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寒武纪历代深度学习处理器的各种参数信息

倩倩 来源:我是天边飘过一朵云 2020-04-17 09:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

寒武纪神经网络处理器是中科院计算技术研究所发布的能运行深度神经网络实现人工智能算法的处理器硬件架构,下面是小编整理的寒武纪历代深度学习处理器的各种参数信息,大家不妨来看看。

1. 寒武纪1号:DianNao

陈天石等人提出的DianNao是寒武纪系列的第一个原型处理器结构,包含一个处理器核,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算(如加法、乘法等),65mm工艺下功耗为0.485W,面积3.02平方毫米。在若干代表性神经网络上的实验结果表明,DianNao的平均性能超过主流CPU核的100倍,面积和功耗仅为CPU核的1/30~1/5,效能提升达三个数量级;DianNao的平均性能与主流通用图形处理器(NVIDIA K20M)相当,但面积和功耗仅为后者的百分之一量级。

DianNao要解决的核心问题是如何使有限的内存带宽满足运算功能部件的需求,使运算和访存之间达到平衡,从而实现高效能比。其难点在于选取运算功能部件的数量、组织策略以及片上随机存储器(RAM)的结构参数。由于整个结构参数空间有上千万种选择,而模拟器运行速度不及真实芯片的十万分之一,我们不可能蛮力尝试各种可能的设计参数。为解决此问题,提出了一套基于机器学习的处理器性能建模方法,并基于该模型最终为DianNao选定了各项设计参数,在运算和访存间实现了平衡,显著提升了执行神经网络算法时的效能。

即使数据已经从内存移到了片上,搬运的能耗依然非常高。英伟达公司首席科学家史蒂夫·凯科勒(Steve Keckler)曾经出,在40m工艺下,将64位数据搬运20毫米的能耗是做64位浮点乘法的数倍。因此,要降低处理器功耗,仅仅降低运算功耗是不够的,必须对片上数据搬运进行优化。我们提出了对神经网络进行分块处理,将不同类型的数据块存放在不同的片上随机存储器中,并建立理论模型来刻画随机存储器与随机存储器、随机存储器与运算部件、随机存储器与内存之间的搬运次数,进而优化神经网络运算所需的数据搬运次数。相对于CPU/GPU上基于缓存层次的数据搬运,DianNao可将数据搬运次数减少至前者的1/30~1/10。

2. 寒武纪2号:DaDianNao

近年来兴起的深度神经网络在模式识别领域取得了很好的应用效果,但这类神经网络的隐层数量和突触数量远多于传统神经网络。例如,著名的谷歌大脑包括了100多亿个突触。百度采用的大规模深度学习神经网络包含200多亿个突触。急剧增长的神经网络规模给神经网络处理器带来了挑战。单个核已经难以满足不断增长的应用需求。将神经网络处理器扩展至多核成为自然之选。DaDianNao在DianNao的基础上进一步扩大了处理器的规模,包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。在28nm工艺下,DaDianNao的主频为606MHz,面积67.7平方毫米,功耗约16W。单芯片性能超过了主流GPU的21倍,而能耗仅为主流GPU的1/330。64芯片组成的计算系统的性能较主流GPU提升450倍,但总能耗仅为后者的1/150。

3. 寒武纪3号:PuDianNao

神经网络已成为模式识别等领域的主流算法,但用户很多时候可能更倾向于使用其他一些经典的机器学习算法。例如程序化交易中经常使用线性回归这类可解释性好、复杂度低的算法。在此背景下,我们研发了寒武纪3号多用途机器学习处理器---PuDianNao,可支持k-最近邻、k-均值、朴素贝叶斯、线性回归、支持向量机、决策树、神经网络等近10种代表性机器学习算法。在65nm工艺下,PuDianNao的主频为1GHz,峰值性能达每秒10560亿次基本操作,面积3.51平方毫米,功耗为0.596W。PuDianNao运行上述机器学习算法吋的平均性能与主流通用图形处理器相当,但面积和功耗仅为后者的百分之一量级。PuDianNao的结构设计主要有两个难点:运算单元设计和存储层次设计,分别对应于机器学习的运算特征和结构特征。其中运算单元设计的出发点是高效实现机器学习最频繁的运算操作,而存储层次设计则主要根据访存特征提高各机器学习算法中数据的片内重用,降低片外访存带宽的需求,充分发挥运算单元的计算能力,避免片外访存成为性能瓶颈。在运算单元设计方面,提出了一种机器学习运算单元(Machine Learning Unit, MLU)来支持各种机器学习方法中共有的核心运算,包括:点积(线性回归、支持向量机、神经网络)、距离计算(k-最近邻、k-均值)计数(决策树和朴素贝叶斯)、排序(k-最近邻、k-均值)和非线性函数计算(支持向量机和神经网络)等。机器学习运算单元被分成了计数器、加法器、乘法器、加法树、Acc和Misc6个流水线阶段。

在存储层次设计方面,设计了HotBuf(HB)、ColdBuf(CB)和OutputBuf(OB)3个片上数据缓存HotBuf存储输入数据,具有最短重用距离的数据。ColdBuf存放相对较长重用距离的输入数据。OutputBuf存储输出数据或者临时结果。这样设计的原因有两个:第一,在各种机器学习算法中,数据的重用距离通常可以分为两类或三类,因此设计了3个片上数据缓存;第二,机器学习算法中不同类型的数据读取宽度不同,因此设置了分开的缓存来降低不同的宽度带来的开销。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106828
  • 算法
    +关注

    关注

    23

    文章

    4762

    浏览量

    97172
  • 寒武纪
    +关注

    关注

    13

    文章

    212

    浏览量

    74799
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    寒武纪“炸裂”财报!一季度营收增长40倍,积极备货应对“爆单”?

    电子发烧友网报道(文/梁浩斌)寒武纪,交出一份炸裂财报!在4月18日,寒武纪公布了2024年年报和2025年一季度报告,其中2024年全年营收11.74亿元,同比增长65.56%;亏损4.52亿元
    的头像 发表于 04-22 09:07 2544次阅读
    <b class='flag-5'>寒武纪</b>“炸裂”财报!一季度营收增长40倍,积极备货应对“爆单”?

    寒武纪3000亿市值与GPU厂商密集IPO,AI芯片正是当打之年

      电子发烧友网报道(文/黄晶晶)就在最近,寒武纪市值冲上3000亿元,创造了半导体企业的市值奇迹。2024年1月10日收盘当天寒武纪股价报729.97元,上涨2.48%,市值3047亿元。盘中最
    的头像 发表于 01-20 08:16 4539次阅读
    <b class='flag-5'>寒武纪</b>3000亿市值与GPU厂商密集IPO,AI芯片正是当打之年

    寒武纪引领AI芯片软件新生态

    寒武纪成立的初衷是为“人工智能的大爆发”提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。多年来,寒武纪坚持训练推理融合、统一的基础软件平台研发策略,构建从自研芯片架构到高性能软件平台的完整
    的头像 发表于 11-06 11:23 769次阅读
    <b class='flag-5'>寒武纪</b>引领AI芯片软件新生态

    商汤科技与寒武纪达成战略合作

    近日,商汤科技与中科寒武纪科技股份有限公司(以下简称“寒武纪”)签署面向新发展阶段的战略合作协议,重点推进软硬件的联合优化,并共同构建开放共赢的产业生态。
    的头像 发表于 10-15 17:54 546次阅读

    寒武纪成功适配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。代码地址和测试步骤见文末,开发者可以在寒武纪软硬件平台上第一时间体验DeepSee
    的头像 发表于 10-11 17:14 1206次阅读
    <b class='flag-5'>寒武纪</b>成功适配DeepSeek-V3.2-Exp模型

    寒武纪股价破1200大关创历史新高 DeepSeek适配国产芯片成直接原因

    算力市占率均居第一,这家公司自研的MLU架构与软件栈深度耦合,奠定了国产替代核心底座,被视作挑战英伟达的唯一本土力量。 除了寒武纪之外,海光信息、中芯国际、盛美上海这些半导体个股今天也出现了不同程度的大幅度上涨。以最终收盘的股价
    的头像 发表于 08-26 13:54 764次阅读
    <b class='flag-5'>寒武纪</b>股价破1200大关创历史新高 DeepSeek适配国产芯片成直接原因

    寒武纪85后创始人陈天石身价超1500亿

    在3月份胡润研究院发布的《2025胡润全球富豪榜》上,寒武纪创始人陈天石以870亿元人民币身家位列第195位。现在在资本的追逐下,寒武纪85后创始人陈天石身价超1500亿。 近日,在英伟达暂停H20
    的头像 发表于 08-26 10:37 6173次阅读

    寒武纪联手阶跃星辰成立模芯生态创新联盟

    近日,阶跃星辰发布了新一代基础大模型Step 3。Step 3兼顾智能与效率,通过模型和系统联合创新,实现了行业前列的推理解码效率,将于7月31日面向全球企业和开发者开源。目前,寒武纪已初步实现对Step 3的支持。
    的头像 发表于 07-31 11:26 953次阅读

    寒武纪思元370芯片参数特性详解

    寒武纪首次采用chiplet技术将2颗AI计算芯粒封装为一颗AI芯片,通过不同芯粒组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片。
    的头像 发表于 04-24 17:49 4274次阅读
    <b class='flag-5'>寒武纪</b>思元370芯片<b class='flag-5'>参数</b>特性详解

    TPU处理器的特性和工作原理

    张量处理单元(TPU,Tensor Processing Unit)是一种专门为深度学习应用设计的硬件加速。它的开发源于对人工智能(AI)和机器
    的头像 发表于 04-22 09:41 3419次阅读
    TPU<b class='flag-5'>处理器</b>的特性和工作原理

    寒武纪一季度营收大涨4230% 净利润3.55亿 扭亏为盈

    4月18日晚间,国产AI芯片龙头寒武纪发布了财务报告,包括有2025年第一季度财务报告和2024年年度财务报告。 在2025年第一季度,寒武纪营收达到11.11亿,同比增长高达4230.22
    的头像 发表于 04-19 14:15 1582次阅读

    美国业务收入占比低,寒武纪等回应加征关税

    相关产品和技进行了限制。本次加征关税,对公司的经营管理不会造成实质性影响。   公司自成立以来一直专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片,公司的主营业务是应用于各类云服务、边缘计算设备、终端设
    发表于 04-12 00:59 925次阅读
    美国业务收入占比低,<b class='flag-5'>寒武纪</b>等回应加征关税

    寒武纪增资全资子公司上海寒武纪

    近日,寒武纪科技公司发布公告,宣布了一项重要的增资计划。为了保障募投项目的顺利实施,并满足全资子公司上海寒武纪的实际运营需求,寒武纪决定使用募集资金1500万元及自有资金1.85亿元,合计2亿元
    的头像 发表于 02-05 13:44 1520次阅读

    量子处理器是什么_量子处理器原理

    量子处理器(QPU)是量子计算机的核心部件,它利用量子力学原理进行高速数学和逻辑运算、存储及处理量子信息。以下是对量子处理器的详细介绍:
    的头像 发表于 01-27 11:53 1809次阅读

    寒武纪发布2024年度业绩预告

    昨日晚间,国内领先的智能芯片设计企业寒武纪发布了其2024年度的业绩预告。据公告显示,公司预计全年营业收入将在10.7亿元至12亿元之间,与去年同期相比,实现了50.83%至69.16%的显著增长
    的头像 发表于 01-15 10:30 1256次阅读