0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寒武纪历代深度学习处理器的各种参数信息

倩倩 来源:我是天边飘过一朵云 2020-04-17 09:04 次阅读

寒武纪神经网络处理器是中科院计算技术研究所发布的能运行深度神经网络实现人工智能算法的处理器硬件架构,下面是小编整理的寒武纪历代深度学习处理器的各种参数信息,大家不妨来看看。

1. 寒武纪1号:DianNao

陈天石等人提出的DianNao是寒武纪系列的第一个原型处理器结构,包含一个处理器核,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算(如加法、乘法等),65mm工艺下功耗为0.485W,面积3.02平方毫米。在若干代表性神经网络上的实验结果表明,DianNao的平均性能超过主流CPU核的100倍,面积和功耗仅为CPU核的1/30~1/5,效能提升达三个数量级;DianNao的平均性能与主流通用图形处理器(NVIDIA K20M)相当,但面积和功耗仅为后者的百分之一量级。

DianNao要解决的核心问题是如何使有限的内存带宽满足运算功能部件的需求,使运算和访存之间达到平衡,从而实现高效能比。其难点在于选取运算功能部件的数量、组织策略以及片上随机存储器(RAM)的结构参数。由于整个结构参数空间有上千万种选择,而模拟器运行速度不及真实芯片的十万分之一,我们不可能蛮力尝试各种可能的设计参数。为解决此问题,提出了一套基于机器学习的处理器性能建模方法,并基于该模型最终为DianNao选定了各项设计参数,在运算和访存间实现了平衡,显著提升了执行神经网络算法时的效能。

即使数据已经从内存移到了片上,搬运的能耗依然非常高。英伟达公司首席科学家史蒂夫·凯科勒(Steve Keckler)曾经出,在40m工艺下,将64位数据搬运20毫米的能耗是做64位浮点乘法的数倍。因此,要降低处理器功耗,仅仅降低运算功耗是不够的,必须对片上数据搬运进行优化。我们提出了对神经网络进行分块处理,将不同类型的数据块存放在不同的片上随机存储器中,并建立理论模型来刻画随机存储器与随机存储器、随机存储器与运算部件、随机存储器与内存之间的搬运次数,进而优化神经网络运算所需的数据搬运次数。相对于CPU/GPU上基于缓存层次的数据搬运,DianNao可将数据搬运次数减少至前者的1/30~1/10。

2. 寒武纪2号:DaDianNao

近年来兴起的深度神经网络在模式识别领域取得了很好的应用效果,但这类神经网络的隐层数量和突触数量远多于传统神经网络。例如,著名的谷歌大脑包括了100多亿个突触。百度采用的大规模深度学习神经网络包含200多亿个突触。急剧增长的神经网络规模给神经网络处理器带来了挑战。单个核已经难以满足不断增长的应用需求。将神经网络处理器扩展至多核成为自然之选。DaDianNao在DianNao的基础上进一步扩大了处理器的规模,包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。在28nm工艺下,DaDianNao的主频为606MHz,面积67.7平方毫米,功耗约16W。单芯片性能超过了主流GPU的21倍,而能耗仅为主流GPU的1/330。64芯片组成的计算系统的性能较主流GPU提升450倍,但总能耗仅为后者的1/150。

3. 寒武纪3号:PuDianNao

神经网络已成为模式识别等领域的主流算法,但用户很多时候可能更倾向于使用其他一些经典的机器学习算法。例如程序化交易中经常使用线性回归这类可解释性好、复杂度低的算法。在此背景下,我们研发了寒武纪3号多用途机器学习处理器---PuDianNao,可支持k-最近邻、k-均值、朴素贝叶斯、线性回归、支持向量机、决策树、神经网络等近10种代表性机器学习算法。在65nm工艺下,PuDianNao的主频为1GHz,峰值性能达每秒10560亿次基本操作,面积3.51平方毫米,功耗为0.596W。PuDianNao运行上述机器学习算法吋的平均性能与主流通用图形处理器相当,但面积和功耗仅为后者的百分之一量级。PuDianNao的结构设计主要有两个难点:运算单元设计和存储层次设计,分别对应于机器学习的运算特征和结构特征。其中运算单元设计的出发点是高效实现机器学习最频繁的运算操作,而存储层次设计则主要根据访存特征提高各机器学习算法中数据的片内重用,降低片外访存带宽的需求,充分发挥运算单元的计算能力,避免片外访存成为性能瓶颈。在运算单元设计方面,提出了一种机器学习运算单元(Machine Learning Unit, MLU)来支持各种机器学习方法中共有的核心运算,包括:点积(线性回归、支持向量机、神经网络)、距离计算(k-最近邻、k-均值)计数(决策树和朴素贝叶斯)、排序(k-最近邻、k-均值)和非线性函数计算(支持向量机和神经网络)等。机器学习运算单元被分成了计数器、加法器、乘法器、加法树、Acc和Misc6个流水线阶段。

在存储层次设计方面,设计了HotBuf(HB)、ColdBuf(CB)和OutputBuf(OB)3个片上数据缓存HotBuf存储输入数据,具有最短重用距离的数据。ColdBuf存放相对较长重用距离的输入数据。OutputBuf存储输出数据或者临时结果。这样设计的原因有两个:第一,在各种机器学习算法中,数据的重用距离通常可以分为两类或三类,因此设计了3个片上数据缓存;第二,机器学习算法中不同类型的数据读取宽度不同,因此设置了分开的缓存来降低不同的宽度带来的开销。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4538

    浏览量

    98438
  • 算法
    +关注

    关注

    23

    文章

    4438

    浏览量

    90552
  • 寒武纪
    +关注

    关注

    11

    文章

    182

    浏览量

    73714
收藏 人收藏

    评论

    相关推荐

    “AI芯片第一股”寒武纪发布2023年度业绩快报 亏8.36亿元!

    “AI芯片第一股”寒武纪(688256)在2024年2月28日发布2023年度业绩快报。
    的头像 发表于 03-04 13:41 301次阅读
    “AI芯片第一股”<b class='flag-5'>寒武纪</b>发布2023年度业绩快报 亏8.36亿元!

    寒武纪与智象未来联手,推动视觉大模型的技术创新与应用

    在大模型领域,寒武纪自底层硬件架构至基础软件更新,皆针对大模型的实际应用场景进行了细致优化。依托高效的推理引擎MagicMind,寒武纪思元(MLU)系列云端智能加速卡支持输入输出变换、提升算子效率以及图融合等尖端技术,全力赋能智象未来大模型的应用部署。
    的头像 发表于 01-24 09:59 235次阅读

    寒武纪与智象未来达成战略合作并完成大模型适配

    1月22日,寒武纪与智象未来 (HiDream.ai) 在北京签订战略合作协议,双方将通过资源共享、优势互补,依托各自在大模型领域的技术积累,持续产品适配,携手推动视觉大模型的创新与落地。
    的头像 发表于 01-23 13:46 249次阅读
    <b class='flag-5'>寒武纪</b>与智象未来达成战略合作并完成大模型适配

    深理工联合深圳先进院、海光、寒武纪等设立算力微电子产业联盟

    深圳理工大学消息显示,深圳算力微电子产业联盟由深圳理工大学(筹)牵头,联合中国科学院深圳先进技术研究院、海光信息、曙光信息、中科寒武纪等国内知名企业共同成立,联盟在深圳、粤港澳大湾区乃至全国集成电路领域的各方面的力量和创新资源
    的头像 发表于 11-16 16:05 389次阅读

    寒武纪的思元(MLU)云端智能加速卡与百川智能完成大模型适配,携手创新生成式AI

    近日,寒武纪思元(MLU)系列云端智能加速卡与百川智能旗下的大模型Baichuan2-53B、Baichuan2-13B、Baichuan2-7B等已完成全面适配,寒武纪思元(MLU)系列产品
    的头像 发表于 11-06 20:32 832次阅读
    <b class='flag-5'>寒武纪</b>的思元(MLU)云端智能加速卡与百川智能完成大模型适配,携手创新生成式AI

    寒武纪和中电工程签订战略合作协议 共筑绿色智慧数据中心

    陈天石介绍了寒武纪的发展历史、技术优势和产业生态情况。陈天石表示,中电工程和寒武纪在技术创新、生态合作、算力落地等方面互补性强,期望与中电工程通力合作,不断拓展合作的深度、广度,互惠共赢、共促发展。
    的头像 发表于 10-29 09:27 400次阅读

    寒武纪回应美国AI芯片出口管制新规:正进一步解读和分析

    公司产品大模型的要求事项是否能满足对寒武纪公司产品基本硬件架构的指令集合设计从后续软件进行升级时,大规模的重复模式,即自然语言处理应用程序,人工智能应用场景进行优化和设计的。”
    的头像 发表于 10-19 10:27 478次阅读

    寒武纪董事长陈天石再次承诺:不以任何方式减持公司股份

    事实上,陈天石也在不久前承诺过不会减少持有股份。2023年7月28日,寒武纪发表《首次公开发行部分限售股上市流通公告》。寒武纪董事长陈天石、艾溪合伙及全体董事会董事承诺不减分。
    的头像 发表于 09-27 09:56 495次阅读
    <b class='flag-5'>寒武纪</b>董事长陈天石再次承诺:不以任何方式减持公司股份

    寒武纪:实际控制人陈天石自愿承诺不减持公司股份

    据公告,寒武纪25日从公司的实际支配者兼理事长、总经理陈天石博士处收到了“《承诺函》”的文件。陈天石博士始终坚定地对公司前景持乐观态度,与公司管理层一道,认真履行职责,全力推动公司发展。
    的头像 发表于 09-26 09:30 305次阅读

    持续亏损、裁员,创投股东减持套现!“AI芯片第一股”寒武纪前路漫漫

    电子发烧友网报道(文/李弯弯)9月22日晚间,寒武纪发布公告称,公司股东国投创业基金已经通过大宗交易方式减持寒武纪约219万股股份,占目前公司总股本的0.52%,通过集中竞价方式减持寒武纪约521
    的头像 发表于 09-26 09:03 1700次阅读

    OpenCV库在图像处理深度学习中的应用

    本文深入浅出地探讨了OpenCV库在图像处理深度学习中的应用。从基本概念和操作,到复杂的图像变换和深度学习模型的使用,文章以详尽的代码和解
    的头像 发表于 08-18 11:33 446次阅读

    深度学习服务器怎么做 深度学习服务器diy 深度学习服务器主板用什么

    。因此,深度学习服务器逐渐成为了人们进行深度学习实验的必要工具。本文将介绍深度学习服务器的DIY
    的头像 发表于 08-17 16:11 495次阅读

    什么是深度学习算法?深度学习算法的应用

    什么是深度学习算法?深度学习算法的应用 深度学习算法被认为是人工智能的核心,它是一种模仿人类大脑
    的头像 发表于 08-17 16:03 1348次阅读

    深度学习算法简介 深度学习算法是什么 深度学习算法有哪些

    深度学习算法简介 深度学习算法是什么?深度学习算法有哪些?  作为一种现代化、前沿化的技术,
    的头像 发表于 08-17 16:02 6163次阅读

    玉龙810芯片和寒武纪芯片对比

    玉龙810芯片和寒武纪芯片对比 随着人工智能技术的不断发展,芯片作为AI发展的重要基础,成为了各大企业竞相研发的焦点。而在这些芯片中,玉龙810芯片和寒武纪芯片是备受瞩目的两种,下面我们将从性能
    的头像 发表于 08-17 11:09 2693次阅读