0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Nature:人工智能芯片!

旺材芯片 来源:纳米人 2023-09-05 16:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

具有数十亿参数的人工智能AI)模型可以在一系列任务中实现高精度,但它们加剧了传统通用处理器(例如图形处理单元或中央处理单元)的低能效。模拟内存计算(模拟 AI)可以通过在“内存块”上并行执行矩阵向量乘法来提供更好的能源效率。然而,模拟人工智能尚未在需要许多此类图块以及图块之间神经网络激活的有效通信的模型上证明软件等效(SWeq)准确性。

有鉴于此,美国IBM 研究中心S. Ambrogio(一作兼通讯)等人展示了一款14 nm的模拟 AI 芯片,该芯片结合了跨 34 个区块的 3500 万个相变存储器件、大规模并行区块间通信和模拟低功耗外围电路,可实现12.4 万亿次 / 秒 / 瓦运算性能,能效是传统数字计算机芯片的14倍。作者展示了小型关键字识别网络的完全端到端 SWeq 精度,以及更大的 MLPerf 循环神经网络传感器 (RNNT) 上接近 SWeq 的精度,其中超过4500万个权重映射到跨越5个芯片的1.4亿个相变存储器件上。

芯片架构

作者展示了芯片的显微照片,突出显示了34个模拟块的 2D 网格,每个块都有512×2048PCM 交叉阵列。当持续时间向量从模拟快发送到OLP时,芯片有效地实现了基于斜坡的模数转换器ADC)。所有权重配置、MAC操作和路由方案均由每个图块上可用的用户可配置本地控制器(LC) 定义。本地SRAM存储定义数百个控制信号的时间序列的所有指令,从而实现高度灵活的测试并简化设计验证,与预定义状态机相比,面积损失较小。作者验证了持续时间可以在整个芯片上可靠地传输,最大误差等于5ns(较短持续时间为 3ns)。

d0bbf1c2-4bba-11ee-a25d-92fbcf53809c.png

图 芯片架构

d10ba60e-4bba-11ee-a25d-92fbcf53809c.png

图 可重构架构和路由

KWS任务

为了演示芯片在端到端网络中的性能,实现了多类KWS任务。作者采用了 FC网络,实现了 86.75% 的分类准确度。为了在芯片上实现完全端到端的传输,作者进行了一系列修改,最终端到端实现总共使用四个图块。为了提高MAC精度并补偿外围电路的不对称性,引入了MAC不对称平衡(AB)方法,测得的KWS精度为86.14%,完全在 MLPerf SWeq“等精度”极限 85.88%之内。

d15d399c-4bba-11ee-a25d-92fbcf53809c.png

图 端到端 KWS 任务

芯片上的 RNNT 映射

作者实施了MLPerf数据中心网络RNNT作为行业相关的工作负载演示。当 RNNT等大型DNN以降低的数字精度实现时,整个网络的最佳精度选择可能会有所不同。研究表明即使使用激进的量化,不易受影响的层或整个网络块仍将提供较低的 WER,而高度敏感的块即使对于少量的权重量化也将表现出较高的 WER。对每个单独的层重复此过程以识别最敏感的层,接着将 MLPerf 权重映射到分布在5个芯片上的142个图块上。在总共 45,321,309 个网络权重和偏差参数中,45,261,568 个被映射到模拟存储器(权重的 99.9%)。

d1a90020-4bba-11ee-a25d-92fbcf53809c.png

图 用于语音转录的 MLPerf RNNT 网络

准确度结果

作者展示了2513个音频查询的完整 Librispeech 验证数据集的权重映射和编程后的实验WER。总WER为9.475%,与SW 基线相比总体下降了 2.02%。在本实验中,通过芯片推断完整的Librispeech验证数据集并保存输出结果。然后将这些输入到芯片 2 中,依此类推,输入到所有 5 个芯片中。即使在PCM漂移超过1周后重复进行,且没有任何重新校准或重量重新编程,RNNT WER 也仅下降了 0.4%。

d1eebab6-4bba-11ee-a25d-92fbcf53809c.png

图 在 MLPerf RNNT上使用Librispeech进行WER实验

电源和系统性能

作者还测量了推理操作期间每个芯片的全部功耗。所有控制和通信电路均以 0.8V 驱动。芯片最佳功率性能 为12.40 TOPS/W。通过将积分时间减半,芯片的 TOPS/W 可以再提高 25%,但 WER 会额外降低1%。随着重量的增加,使用本文报道的芯片的模拟人工智能系统可以在3.57W的功率下实现6.704TOPS/W,比MLPerf的最佳能效提高了14 倍,WER 为 9.258%。

d1f4fde0-4bba-11ee-a25d-92fbcf53809c.png

图 MLPerf RNNT功率和系统性能

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54373

    浏览量

    468982
  • 人工智能
    +关注

    关注

    1819

    文章

    50287

    浏览量

    266826
  • 存储器件
    +关注

    关注

    1

    文章

    34

    浏览量

    10009

原文标题:Nature:人工智能芯片!

文章出处:【微信号:wc_ysj,微信公众号:旺材芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入式人工智能课程(华清远见)

    嵌入式 AI 编译器优化:华清远见课程,解锁极致端侧性能 随着人工智能从云端全面向边缘侧和终端侧下沉,“万物智联”的时代已经悄然到来。然而,在这股浪潮背后,隐藏着一个巨大的技术鸿沟:在算力受限
    发表于 04-16 18:47

    人工智能五大核心:芯片、算力、数据、算法、能源 !

    在全球科技革命的浩荡浪潮中,人工智能已成为重塑人类文明形态的核心驱动力。那么,人工智能究竟由何构成?支撑其持续迭代进化的内在技术体系又是什么?本文聚焦人工智能发展的五大核心支柱:芯片
    的头像 发表于 04-16 12:47 443次阅读
    <b class='flag-5'>人工智能</b>五大核心:<b class='flag-5'>芯片</b>、算力、数据、算法、能源 !

    浅谈人工智能(2)

    接前文《浅谈人工智能(1)》。 (5)什么是弱人工智能、强人工智能以及超人工智能? 弱人工智能(Weak AI),也称限制领域
    的头像 发表于 02-22 08:24 319次阅读
    浅谈<b class='flag-5'>人工智能</b>(2)

    维信诺与清华北大合作成果亮相国际顶级期刊Nature

    1月28日,清华大学联合北京大学与维信诺合作开发的世界首款柔性存算芯片——FLEXI,在国际顶级期刊《自然》(Nature)上发表。这标志着我国在柔性电子与边缘人工智能硬件领域取得重要突破,填补了高性能柔性AI计算
    的头像 发表于 02-11 14:31 618次阅读

    开发智能体配置-内容合规

    智能体上架前,需完成“人工智能生成合成内容标识”和“大模型备案信息”填写 ,以供平台审核;可在智能体【配置】-【内容合规】中填写。 人工智能生成合成内容标识 “
    发表于 02-07 11:44

    自然智能与人工智能融合如何重塑芯片设计

    人类大脑是所有处理器中最复杂的,能够构思出不可思议的创意,解决复杂、微妙的问题。相比之下,人工智能擅长快速分析海量数据并高效执行任务。当自然智能人工智能融合的结果,就是芯片设计领域正
    的头像 发表于 01-15 13:58 662次阅读

    人工智能+消费:技术赋能与芯片驱动未来

    电子发烧友网站提供《人工智能+消费:技术赋能与芯片驱动未来.pptx》资料免费下载
    发表于 11-26 14:50 41次下载

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍这对开发人员意味着什么,以及使用 Neuton 模型如何改进您的开发和终端
    发表于 08-31 20:54

    人工智能+”,走老路难赚到新钱

    昨天的“人工智能+”刷屏了,这算是官方第一次对“人工智能+”这个名称定性吧?今年年初到现在,涌现出了一大批基于人工智能的创业者,这已经算是AI2.0时代的第三波创业潮了,第一波是基础大模型,第二波
    的头像 发表于 08-27 13:21 860次阅读
    “<b class='flag-5'>人工智能</b>+”,走老路难赚到新钱

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    家人们,最近在研究人工智能相关设备,挖到了一款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 一、开箱即学,便捷拉满 这个实验箱真的是为使用者
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    家人们,最近在研究人工智能相关设备,挖到了一款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 一、开箱即学,便捷拉满 这个实验箱真的是为使用者
    发表于 08-07 14:23

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    开售RK3576 高性能人工智能主板

    ,HDMI-4K 输出,支 持千兆以太网,WiFi,USB 扩展/重力感应/RS232/RS485/IO 扩展/I2C 扩展/MIPI 摄像头/红外遥控 器等功能,丰富的接口,一个全新八核拥有超强性能的人工智能
    发表于 04-23 10:55