0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Cornami构建了一个革命性的脉动阵列架构

SSDFans 来源:cc 2019-01-15 16:01 次阅读

科技界出现了许多为人工智能机器学习开发特殊芯片的初创公司。在加州圣克拉拉由老牌半导体分析公司Linley集团主办的Linley集团秋季处理器会议上,出现了一些最有趣的产品

一家总部位于圣克拉拉的创业公司Cornami进行了一场演讲。

其联合创始人和首席技术官Paul Masters描述了一种机器学习的新方式,可以安排芯片的各个元素进行机器学习“训练”(神经网络就是在这里发展起来的)和“推理”(神经网络在不断的基础上提供答案)。

Cornami一直在秘密运作,这是Masters首次公开关于该公司芯片运作方式的一些细节。

Cornami的目标是向大众市场提供芯片,包括“边缘计算”领域,其中汽车和消费电子产品特别需要具有高响应性能的芯片,并且在运行神经网络方面具有高能效。

Masters说,该芯片可追溯到20世纪70年代和80年代的技术,称为脉动阵列。脉动阵列具有很多计算元件,例如乘法—累加器,以执行作为神经网络的基本计算单元的矩阵乘法。用线将这些元素彼此连接,并连接到网格中的内存。脉动矩阵是根据心脏的收缩功能来命名的:就像血流一样,数据是通过这些计算元素“泵”出来的。

根据演示,脉动阵列在它们首次出现时并未真正被重视,但它们正在成为构建AI芯片的主要方式。Masters表示:“你已经看到了,它很酷,它来自70年代。”

“谷歌正在使用它们,还有微软以及数十家初创公司,”他观察到脉动阵列的普及。

但Masters讨论了Cornami如何采用独特的脉动阵列方法。“脉动阵列的诅咒在于它们是方形的,”Masters说。他指的是乘数累加器的对称排列。由于这种刚性布局,将数据移入和移出这些计算元素将占用芯片大量的工作,甚至比每个计算元素中的计算本身还要多。

Masters 说“传统芯片的功耗在哪里?”,这是个大问题。“数据被转储到DDR [DRAM内存]中,它必须进入核心进行计算,因此数据从DDR进入三级高速缓存,二级高速缓存和一级高速缓存,然后进入寄存器,之后开始进行计算。如果核心耗尽,就必须反过来,先退出并将所有临时数据转储回寄存器,L1缓存,L2,L3,一遍又一遍。“

Masters解释说,只要用到L1缓存就需要四倍于实际计算的功耗。如果要用DRAM,几乎很难做到,而且需要更大的功率来驱动芯片

Masters说:“传统机器中能效最低的就是移动数据”。解决方案是拥有数千个核心,通过保持数千个核心繁忙,可以避免返回到内存子系统,而只是简单地将计算的输入和输出从一个元素路由到下一个元素。“如果拥有8,000到32,000个核心,我们可以保持整个神经网络在一个芯片上”他说。

因此,为了降低进出内存的成本,Cornami芯片重新排列他们的电路,使计算元件可以切换到各种几何布局,有效地组织芯片上的计算活动,以满足目前的神经网络的需求。

“Cornami构建了一个可以根据需要构建任何尺寸,任何形状的脉动阵列的架构。” 脉动阵列可以被动态地重新排列成非正方形的各种新几何图形。这些奇怪的数组形状使得在计算元素之间移动输入和输出变得非常有效。因此,Cornami芯片可以最小化内存和缓存使用,从而“显著降低功耗和延迟,并提高性能”。

Masters自豪地说,凭借这种灵活性,单个Cornami芯片就可以处理整个神经网络,并且能够取代通常用于运行神经网络的CPUGPUFPGAASIC的各种组合。他表示,这是一个“芯片上的数据中心”,对于将AI置于汽车等“边缘计算”中具有重要意义。

Masters展示了一些性能统计数据:运行“SegNet”神经网络进行图像识别,与Nvidia“Titan V”GPU相比,Cornami芯片能够每秒处理877帧,功耗只有30瓦。而Titan GPU功耗250瓦,每秒只能处理8.6帧。

Cornami于2016年9月从Impact Venture Capital获得了300万美元的B轮风险投资。随后,该公司已收到资金,但尚未披露具体数额。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1777

    文章

    43920

    浏览量

    230731
  • 机器学习
    +关注

    关注

    66

    文章

    8136

    浏览量

    130613
  • AI芯片
    +关注

    关注

    17

    文章

    1658

    浏览量

    34424

原文标题:Cornami AI芯片:革命性的脉动阵列架构

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    长电科技推出了一项革命性的高精度热阻测试与仿真模拟验证技术

    在芯片封装技术日益迈向高密度、高性能的今天,长电科技引领创新,推出了一项革命性的高精度热阻测试与仿真模拟验证技术。
    的头像 发表于 03-08 13:33 147次阅读

    利用太赫兹超构表面开发一款革命性的生物传感器

    据麦姆斯咨询报道,近期,伦敦玛丽女王大学(Queen Mary University of London)和格拉斯哥大学(University of Glasgow)多学科研究人员展开合作,利用太赫兹超构表面(Metasurface)开发了一款革命性的生物传感器
    的头像 发表于 02-25 10:23 271次阅读
    利用太赫兹超构表面开发一款<b class='flag-5'>革命性</b>的生物传感器

    XR虚拟拍摄技术:短剧与微剧制作的革命性工具

    与微剧制作带来了革命性的变革,成为了引领行业发展的新引擎。 XR虚拟拍摄技术结合了扩展现实(XR)和虚拟拍摄两大核心要素,为短剧与微剧制作提供了前所未有的创意空间。通过运用先进的虚拟场景构建技术,制作人员可以轻松地打造出逼
    的头像 发表于 02-19 10:54 220次阅读

    在multisim中利用双运放ADA4096-2构建了低通滤波器进行仿真,引脚如何分配?

    我在multisim中利用双运放ADA4096-2构建了低通滤波器,并进行了仿真,之后感觉ADA4096的带宽只有500KHZ,因此想换成ADA4084-2试下。但multisi
    发表于 11-27 06:44

    深度解析多功能雷达架构和AESA技术

    有源电子扫描阵列(AESA)因其卓越的性能、多功能能力以及降低的功耗等特征使得防空作战雷达的性能发生了革命性的变化,而且可靠性更高、生命周期内的成本费用更低。
    发表于 11-03 10:35 196次阅读
    深度解析多功能雷达<b class='flag-5'>架构</b>和AESA技术

    基于PE的脉动阵列设计

    脉动阵列指的是多个相同的处理单元(简称 PE),按一定互联规则组成的网络,即称之为脉动阵列
    的头像 发表于 10-09 10:44 473次阅读

    Sheba推出革命性的MEMS自动对焦执行器

    据麦姆斯咨询报道,近期,MEMS技术领域的全球领导者Sheba Microsystems宣布推出一款革命性的MEMS自动对焦执行器新品,用于嵌入式视觉相机的主动无热化调焦,应用领域涵盖汽车、移动机器人、无人机、安防与监控等。
    发表于 10-07 09:55 384次阅读

    虚拟制片:LED屏幕与XR技术的革命性创新

    随着科技的迅速进步,电影制作技术已经进入了一个全新的时代——虚拟制片时代。虚拟制片技术的出现,使得电影制作不再受到物理拍摄条件的限制,为电影制作带来了前所未有的革命性创新。在虚拟制片中,LED屏幕
    的头像 发表于 09-13 17:38 362次阅读

    Armv8-R架构中的虚拟化概念和可能

    ,您将能够: •描述基本的虚拟化概念 •构建和运行示例代码来演示Armv8-R的虚拟化特性 体系结构 本指南中的源代码和注册表图是特定于Cortex-R52处理器的是第一个实现Armv8-R架构的处理器。其他处理器与Cortex
    发表于 08-02 09:27

    一张图看懂革命性可降解塑料——PGA

    但面临同类型材料生产技术限制、原料基材依赖进口等情况,生物降解材料并没有出现爆发式增长。然而,有这样一种材料却能完美化解这些问题,接下来,就让我们一起了解一下未来有望成为革命性降解材料的聚乙醇酸——PGA吧!
    的头像 发表于 06-29 15:11 1012次阅读
    一张图看懂<b class='flag-5'>革命性</b>可降解塑料——PGA

    使用CD4007阵列构建CMOS逻辑功能

    本实验活动的目标是使用CD4007晶体管阵列构建各种CMOS逻辑功能。CD4007包含三对互补的NMOS和PMOS晶体管。
    的头像 发表于 05-29 14:18 1200次阅读
    使用CD4007<b class='flag-5'>阵列</b><b class='flag-5'>构建</b>CMOS逻辑功能

    如何使用ESP8266、PIR传感器和Mongoose OS构建办公室保安?

    大家好! 我使用 ESP8266、PIR 传感器和 Mongoose OS 构建了办公室保安。检查下: https: //www.losant.com/blog/detectin
    发表于 05-23 07:37

    台通过USB远程控制的3D打印机,有人构建了通过WiFi控制的USB开关吗?

    我有台可以通过 USB 远程控制的 3D 打印机,有人构建了通过 WiFi 控制的 USB 开关吗?我希望能够将 2 USB 连接(来自不同的计算机)切换到 3D 控制器板。我想我可以做切换
    发表于 05-22 06:09

    yocto和SDK来构建环视应用程序,无法驱动摄像头怎么解决?

    :FSL_SDHC:0,FSL_SDHC:1 从 MMC 加载环境...运行 CMD11 1.8V 开关 *** 警告 - CRC 错误,使用默认环境 我们构建了 yocto 构建
    发表于 05-06 08:52

    如何使用HFSS设计5G天线阵列

    16 x 16 的方形天线阵列。   第 3 步:使用域分解方法设计有限天线阵列   工程师需要的不仅仅是理想化的模型来设计 5G 天线阵列
    发表于 05-05 09:58