0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Tenstorrent推出AI芯片Grayskull,兼顾高效能和高扩展性的创新架构

牵手一起梦 来源:DesignNews 作者:佚名 2020-05-15 14:55 次阅读

5月14日消息,长期神秘的加拿大AI芯片初创企业Tenstorrent终于在今年有了新动向,4月7日,Tenstorrent发布其首款AI芯片Grayskull,算力最高可达368TOPS,相当于是高通2019年12月发布的旗舰手机SoC骁龙865算力的24倍。

相较市面上现有AI芯片产品,Grayskull不仅能兼顾高算力和低能耗,还具备高度可扩展的特点,可扩展到10万个节点,支持从小型嵌入式设备到大型数据中心的AI推理和训练任务。

一、兼顾高效能和高扩展性的创新架构

Tenstorrent在2016年创立,总部位于加拿大多伦多市。在创办Tenstorrent之前,其创始人兼CEO Ljubisa Bajic曾在NVIDIA芯片制造部门担任高级架构师,还曾在AMD担任IC设计师和架构师。

Bajic不认为像NVIDIA这样的芯片公司会很快消失,但是该公司迟早会研发不是GPU的AI芯片产品。

Bajic总结,当今对人工神经网络的研究主要集中于两个阵营:一是倾向于在CPU、GPU等硬件上进行密集的矩阵计算,当前已大规模落地;二是对脉冲神经网络(SNN,Spiking neural network)的研究,目前尚处研究阶段,还未实现广泛应用。

密集矩阵算法能够提高芯片密集计算能力,但是能耗较高,常通过以太网扩展到其他机器进行通信

SNN通过电活动的尖峰来传递信息,运作方式更接近自然神经元。每次根据神经网络的行为,只有一定比例的神经元会被激活,这致使网络运行时能耗较低、条件执行效率较高。

但SNN无法保证硬件效率。Bajic解释,训练SNN时,设计人员试图用微分方程来直接描述自然神经元的运作过程,然后尽可能在硬件上实现这些运作方式。“对于工程师来说,这个过程基本上就是把许多标量处理器核心连接到标量网络上。”Bajic说。

据Bajic介绍,Tenstorrent希望能够设计出兼顾硬件效率、条件执行效率、存储效率和高度可扩展性(超过10万个芯片)的产品。

二、动态消除不必要计算,大幅节省功耗和运算时间

如何才能兼顾上述特性呢?研究人员设计了一个能实现细粒度条件执行、动态稀疏处理的完全可编程体系结构,可将较大数据组的复杂计算任务分解成多个较小数据组的计算,由芯片上的各个内核进行独立的处理。为了避免性能损失,Tenstorrent在这些数据组上启动了控制流。

“在运行较小矩阵时,我们可以加上‘if’语句来判别是否运行它们,如果要运行它们,还可以决定是用较低精度、全精度或是两者之间的其他精度。”Bajic说。通过动态消除不必要的计算,该方法打破了计算/带宽需求与模型大小之间的直接联系,使得模型可以适应于已提出的确切输入,并对模型进行训练。

这种创新的设计方法一方面实现了非常出色的能效,但另一方面也带来了关于软件和可扩展性的挑战。

首先需要与硬件适配的新软件堆栈。Bajic称:“问题在于,这个领域内许多公司推出的软件堆栈都假设有一套固定的维度和固定的工作要运行。因此,为了能够在运行时启用适配功能,需要硬件和软件堆栈都能支持它。”

而Tenstorrent的设计将许多决策程序从编译时转到运行时,以实现正确大小的输入。“当我们在运行时去除一些东西后,我们确切地知道了这些东西有多大了。所以要跟上硬件的能力,对软件来说是相当大的挑战。”Bajic说道。

其次是可扩展性。创建可扩展到10万个节点的体系架构,意味着在没有共享内存空间的情况下进行操作,缓存一致性会致使难以扩展到超过几百个节点,这是Tentorrent想要避开的麻烦。

具体而言,Tenstorrent使用一系列Tensix内核来通过网络实现通信。Tensix内核阵列与一个定制的双2D环形片上网络(NoC)集成在一起,这些网络可以在芯片外扩展,从而创建包含成百上千个处理器的大型芯片到芯片集群,并且最小化了用于调度粗粒度数据传输的软件负担。

每个Tensix内核的算力约为3TOPS,包含1个高利用率的数据包处理器、1个可编程的单指令流多数据流(SIMD)、1个密集数学计算模块、5个高效且灵活的单流(single-issue)的精简指令集(RISC)。

这5个RISC内核是相同的,但不一定同时运行相同的代码。它们具有基本的算术和逻辑运算能力,并且可以管理流控制,还会争夺共享计算引擎中更先进的硬件资源,在该硬件资源上执行矩阵、卷积和矢量/ SIMD操作。 此外,每个Tensix内核还具有1MB的本地静态随机存取存储器(SRAM)。

假设一个神经网络层有两个需要相乘的矩阵,该神经网络层的输入被分解成“以太网大小的块”,即子张量,然后将这些张量帧化为一组固定长度的数据包,分布在多个Tensix内核中。

每个数据包都会进入内核的SRAM缓冲区中,触发软件去找到数据包并运行一个硬件解包引擎,硬件解包引擎去除所有的数据包帧、解释其含义、解压缩数据包,在RISC内核的指导下发送到计算引擎。再往下进行,这些数据包被重新打包并存储在SRAM缓冲区中,以准备传输到下一个Tensix内核中。

灵活的并行化和完整的可编程性可实现运行时适应和工作负载平衡,从而有助于节省功耗并缩短运行时间,从而显著节省成本。

三、Grayskull芯片:一颗相当于24颗骁龙865

基于其架构设计理念,Tenstorrent可打造能执行推理和训练任务的高性能芯片,可支持小至小型嵌入式设备、大至大型数据中心的工作负载部署。

Tenstorrent研发的首款推理芯片Grayskull包含120个Tensix内核、120MB本地SRAM和8个通道的LPDDR4,支持高达16GB的外部DRAM和16通道的PCI-E Gen4。

在75W总线供电的PCIe卡上,Grayskull的算力最高可达到368TOPS。预计今年晚些时候,Tenstorrent将推出功耗为300W的训练设备。

相比之下,高通2019年发布的骁龙865芯片算力为15TOPS。也就是说,一颗Grayskull芯片就能完成约24颗骁龙865芯片才能完成的运算量。

在条件执行的情况下,使用BERT-Base的SQuAD 1.1数据集,Grayskull芯片可实现高达23345句/秒的性能,使其性能比当今的领先解决方案高出26倍。

结语:第二代Tensix核心芯片或于秋季发布

许多机构和研究者都在推进AI芯片的设计、研发。AI芯片可以优化许多领域的生产流程,比如,或可用于提升疾病追踪模型、疫苗研发工具的效率,还可推动情感人工智能等新兴领域的发展。

这些研究存在一个共同的问题——如何节约总拥有成本(TCO)。在Bajic看来,许多现有AI芯片方案非常耗电,而通过架构创新,兼顾高性能和低功耗的AI芯片将推动AI在你的智能可穿戴设备上完成运算任务。

在推出Grayskull芯片的同时,Tenstorrent也在推进第二代Tensix核心芯片的研发。第二代Tensix核心芯片被称为Wormhole,核心架构和Grayskull相同,且使用很多以太网链接来进一步扩展系统规模,预计于2020年秋季发布。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18261

    浏览量

    222116
  • 芯片
    +关注

    关注

    447

    文章

    47769

    浏览量

    409072
  • AI
    AI
    +关注

    关注

    87

    文章

    26424

    浏览量

    264031
  • Tenstorrent
    +关注

    关注

    0

    文章

    10

    浏览量

    101
收藏 人收藏

    评论

    相关推荐

    交换芯片架构设计

    交换芯片架构设计是网络通信中的关键环节,它决定了交换机的性能、功能和扩展性
    的头像 发表于 03-18 14:12 195次阅读

    苹果M3芯片是ARM架构

    苹果M3芯片采用的是ARM架构。这种架构具有高效能和低功耗的特点,使得M3芯片在提供出色性能的同时,也能保持较低的能耗。
    的头像 发表于 03-08 16:03 442次阅读

    Tenstorrent将为日本LSTC新型边缘2纳米AI加速器开发芯片

    加拿大AI芯片领域的初创公司Tenstorrent与日本尖端半导体技术中心(LSTC)达成了一项多层次合作协议。根据协议内容,LSTC将采用Tenstorrent的世界级RISC-V
    的头像 发表于 02-28 10:49 261次阅读

    分布式大屏控制系统的可扩展性设计

    分布式大屏控制系统的可扩展性设计是确保系统能够适应不断增长的需求和未来发展的关键因素。以下是可扩展性设计的几个方面: 模块化设计:将系统划分为多个模块,每个模块具有独立的功能和接口。这种设计方式使得
    的头像 发表于 01-29 14:46 201次阅读

    高效能Cortex®-M4 &M0+MCU选型表

    设有研发、销售及技术支持分部。雅特力坚持自主研发,以科技创新引领智慧未来,专注于ARM® Cortex®-M4/M0+的32位微控制器研发与创新,提供高效能、高可靠性且具有竞争力的产品。全系列产品采用55nm先进工艺,通过ISO
    发表于 01-29 14:10 0次下载

    什么是高效能交流电源供应器?有什么特性?

    什么是高效能交流电源供应器?有什么特性? 高效能交流电源供应器是一种电气设备,主要用于将交流电转换为所需电压和电流的直流电源。它采用先进的变换技术和控制算法,以提供稳定、可靠、高效的电源输出
    的头像 发表于 11-07 10:08 315次阅读

    扩展性对物联网管理系统有哪些影响?

    扩展性对于物联网管理系统的设计和开发非常重要,它直接影响着系统的性能、可靠性和能耗等方面,是评估一个系统优劣的重要因素之一。可扩展性对物联网管理系统的影响主要体现在以下几个方面:
    的头像 发表于 10-11 15:15 248次阅读

    扩展性对物联网管理系统有哪些影响?

    扩展性对于物联网管理系统的设计和开发非常重要,它直接影响着系统的性能、可靠性和能耗等方面,是评估一个系统优劣的重要因素之一。可扩展性对物联网管理系统的影响主要体现在以下几个方面:    设备兼容性
    的头像 发表于 09-19 11:23 322次阅读

    SD-WAN组网的可扩展性怎么样?

    SD-WAN组网具有很好的可扩展性,能够轻松满足企业网络不断扩张和增长的需求,同时保持网络的高效和可管理性,这使得SD-WAN组网能够随着企业的快速发展而快速调整规模,变更拓扑,采取不同的接入方式
    的头像 发表于 08-18 11:29 313次阅读

    高效能NuMicro M480系列应用于音效处理

    高效能NuMicro M480系列应用于音效处理
    的头像 发表于 08-11 15:13 336次阅读
    <b class='flag-5'>高效能</b>NuMicro M480系列应用于音效处理

    新唐提供您工业物联网的入场券之二-NuMaker M487高效能开发平台

    新唐提供您工业物联网的入场券之二-NuMaker M487高效能开发平台
    的头像 发表于 08-11 15:00 443次阅读
    新唐提供您工业物联网的入场券之二-NuMaker M487<b class='flag-5'>高效能</b>开发平台

    网红利器-NuMicro M484高效能微控制器系列应用于USB声卡

    网红利器-NuMicro M484高效能微控制器系列应用于USB声卡
    的头像 发表于 08-10 16:17 398次阅读

    什么是云计算的可扩展性

    不断增长的数据池需要巨额投资和劳动密集型管理,但云托管的全球采用已经彻底改变了我们所知的数据行业。除了成本效益和灵活性之外,选择云而不是本地架构的主要好处之一是能够轻松快速地扩展。那么什么是云计算的可扩展性
    的头像 发表于 08-08 17:46 1464次阅读

    双隔驱 MD18023:高效能驱动解决方案的完美选择

    双隔驱动芯片凭借其高效能和可靠性,成为爱美雅电子作为茂睿芯的代理商所强烈推荐的产品。 卓越性能: MD18023是一款专为高效能驱动应用而设计的双隔驱动芯片。采用茂睿芯先进的集成电路技
    的头像 发表于 05-11 14:51 539次阅读

    隔离单管 NSi6801x:高效能驱动解决方案的卓越之选

    引言: 在现代电子系统中,高效能的驱动解决方案对于实现可靠且精确的控制至关重要。纳芯微(Nexell)作为一家领先的集成电路设计公司,不断推动技术创新,提供卓越的芯片解决方案。其中,NSi6801x
    的头像 发表于 05-11 14:44 1267次阅读