0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新的芯片架构正在来临 以往主流芯片架构正在悄然巨变

传感器技术 作者:工程师飞燕 2018-09-02 10:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

芯片制造商正在研究新的架构,这些架构可显着增加每瓦功耗和每个时钟周期可处理的数据量,从而为数十年来芯片架构的最大转变奠定了基础。

所有主要的芯片制造商和系统供应商都在改变方向,引发一场架构竞赛,其中包括从存储器中读取和写入数据的方式到数据处理和管理的方式,以及最终在单个芯片上的各种单元被封装在一起。虽然半导体制造的节点缩减将继续,但没有人愿意进行扩展以跟上传感器数据的爆炸性增长以及机器之间的流量增加。

其中包括

  • 新的处理器体系结构关注的是每个周期处理更大数据块的方法,有时精度较低,或者根据应用程序的不同,将特定操作优先于其他操作。

  • 正在开发新的内存体系结构,以改变数据存储、读取、写入和访问的方式。

  • 更有针对性的处理单元分散在系统周围,与内存非常接近。加速器不是依靠一个最适合应用程序的主处理器,而是根据数据类型和应用程序来选择。

  • 人工智能正在进行的工作:将不同的数据类型融合为模式,有效地增加数据密度,同时最小化不同数据类型之间的差异。

Rambus公司的杰出发明家Steven Woo说:“有一些趋势让人们试图充分利用他们已经拥有的东西。”在数据中心,你想从硬件和软件中挤出尽可能多的空间。这就是数据中心重新思考经济问题的方式。启用新功能非常昂贵。但是瓶颈正在转移,这就是为什么你会看到专门的芯片以及提高计算效率的方法。如果你能够阻止在内存和I / O上来回发送数据,这会产生很大的影响。”

这些变化在边缘上更为明显,而且就在边缘之外,系统供应商突然意识到数百亿台设备会产生太多数据,无法将所有内容发送到云端进行处理。但是在边缘处理所有这些数据会增加其自身的挑战,需要在不显着改变功率预算的情况下实现性能的巨大改进。

英伟达(Nvidia)的特斯拉首席平台架构师罗伯特•奥伯(Robert Ober)表示:“新的重点是降低精度。”“这不仅仅是更多的计算周期。它更多的是在内存中进行数据打包,使用16位指令格式。所以这并不是为了提高效率而在缓存中存储更多的数据。从统计学上讲,结果在两方面都是一致的。”

Ober预测,通过一系列的架构优化,在可预见的将来,每隔几年就可以将处理速度提高一倍。 “我们将看到技术的进步。” 他说:。“为了实现这一目标,我们必须处理三各方面:一个是计算,第二个是存储。在一些模型中,这是内存访问。有些则是计算。第三个方面是主机带宽和I/O带宽。我们需要在优化存储和网络方面做大量工作。”

其中一些已经在实施中。在2018年Hot Chips大会上,三星奥斯汀研发部门的首席架构师杰夫•鲁普利(Jeff Rupley)在发言中指出了该公司M3处理器的几个重大架构变化。一个涉及每个周期更多的指令 - 六个,而之前的M2为四个。再加上分支预测,这基本上是几个神经网络在搜索中做的相当于预取的工作,指令队列的深度是它的两倍,挑战就开始显现出来。

从另一个角度来看,这些变化将创新的纽带从制造和工艺技术转移到前端的架构和设计,以及后端的制造封装。虽然处理技术将继续创新,但在每个新节点上仅提高15%至20%的性能和性能是非常复杂的——而且这还远远不足以跟上数据的大幅增长。

Xilinx的总裁兼首席执行官Victor Peng在Hot Chips的演讲中说:“变革正以指数速度发生。每年将产生10 zettabytes[10的21次方字节]的数据,其中大部分是非结构化数据。”

内存中的新方法

处理这么多数据需要重新思考系统中的每个组件,,从数据处理方式到数据存储方式。

“已经有很多尝试创建新的内存架构,”eSilicon EMEA创新高级主管CarlosMaciàn说。“问题是你需要读取每一行并在每一行中选择一位。另一种方法是构建可以从左到右,上下读取的内存。你还可以更进一步,将计算添加到不同的存储器中国。”

这些变化包括改变读取内存的方式、位置和处理元素的类型,以及使用人工智能对数据在系统中存储、处理和移动的方式和位置进行优先级排序。

“如果我们在稀疏数据的情况下一次只能从该数组中读取一个字节,或者在相同的字节通道中可能只有8个连续字节,而不使用与其他字节或字节通道相关的所有能耗,那么我们是什么呢?不感兴趣,“Cadence产品营销集团总监Marc Greenberg说。“未来可能更适合这种事情。例如,如果我们看一下HBM2的架构,HBM2芯片堆栈被安排到16个64位的虚拟通道中,我们只需要从任何虚拟通道的任何访问中获得4个连续的64位字。因此,有可能构建1,024位宽的数据阵列并水平写入,但一次只读取64位×4个字。”

内存是冯•诺依曼体系结构的核心组件之一,但它也正在成为最大的实验领域之一。AMD的客户端产品首席架构师Dan Bouvier表示:“虚拟内存系统是一个大问题,在这个系统中,数据的传输方式更加不自然。如果你能消除DRAM中的Bank冲突,你就能获得更高效的数据流。因此,离散GPU可以在90%的效率范围内运行DRAM,这是非常高的。但如果你能得到流畅的数据流,你也可以在80%到85%的效率范围内运行APU和CPU。”

图1:冯·诺依曼架构

IBM正在开发一种不同的内存体系结构,它本质上是磁盘阵列的现代版本。IBM的系统硬件架构师杰夫•斯图切利(Jeff Stuecheli)将连接技术称为连接的“瑞士军刀”,其目标不是局限于单个磁盘,而是巧用可用的任何内存。这种方法的优点是可以混合和匹配不同类型的数据。

“CPU变成了一个位于高性能信号接口中间的东西,”Stuecheli说。“如果你修改微体系结构,核心可以在每个周期做更多的事情而不需要增加频率。”

连接性和吞吐量对于确保这些体系结构能够处理所生成的数量庞大的数据变得越来越重要。“现在最大的瓶颈在于数据流动,”Rambus'Woo说。“业界在实现更好的计算方面做得非常出色。但是,如果你正在等待数据或专用数据模式,则需要更快地运行内存。因此,如果你看一下DRAM和NVM,性能取决于流量模式。如果对数据进行流处理,就可以从内存中获得非常好的效率。但如果数据在空间中随意跳跃,效率就会降低。无论你做什么,随着体积的增加,你都要做得更快。

更多的计算,更少的移动

使问题复杂化的是,边缘设备以不同的频率和速度生成多种不同类型的数据。为了使数据在各种处理单元之间平滑移动,必须比过去更有效地管理它。

“有四种主要配置 - 多对多,内存子系统,低功耗Io,以及网状和环形拓扑,”ArterisIP董事长兼首席执行官Charlie Janac说。“你可以将所有这四个放在一个芯片中,这就是决策IoT芯片所发生的事情。或者你可以添加具有高吞吐量的HBM子系统。但复杂性是巨大的,因为其中一些工作负载非常具体,每个芯片有多个工作负载和引脚。如果你看一些这些物联网芯片,他们会收集大量的数据。对于像汽车中的雷达和LiDAR这样的东西尤其如此。没有某种先进的互连,它们就不可能存在。”

挑战在于如何最小化数据移动,同时在需要时最大化数据流,并以某种方式在不使用太多功率的情况下实现本地和集中处理之间的平衡。

NetSpeed Systems的产品营销经理拉杰什•拉曼努贾姆(Rajesh Ramanujam)表示:“一方面是带宽问题。”“如果可能的话,尽量不移动数据,因此可以将数据移动到更靠近处理器的地方。但如果必须移动数据,则需要尽可能地压缩数据。然而,这一切都不存在于真空之中。所有这些都必须从系统级别进行观察。每个步骤都需要考虑多个顺序轴,它决定了您是使用传统的读写方式使用内存,还是使用新的内存技术。在某些情况下,您可能希望更改存储数据本身的方式。如果您想要更快的性能,这通常意味着更高的芯片面积成本,但这会影响到功耗。现在你要考虑功能安全,还要担心数据过载。

这就是为什么在边缘处理和不同处理元素之间的吞吐量有如此多的关注。但是,随着架构的开发和改进,如何以及在哪里实现这些处理的方式将会有很大的不同。

举个例子:Marvell引入了一个内置人工智能的SSD控制器,这样它就可以在边缘处理更大的计算负载。人工智能引擎可以用于固态存储本身的分析。

“你可以直接将模型加载到硬件中,并在SSD控制器中进行硬件处理,”Marvell的首席工程师内德瓦尔尼察说。今天,云端的主机就是这样做的。但是,如果每个驱动器都将数据发送到云端,就会产生大量的网络流量。最好是在边缘进行处理。因此,你拥有的存储设备越多,处理能力就越强。减少数据移动的好处是巨大的。”

这种方法特别值得注意的是,它强调了数据移动的灵活性,这取决于应用程序。因此,主机可以生成一个任务并将其发送到存储设备进行处理,之后仅返回元数据或计算结果。在另一种情况下,存储设备可以存储数据、对其进行预处理和生成元数据、标记和索引,然后由主机检索,以便进行进一步的分析。

这是一种选择,还有其他的做法。三星的Rupley强调了无序处理和融合的习惯用法,它们可以解码两条指令并将它们融合到一个操作中。

AI监督和优化

所有这些都是人工智能,这是进入芯片架构的真正新元素之一。这种疏忽不是让操作系统和中间件管理功能,而是围绕芯片,芯片之间和系统级分布。在某些情况下,这可能包括芯片内的神经网络。

eSilicon公司营销副总裁迈克·吉安法尼亚说:“与其说你如何将更多的东西组合在一起,不如说你改变了做事的传统方式。”“通过人工智能和机器学习,你可以把所有这些东西撒在一个系统周围,以获得更高效和更有预测性的处理。”在其他情况下,它可能涉及到独立于系统或封装内独立运行的独立芯片。”

Arm透漏了其首款机器学习芯片计划,将于今年晚些时候在多个市场领域和垂直领域推出。Arm杰出工程师伊恩•布拉特表示:“这是一种新型处理器。”它包括一个基本模块,这是一个计算引擎,加上一个MAC引擎,一个具有控制联合和广播网络的DMA引擎。总共有16个计算引擎,使用7nm工艺技术,在1GHz可以运行4万亿次。

由于Arm是在合作伙伴的生态系统中提供IP,因此其芯片更通用,可配置为正在开发的其他AI / ML芯片。它不是将所有内容构建为整体结构,而是按功能划分处理,因此每个计算引擎都在不同的特征映射上工作。Bratt表示,四个关键要素是静态调度,高效卷积,带宽减少机制以及面向未来设计的可编程性。

图2:Arm的ML处理器架构

与此同时,Nvidia采取了不同的策略,在GPU旁边构建专用的深度学习引擎,以优化处理图像和视频的流量。

结论

通过利用部分或全部这些方法,芯片制造商表示,他们每两年可以将性能提高一倍,跟上数据爆炸的步伐,同时保持在电力预算的严格限制范围内。但这不仅仅是提供更多的电脑。它正在改变芯片设计和系统工程的起点,从越来越多的数据开始,而不是硬件和软件的限制。

Synopsys董事长兼联席首席执行官Aart de Geus表示,“当电脑进入企业时,很多人都认为世界的发展速度要快得多。”“他们用一堆会计账簿对纸张进行会计处理。那是一个指数变化,现在我们再次看到它。什么是发展 - 这可能会给它一种更快的感觉 - 你可以从某种程度上理解穿孔卡片的会计账簿,并将其打印出来并进行计算。在心理上,你可以遵循每一步。事实上,在一个农业领域,你只需要在某一天的温度上升这么多,就需要浇水和某种肥料,这是机器学习的结合,这是一种优化,在过去并不明显。

“新的架构将被接受,” 西门子 Mentor总裁兼首席执行官沃利•莱恩斯(Wally Rhines)表示。它们将被设计成在很多情况下,会有机器学习,因为你的大脑有能力从经验中学习。我走访了20多家公司,它们都有各自的专用人工智能处理器。但是你会越来越多地在特定的应用中看到它们,它们将补充传统的冯·诺依曼架构。神经形态计算将成为主流,它是我们下一步如何提高计算效率,降低成本,在移动和连接环境中做事情的一个重要组成部分。”


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20329

    浏览量

    254859
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9588

    浏览量

    393579
  • Xilinx
    +关注

    关注

    73

    文章

    2206

    浏览量

    131866
  • 芯片架构
    +关注

    关注

    1

    文章

    33

    浏览量

    14902

原文标题:流行数十年的主流芯片架构正在悄然巨变

文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    芯片短缺 2.0”时代,正在到来

    全球汽车行业曾以为芯片短缺最糟糕的时期已经过去。疫情扰乱了供应链,导致生产线停工,许多人认为半导体危机终将随着时间的推移而缓解。然而,一个被称为“芯片短缺2.0”的新阶段正在到来,而且与以往
    的头像 发表于 04-20 13:06 146次阅读
    “<b class='flag-5'>芯片</b>短缺 2.0”时代,<b class='flag-5'>正在</b>到来

    广汽集团发布星灵架构4.0及芯片成果

    2026广汽科技日,广汽集团集中发布全新星源动力、星舰车身、星河智舱、星灵架构芯片生态领域最新成果。其中,广汽集团平台技术研究院院长梁伟强带来了星灵电子电气架构4.0与芯片应用生态领
    的头像 发表于 04-17 17:28 1861次阅读

    当主控芯片架构不断变化时,系统研发团队真正需要什么样的开发平台?

    在开发新一代嵌入式系统时,越来越多的主控系统级芯片(SoC)正在从单一内核转向多内核与异构架构,这促使系统研发工程师更希望得到一个能“覆盖快速变化”的统一开发平台。
    的头像 发表于 02-14 21:05 6910次阅读

    拥抱Chiplet,大芯片的必经之路

    本文转自:半导体行业观察随着传统芯片架构在功耗、散热和空间方面逼近物理极限,一种新型架构正在兴起,有望为高性能计算(HPC)开辟一条新的发展道路。这种
    的头像 发表于 02-13 14:35 516次阅读
    拥抱Chiplet,大<b class='flag-5'>芯片</b>的必经之路

    高通Oryon架构之父宣布离职:曾一手定义移动芯片黄金时代

    披露具体离职原因。作为高通自研 CPU 架构 Oryon 的灵魂人物,他的离职不仅标志着高通一个技术周期的完成,也引发了业界对后 Oryon 时代移动芯片格局的深度讨论。   作为拥有30余年行业经验的顶尖芯片
    的头像 发表于 02-05 13:44 3375次阅读

    算法一年一变,芯片十年不换:边缘计算正在被时间差撕裂

    算法迭代速度正在显著快于硬件更换周期,边缘GPU正面临一场日益严峻的考验。“这款芯片设计之时,Transformer模型才刚刚进入主流视野;等到芯片完成量产并大规模装车,
    的头像 发表于 01-15 11:14 607次阅读
    算法一年一变,<b class='flag-5'>芯片</b>十年不换:边缘计算<b class='flag-5'>正在</b>被时间差撕裂

    电能质量在线监测装置的核心芯片架构对装置性能有哪些影响?

    核心芯片架构是电能质量在线监测装置的 “算力中枢”,直接决定装置的 测量精度、实时性、多参数处理能力、扩展性和可靠性 。目前主流架构分为三类: DSP+ARM 双核异构、专用计量
    的头像 发表于 12-17 15:21 563次阅读
    电能质量在线监测装置的核心<b class='flag-5'>芯片</b><b class='flag-5'>架构</b>对装置性能有哪些影响?

    为何工业OEM厂商正在向Arm架构迁移

    工业自动化正在经历一场根本性的变革。从工业 PC 到边缘网关和智能传感器,边缘侧的计算需求正在快速变化。人工智能 (AI) 正在从云端走向更多现实环境。过去围绕可预测、单一用途工作负载设计的系统,如今必须在动态、高度混合的设置中
    的头像 发表于 12-15 14:56 726次阅读

    看点:全球首颗!中国研发全新架构闪存芯片 OpenAI拉上巨头豪赌AI基建

    给大家带来一些业界消息: 全球首颗!中国研发全新架构闪存芯片 日前,复旦大学团队在《自然》发表成果,成功研制全球首颗二维—硅基混合架构闪存芯片“长缨(CY-01)”。相关成果率先实现全
    的头像 发表于 10-10 18:20 2020次阅读

    宏集分享 | 集中式架构还是分布式架构?SCADA架构选型的新趋势

    HongraxIIoT在工业数字化不断推进的今天,SCADA系统早已不仅是简单的数据监控工具,它正在成为保障企业运行效率、安全性和业务连续性的战略核心。而“选择集中式、分布式还是混合式架构?”也正
    的头像 发表于 08-08 18:15 851次阅读
    宏集分享 | 集中式<b class='flag-5'>架构</b>还是分布式<b class='flag-5'>架构</b>?SCADA<b class='flag-5'>架构</b>选型的新趋势

    Arm CEO:公司正在自研芯片

    据外媒路透社报道,Arm CEO Rene Haas透露,Arm正在投资开发自有芯片,并计划将部分利润投资于制造自己的芯片和其他组件。与之对应的是Arm预测的下一财季经营业绩也会因为自研芯片
    的头像 发表于 07-31 11:49 779次阅读

    Tenstorrent 首席架构师:未来 RISC-V 会是计算机的主流

    当前,按指令集架构(ISA)分类,主流架构包括 x86 架构、ARM 架构和 RISC-V 架构
    发表于 07-17 11:26 1546次阅读

    传统的芯片设计,正在被颠覆

    几十年来,半导体开发一直遵循着24至36个月的稳定设计开发周期。虽然这种模式在计算需求较低且创新速度更易于管理的情况下运作良好,但人工智能却创造了一套新的规则。人工智能的飞速发展正在迅速超越当前芯片
    的头像 发表于 06-27 12:38 1020次阅读
    传统的<b class='flag-5'>芯片</b>设计,<b class='flag-5'>正在</b>被颠覆

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    工作者身份的转变期),便对这项技术深深痴迷,但当时主流的RTX20系列,需要2080级别以上的才支持,鉴于个人实力,便将目光放在了9系卡上,这也就是「算力芯片 | 书中讲的pascal架构的第一代
    发表于 06-18 19:31

    RISC-V架构CPU的RAS解决方案

    RISC-V架构以追赶者的姿态在多个应用领域与X86架构和ARM架构展开竞争。在服务器应用领域,RISC-V架构正在重新定义服务器
    的头像 发表于 06-06 17:03 1994次阅读
    RISC-V<b class='flag-5'>架构</b>CPU的RAS解决方案