0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ACCEL光电芯片,性能超GPU千倍,新一代计算架构将更早来临

Robot Vision 来源:电子发烧友网 作者:李宁远 2023-11-05 07:07 次阅读
电子发烧友网报道(文/李宁远)自1965年戈登摩尔提出摩尔定律以后,半导体行业在摩尔定律上已经繁荣发展了半个多世纪。芯片,已经成为时代发展的重要引擎。但随着晶体管尺寸逐渐逼近物理极限,近年来摩尔定律发展已放缓,甚至面临失效无法延续,需要建立新的芯片秩序。
而且在现在的人工智能时代,算力是无法替代的先进生产力,是人工智能、大数据、物联网等先进技术落地应用的基础支撑,而国内正处在高端算力芯片供应链被封锁的形势。如何绕开专利、技术被封锁的束缚,找出一条新的道路来也是至关重要。
近日,清华大学团队在超高性能计算芯片领域取得了令人瞩目的关键成果,他们成功研发的ACCEL光电计算芯片,相关成果以《面向高速视觉任务的纯模拟光电计算芯片》为题发表在Nature上。
与现有高端GPU相比,实现了算力提升三千余倍,能效提升四百万余倍的表现,ACCEL光电计算芯片为超高性能芯片的研发开辟了全新的路径。
ACCEL架构光电计算实现高速视觉处理性能飞跃
现在我们使用的各种设备和系统,绝大多数通过晶体管以电信号来进行计算,以现在市面上用于人工智能算力芯片内集成的晶体管数量已经以百亿、千亿来算。这些晶体管操纵电流实现超大规模的计算。
人工智能算力正在崛起成为刚需,而摩尔定律正在衰落,寻找新兴技术革新硬件计算是目前前沿科技的一大技术热点。量子计算、神经形态芯片、光子计算等都是有可能实现计算性能飞跃的技术路线,光子计算是其中有力的竞争者,近期ACCEL光电计算芯片的突破也印证了这一技术路线的可行性。
面向高速视觉任务的纯模拟光电计算芯片基于光电深度融合计算框架,将光芯片与电芯片结合,在一枚芯片上突破大规模计算单元集成、高效非线性、高速光电接口三个国际难题,由清华大学自动化系(戴琼海院士、吴嘉敏助理教授)与电子工程系(方璐副教授、乔飞副研究员)联合攻克。
不同于传统计算,光子计算不是通过将电流表示成0和1来编码和操作数据,而是利用光的物理特性来进行计算。光子计算使用光,这使得它更快、更有效、更紧凑。光子计算的确能够更快、更节能地处理视觉数据。
然而,由于复杂的光学非线性、用于下游数字处理的模数转换器ADC的大功耗以及易受噪声和系统误差的影响,部署上挑战很大。
因此,清华大学团队提出了一种结合电子和光计算(ACCEL)的全模拟芯片架构,将衍射光学模拟计算(OAC)和电子模拟计算(EAC)融合在一个芯片中,具有可扩展性、非线性和灵活性。根据论文数据,其系统能效为74.8Peta-OPS/W,计算速度为4.6Peta-OPS,而且计算的99%都由光学部分实现。
不论是系统能效还是计算速度,和现在最先进的计算处理相比,ACCEL都有着数量级上绝对的领先。
具体来说,ACCEL的系统级算力稳定达到现有高性能芯片的数千倍,同时系统级能效较现有的高性能 GPU、TPU、光计算和模拟电计算架构,提升了两千到数百万倍不等。
对于视觉数据来说,ACCEL无疑让处理性能实现了飞跃,也表明了“挣脱”摩尔定律的全新计算架构的可行性。
全新颠覆性计算架构,助力***领域弯道超车
ACCEL架构光芯片与电芯片的融合性能的大幅提升已经被证实,而且该芯片光学部分的加工最小线宽仅采用百纳米级,而电路部分仅采用180nm CMOS工艺。如果采用更先进的工艺技术,ACCEL能进一步大幅降低更高时钟频率下运行的控制单元功耗。
成熟的工艺却实现了超越先进制程GPU的性能,未来光子计算的霸权或许不是说说而已。
根据清华团队的说法,如果将OAC层数进一步提高,ACCEL的性能将进一步提高,实现灵敏度更高的光电二极管阵列并行输出。增加SRAM位数将进一步拓展ACCEL可分类的视觉类别数量。其未来的发展还有很大的提升空间。
更高算力和更优秀的能耗比只是ACCEL两个最直观的特点,在论文中,还披露了大量技术细节。
ACCEL将衍射光学计算作为光学编码器进行特征提取后,诱导光电流直接用于进一步计算,无需模数转换器。在同一任务不同类型的数字神经网络的端到端延迟和能耗对比中,ACCEL实现了每帧72 ns的超低计算延迟和每帧4.38 nJ的能耗,远小于NVIDIA A100的每帧0.26 ms延迟和每帧18.5 mJ的能耗。
论采用哪种方式计算操作,在实际应用中实现相同精度时,ACCEL与先进GPU上的数字神经网络相比,全模拟的ACCEL都能将系统延迟和能耗降低了几个数量级。
可以说ACCEL的全新计算架构,极具颠覆性,绕过了模拟数字转换器速度、精度与功耗相互制约的物理瓶颈,充分利用了光电技术的优势,芯片实现了计算效率和能耗的极致优化。大量的实验数据对比也打消了人们对光子计算算力“有效性”的顾虑。
虽然这一技术目前还只是停留在实验室阶段,但从实际应用价值来看,这一成果对于推动芯片技术进步、降低能耗和提高计算效率具有重要意义。在国内先进制程面临制约的情况下,清华大学团队在颠覆性计算架构取得的成果给我国高性能芯片研发开辟了一条全新的路径,是打破芯片专利、技术封锁的一个方向。
光电芯片在量产后,也足够颠覆现在的半导体格局,也将在未来实际应用落地后推动人工智能等领域的创新与发展。
小结
目前,该团队正在研究规模更大、算力更强的模拟域光电融合系统,这需要在算法层面和硬件层面,开展更高层次的联合设计优化。目标应用也拓展至和高速处理相关的领域,如时延降低四个数量级的超高速图像计算、自动驾驶、野外监测、物联网传感器网络等等。
采用全新原理研发出计算芯片需要越过很多难关,不可能一蹴而就,但ACCEL的出现也意味着新一代计算架构时代的来临可能会比料想中的更早。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 光电
    +关注

    关注

    8

    文章

    667

    浏览量

    81272
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4424

    浏览量

    126724
收藏 人收藏

    评论

    相关推荐

    FPGA在深度学习应用中或取代GPU

    ,并在运算速度和吞吐量方面提供了更高的性能。它们的使用寿命也更长,大约是 GPU 的 2-5 ,并且对恶劣环境和其它特殊环境因素有更强的适应性。 有些公司已经在他们的人工智能产品中
    发表于 03-21 15:19

    深入解读AMD最新GPU架构

    GCN 取代了 Terascale,并强调 GPGPU 和图形应用程序的一致性能。然后,AMD 将其 GPU 架构开发分为单独的 CDNA 和 RDNA 线路,分别专门用于计算和图形。
    发表于 01-08 10:12 467次阅读
    深入解读AMD最新<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>

    光电智能计算架构芯片研究

    当前,人工智能技术的复兴正引领着新一代信息技术迅猛发展,由电子驱动的计算处理器在过去十年中发生了巨大的变化,从通用中央处理器(CPU)到定制计算平台,例如GPU、FPGA和ASIC,以
    的头像 发表于 01-08 09:13 413次阅读
    <b class='flag-5'>光电</b>智能<b class='flag-5'>计算</b><b class='flag-5'>架构</b>和<b class='flag-5'>芯片</b>研究

    国产六核CPU,三屏异显,赋能新一代商显

    处理器共同推出米尔MYC-YD9360核心板及开发板,赋能新一代车载智能、电力智能、工业控制、新能源、机器智能等行业发展,满足多屏的显示需求。
    发表于 12-22 18:07

    揭秘GPU: 高端GPU架构设计的挑战

    计算领域,GPU(图形处理单元)一直是性能飞跃的代表。众所周知,高端GPU的设计充满了挑战。GPU
    的头像 发表于 12-21 08:28 431次阅读
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>设计的挑战

    TI 新一代明星CPU

    是 TI 新一代明星CPU,可完美接替上一代AM335x,拥有更强劲的性能,让你的应用变得轻松自如。 AM62x处理器适用于医疗、工业HMI、自动化、电力、显控终端等众多场景。如果你正在寻找
    发表于 12-15 18:59

    中国研制出全球首个全模拟光电智能计算芯片

    经长期联合攻关,清华大学研究团队突破传统芯片的物理瓶颈,创造性提出光电融合的全新计算框架,并研制出国际首个全模拟光电智能计算
    的头像 发表于 12-04 17:39 656次阅读

    清华研制出首个全模拟光电智能计算芯片ACCEL

    清华研制出首个全模拟光电智能计算芯片ACCEL 清华大学研究团队研制出国际首个全模拟光电智能计算
    的头像 发表于 11-05 18:10 845次阅读

    第四北斗芯片发布

    全新的第四北斗芯片,较上一代芯片有了全面的提升。芯片采用双核架构设计,
    发表于 09-21 09:52

    STM32U599平衡图显性能与功耗的新一代产品

    STM32U599平衡图显性能与功耗的新一代产品,内容包含: STM32U5x9 的高性能与高阶图形加速器 、STM32U5的矢量图形 、STM32U5x9 的低功耗设计 、LPBAM - sensor hub等。
    发表于 09-05 07:21

    Arm Mali™ GPU OpenCL开发者指南

    Arm®生产马里家庭™ GPU。Bifrost、Valhall和第五是马里的三个™ GPU架构。 马里™ GPU并行运行包含相对较少控制代
    发表于 08-10 07:47

    ai芯片和传统芯片的区别 GPU与CPU的架构对比

    AI芯片在处理大规模数据和复杂计算任务(例如深度学习算法)时具有更高的计算性能。它们通常集成了多个高性能
    的头像 发表于 08-05 16:11 5026次阅读
    ai<b class='flag-5'>芯片</b>和传统<b class='flag-5'>芯片</b>的区别 <b class='flag-5'>GPU</b>与CPU的<b class='flag-5'>架构</b>对比

    基于磁贴的GPU架构优缺点

    本指南介绍了基于磁贴的GPU架构的优缺点。它还将ARM马里基于瓷砖的GPU架构设计与台式PC或控制台中常见的更传统的即时模式GPU进行了比较
    发表于 08-02 12:54

    智能网卡简介及其在高性能计算中的作用

    最先进的人工智能模型在不到五年的时间内经历了超过 5,000 的规模扩展。这些 AI 模型严重依赖复杂的计算和大量内存来实现高性能深度神经网络 (DNN)。只有使用 CPU、GPU
    发表于 07-28 10:10

    国产第二“香山”RISC-V 开源处理器计划 6 月流片:基于中芯国际 14nm 工艺,性能 Arm A76

    是南湖,第三架构是昆明湖。香山开源社区称,第一代“雁栖湖”架构已经成功流片,实测达到预期性能,第二
    发表于 06-05 11:51