0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Lightmatter公司推出用于通用AI加速的光子计算测试芯片

我快闭嘴 来源:芯东西 作者:芯东西 2020-09-02 17:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI芯片的下一个创新点在哪儿?光子计算或许能提供新的启发。8月31日报道,在刚落幕不久的Hot Chips 32大会上,脱胎于麻省理工学院的初创公司Lightmatter展示了用于通用AI加速的光子计算测试芯片。该处理器利用硅光子和MEMS技术,以光速处理矩阵向量乘法,由毫瓦级激光光源供电。据悉,在相同芯片面积上,光子器件的速度比电子器件快1000倍,而功耗仅有电子器件的1/1000。

Lightmatter于2017年在马萨诸塞州波士顿市成立,目前有46名员工,已从Google Ventures等投资方处融资3300万美元,拥有30项专利。

作为最早面向AI推理定制光子芯片的公司之一,Lightmatter将于2021年秋季推出其首款商业产品——搭载光子计算芯片的PCIe卡,专为数据中心AI推理工作负载而设计。

一、能效提升20倍,吞吐量提高5倍

得益于硅光子技术的进步,硅芯片上的光传输成为可能。

光子芯片通过采用与传统基于晶体管的电子器件完全不同的物理学原理,可实现更快的性能、更低的能耗。

Lightmatter首席执行官尼克·哈里斯称:“我们可以利用现有AI数据中心,将能耗降低为原来的1/20,将物理空间减少为原来的1/5。”

据他介绍,这只是Lightmatter正在打造的第一代产品,未来还有很长的路线图。

哈里斯强调,此次展示的测试芯片只是作为其技术的演示,并不是为了在基准测试中有出色表现。

但他坚持认为,在实际应用中,该演示芯片仍将击败AI加速领域的市场领导者——英伟达A100 GPU

据哈里斯介绍,与A100相比,其光子芯片在BERT和ResNet-50推理等工作负载上可提供20倍的能效和至少5倍的吞吐量。

二、格芯代工,采用3D封装堆叠

Lightmatter的芯片由两个垂直堆叠的芯片组成,整个芯片面积为150平方毫米,两个裸片均由格芯标准CMOS工艺制造,包含超过十亿个FinFET晶体管、数万个光子算术单元和数百个记录设置数据转换器。

上方是一个12nm ASIC(Lightmatter副总工程师Carl Ramey在Hot Chips演讲时介绍的是14nm ASIC),用于存储内存和控制下方作为计算引擎的90nm光子芯片裸片。

该光子处理器具有64 x 64光子矩阵向量乘积计算器,可在标准数据中心工作温度下运行,总延迟时间不到200皮秒(1万亿皮秒=1秒),比晶体管计算要快几个数量级,晶体管计算需要多个时钟周期。计算引擎由50兆瓦的激光驱动。

哈里斯认为,这种低功耗光子计算芯片的优势之一,是可以与控制/内存ASIC进行3D堆叠。

基于晶体管的计算芯片会散发过多的热量。堆叠的芯片缩短了ASIC上的操作数存储区与光子芯片上的计算元件之间的轨迹线——从数据转换器到光子计算引擎的距离不到总路径的1毫米。反过来,这降低了延迟和功耗。

哈里斯说:“这里有一个很好的正反馈循环”, “节省功耗使我们堆叠,而堆叠可以节省更多功耗。”

三、更高速度、更低功耗是如何实现的?

Lightmatter光学计算阵列由DACADC模块封装,作为与数字电路的其余部分的接口

DAC接收数字输入信号,将其转换为模拟电压,并使用该电压来驱动激光器(该技术已在光纤发射器中广泛使用)。

来自该激光器的光,在进入马赫曾德尔干涉仪(MZI)后,相干光分为两束,每半束光的相位调整不同,将具有不同相位的光束组合会导致相长或相消干涉,从而有效地调制通过MZI的光的亮度(该调制可被视为乘法运算)。

在波导(承载光的“电线”)相遇之处,信号被有效地加在一起,这是光MAC的基础。

计算阵列输出的光到达光电二极管,通过机械手段实现MZI中的关键操作,改变光的相位。

Lightmatter副总工程师Carl Ramey在Hot Chips演讲解释说,其光子芯片使用了纳米光学机电系统(NOEMS)。

与MEMS器件类似,波导结构通过在下面蚀刻而悬浮,然后通过向其上方和下方的电容器板添加电荷来偏转。这成功地改变了光的相位所需的数量,并且所需功率极低。

“NOEMS设备具有一些非常惊人的性能,” Ramey说。“它们的损耗极低,静态功耗几乎为零。我们只是将一些电子倾倒到小电容器上,几乎没有泄漏——电容足够小,致动所用的动态功率也很小。(结构)也能以相对较高的速度启动,最高可达数百兆赫。”

Ramey说,Lightmatter的演示芯片具有64 x 64计算元素,但可以很容易地扩大规模。

据他介绍:“类似于基于晶体管的脉动阵列,计算量与面积成线性比例关系,“延迟也随着阵列的尺寸而缩放。因此,在一个典型的流水线晶体管设计中,您需要64个时钟周期来执行这些操作,从左到右。我们的延迟也随阵列尺寸而定,但是速度要快三个数量级。因此,即使是1000 x 1000的阵列,其延迟也会远低于纳秒。”

有趣的是,光子计算阵列消耗的功率与面积的平方根成比例。这是因为功耗主要归因于数据转换。

“当我们将每个新元素添加到阵列中时,我们将获得更高的性能,但是我们只需要付出功率平方根的代价即可。” Ramey说,“因此,我们制造的芯片越大,实际上它们的效率就越高。这与电子系统有很大不同,电子系统只是线性扩展:性能越高,功耗越大。”

除了与计算相关的能量外,还有与在芯片周围移动数据有关的能量(当今基于晶体管的大型AI芯片在硅片上移动数据可能要消耗50-100W功率)。

而通过光学计算,以光学方式移动数据,意味着不需要电源,从而节省了很多钱。结果是,光子计算设备的运行功耗不到3W,仅是其他计算方法每次推理操作所消耗能量的一小部分。

四、支持同时执行多个AI推理任务

光子计算的另一个有趣功能是并行处理能力。与光通信中使用的技术类似,可以将多个独立的数据流编码到不同波长的光上,并同时馈入计算引擎。这意味着光学计算芯片可以同时执行多个AI推理任务。

“这是光子计算的一个非常独特的特性,” Lightmatter首席执行官Nick Harris说,“这意味着您有一个物理资源,一个处理器,但它的作用就像一排处理器。”

虽然指定的光谱(1310至1600nm)在理论上可以适合至少1000路,但哈里斯说,因激光技术还不成熟,目前仅支持8路。

落地将是艰巨的挑战

据悉,Lightmatter的目标客户是当今的数据中心,包括高性能计算等可扩展系统。自动驾驶技术是一个遥远的未来发展方向,不过哈里斯承认,进入这一领域所需的可靠性工程将是“一项艰巨的任务”。

Lightmatter具有完整的软件堆栈,支持TensorFlow、PyTorch、ONNX等机器学习框架。哈里斯说,他们的目标是在两个机器学习框架之间实现即插即用。对于初创企业而言,首要挑战之一可能是如何使持怀疑态度的客户理解和接受光子计算的整个概念。

如何做到这一点呢?哈里斯回应称:“这是一个艰巨的挑战”。他介绍道,自1960年代以来的计算历史上,从来没有一种技术取代过电子晶体管做计算,人们已经尝试过,但从未成功。“我认为这是您第一次看到它的实现,而我们销售它的方式就是通过展示它的运行。”哈里斯说。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53539

    浏览量

    459169
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296681
  • 自动驾驶
    +关注

    关注

    791

    文章

    14671

    浏览量

    176557
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    边缘计算中的AI加速器类型与应用

    人工智能正在推动对更快速、更智能、更高效计算的需求。然而,随着每秒产生海量数据,将所有数据发送至云端处理已变得不切实际。这正是边缘计算AI加速器变得不可或缺的原因。这种专用硬件能够直
    的头像 发表于 11-06 13:42 424次阅读
    边缘<b class='flag-5'>计算</b>中的<b class='flag-5'>AI</b><b class='flag-5'>加速</b>器类型与应用

    今日看点:高通发布云端AI芯片;艾为电子推出低功耗Hyper-Hall™芯片 高通发布云端AI芯片 近日,美国高通公

      高通发布云端AI芯片 近日,美国高通公司宣布推出两款新型人工智能芯片AI200和
    发表于 10-28 10:43 813次阅读

    新思科技测试IO方案加速HPC和AI芯片量产

    为实现更高性能目标,AI与HPC芯片设计正加速向芯粒架构演进。但是传统单片机SOC已经很难在尺寸上继续扩张,异构集成已成为推动半导体创新的核心动力。然而,它也增加了芯片设计的复杂性,需
    的头像 发表于 10-15 11:33 538次阅读
    新思科技<b class='flag-5'>测试</b>IO方案<b class='flag-5'>加速</b>HPC和<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>量产

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    和探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试计算 测试计算(TTC)是指在模型推理阶段利用额外的计算资源来提升泛
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    算法 5.2加速矩阵乘法的芯片架构 ①新的矩阵乘法器架构 ②基于RISC-V的矩阵乘法扩展指令集 ③用信息论的思想来减少AI推理计算量 三、用于
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    ②Transformer引擎③NVLink Switch系统④机密计算⑤HBM FPGA: 架构的主要特点:可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。 ASIC: 介绍了几种ASIC AI
    发表于 09-12 16:07

    Lightium、旺矽科技与 Axiomatic_AI 宣布达成战略合作,共同推出 AI 驱动的光子芯片测试创新解决方案

    苏黎世、新竹和波士顿2025年8月5日 /美通社/ -- Lightium AG、旺矽科技股份有限公司(MPI Corporation)与 Axiomatic_AI Inc. 近日正式签署合作备忘录
    的头像 发表于 08-06 08:46 531次阅读

    AI芯片加速人工智能计算的专用硬件引擎

    人工智能(AI)的快速发展离不开高性能计算硬件的支持,而传统CPU由于架构限制,难以高效处理AI任务中的大规模并行计算需求。因此,专为AI
    的头像 发表于 07-09 15:59 911次阅读

    黑芝麻A2000#高阶智能驾驶与通用AI计算芯片详细解析

    、产品定位与核心目标 A2000家族是黑芝麻智能华山系列的最新产品, 定位于高阶智能驾驶与通用AI计算 ,目标是通过高算力、高能效的芯片设计,解决自动驾驶场景中的复杂决策与感知需求,并
    的头像 发表于 04-30 10:33 5611次阅读
    黑芝麻A2000#高阶智能驾驶与<b class='flag-5'>通用</b><b class='flag-5'>AI</b><b class='flag-5'>计算</b><b class='flag-5'>芯片</b>详细解析

    光子 AI 处理器的核心原理及突破性进展

    电子发烧友网(文 / 李弯弯)光子 AI 处理器,作为一种借助光子执行信息处理与人工智能(AI计算的新型硬件设备,正逐渐崭露头角。与传统基
    的头像 发表于 04-19 00:40 3642次阅读

    融合30万项专利,“OptoChat AI”引擎引爆万亿光子AI市场

      电子发烧友网报道(文/吴子鹏) 近日,南京江北新区企业 —— 南京南智先进光电集成技术研究院有限公司,联合南京知满科技等合作伙伴,成功开发出国内首个光子 AI 智能引擎 “OptoChat
    的头像 发表于 03-09 04:38 1678次阅读
    融合30万项专利,“OptoChat <b class='flag-5'>AI</b>”引擎引爆万亿<b class='flag-5'>光子</b><b class='flag-5'>AI</b>市场

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    的三重革命1) 硬件架构革命:英特尔IPU路线图显示,到2026年将推出FPGA+Xeon的异构加速卡;AMD计划2023年集成Xilinx AI Engine的CPU芯片......
    发表于 03-03 11:21

    Lightmatter借助Cadence工具构建光子芯片

    生成式 AI 日益普及,托管和训练这些算法所消耗的能源也随之增加。光子技术以光子为主要计算源,基于光子的系统具有低功耗的优势,有助减少碳排放
    的头像 发表于 02-24 10:37 1029次阅读

    中科曙光以AI加速智能计算服务千行万业

    近年来,中科曙光以AI为中心,全面重构底层芯片、液冷、计算、存储、智算集群、基础软件栈、管理平台,并与AI场景有机适配、融合,加速智能
    的头像 发表于 02-10 17:45 1554次阅读

    消息称AMD Instinct MI400 AI加速器将配备8个计算芯片

    计算芯片,这一消息在 AI 计算领域引发了广泛关注。 据悉,MI400 将配备 2 个有源转接层芯片 (AID),每个 AID 包含 4
    的头像 发表于 02-05 15:07 1378次阅读