0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

光子AI芯片算法先行硬件跟进,为传统加速计算卡装上“涡轮增压”

工程师邓生 来源:芯东西 作者:白冰 2020-12-23 16:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在日前举办的GTIC 2020上,光子算数创始人兼CEO白冰发表了一场题为《AI芯片的另一条路:光子芯片》的主题演讲。作为一家国内少有的光子AI芯片赛道玩家,白冰在演讲中与大家分享了光学芯片的工程化进展、市场定位及目标客户、具体研发实施路径及相关适配算法等话题。

一、光学芯片工程化进展,已至测试阶段

与常规数字芯片不同,白冰所创立的光子算数,采取了另外一条技术路线——光子芯片。

白冰说,用光学做计算处于比较早期的阶段。目前光子算数团队已将其做成测试级的产品,并于今年放至服务器厂商客户处进行测试。

作为一家初创公司,光子算数和高校、研究所等几家单位共同工作。其早期样片集成了几百个不同的光学单元,比如有电光转换,把电信号加载到光载波,然后通过传播到片内的光学组合,完成一些特定的函数变换。跟传统的计算特征不同,它不是面向加减乘除,而是直接完成一个复杂的变化过程。

这被称为可编程光子阵列芯片FPPGA(Field Programmable Photonic Gate Arrays),其中的光学单元可以通过电控,控制重新的连接组合方式,实现不同的复杂函数。也就是说,FPPGA具有可重构的特性。

光学芯片加速的不是完整算法,和所有的数字芯片一样,光学芯片面向复杂函数做加速计算,其计算对象是特定算子。光的劣势在于不是特别灵活,但是在某些函数上有优势。

整个系统是光电混合的,数据在光电两部分中完成一个流动,执行一个完整的计算过程,由光学、电学芯片构成光电混合AI计算硬件系统。

光电混合系统仍要做到软硬协同,开发适合光学加速的算法,使得光电混合系统的硬件物理架构与算法的运算/访存特征相匹配。

从技术架构图可以看到,左边是电学部分,包含逻辑控制、缓存等,以及专用的定制化IP。考虑到与光学芯片匹配,这些IP与传统的数字IP不一样,需要定制化开发;右边是光学模组,除了光学计算芯片外,还有一颗DFB激光器芯片,还有驱动、TIA以及小型的控制、电源芯片等组件。

中间采用热插拔的方式,跟通信模块一样。之所以选择这一方式,是因为光子算数团队考虑到光芯片、电芯片放到一起,可能卖不出去,因为很难拼得过GPU,考虑到其产品定位,因此做成插拔型。

光子算数与高校一起打造了面向服务器的光电混合AI加速计算卡,目前已完成一些定制化加速任务,包括机器学习推理、时间序列分析等特定任务。白冰说,计算卡现在的性能可用,不过还比较初步,能做到36路1080P视频同步处理,功耗不到70W,算力资源相对有限,混合精度下峰值算力接近20TOPS,光部分为低精度,电部分为高精度

计算卡封装有光子协处理引擎模块,散热器、驱动、控制器、TIA、一些计算控制部分和赛灵思FPGA芯片,数据在光电之间形成循环流动。光的定位是为电做协处理加速。

其中光子协处理引擎模块用的是两个QSFP28的光通信接口(每个都是100GB/s),光通信物理接口非常成熟,其光学带宽大约达200GB/s,典型功耗达7W,算力在1.2TOPS左右。该模块支持热插拔,不需要经过预调,内部封装了一些适合于用光学做的特殊的算子函数,比如随机投影、高维空间变换映射、压缩、小规模卷积、时间序列等高算子。现在该模块还比较初步,下一阶段,光子算数会进一步扩大其规模。

光子协处理引擎模块里面是两层结构,上面是控制模组,其二级控制缓存处理随时可以换,以适应下一步软件迭代;下面是光学运算模组,包含整个光学计算部分,其中集成了大量的光学单元,为了一些特定的函数,可以做低延时、低能耗的变换过程。

完整计算过程是FPGA接收的数据从电接口进来,经过驱动放大,驱动光芯片上的调优器,把信号再返到光上,经过片内传输完成变换,然后再变成电信号返回。

目前光子算数已将一些光电混合AI加速计算服务器提供给机房和IDC试用与测试,接口是标准的PCIe口。此外,其服务器也与一些国产操作系统CPU厂商做了适配。

白冰坦言,该服务器目前性能仍较有限,70W运行功耗下,大概能做三四十路的视频同步处理,跟纯电比没有那么强。

下一步,他们考虑将光的部分带宽扩大,进一步提升算力。当前在光通信领域,100GB/s是主流,200GB/s比较少,400GB/s、800GB/s主要有一些大厂在做,目前还没推出产品。尽管做这块成本较高,但这是比较切实可行的已有方案。

二、热插拔式模块,可由大厂软件调用

白冰谈到的第二个话题,光学芯片的产品定位,即这个东西做完之后,卖给谁?

如果想在云端替代NVIDIA GPU,是非常困难的,其核心竞争力在于它的软件工具。把电和光放到一张卡上,要开发完整的软件套件,工作量非常大且代价很高。当然云端加速计算卡也可以做定制化,但定制化在云端的适用空间会相对有限,这是做云端AI芯片的所有公司共同面临的窘境。

光子算数为什么选择做成热插拔方式?实际上,这是将适合用光学做的特定算子封装到光学模块里,通过热插拔接口和国内大厂的加速计算卡插在一起,这种接口制都是成熟的,开发者使用大厂的软件工具,即可通过API调用光子算数的模块内嵌特定算子。面向具体应用,开发者通过大厂软件工具,开发由光子算数的光学算子与大厂原有的电学算子组成的光电混合算法整体。

光子算数对自己的市场定位是提供传统加速计算卡的升级组件,使传统加速计算卡提升性能、降低能耗、降低成本,不受制于软件工具。消费者依然买大厂的卡和工具,如需升级,即可选用光子算数的模块。白冰提了一个形象的比喻,用一张传统卡加上光子协处理引擎模块的效果,相当于给汽车配了一个涡轮增压。

三、研发实施路径:算法先行,硬件跟进

白冰谈到关于研发路线。他们研发的内容是系统性工程,相较于设计新型的光学计算单元,难度是可以克服的。

更多的,其行业特征特别像光模块,它的行业拓展是小芯片、大组装,其封装和组装成本占整个的70%,是一个系统工程。更主要的,要做软硬系统的匹配,同时硬件要做到光与电的协同,其中包括一些算子、标定的东西并涉及到一些关键技术。

最核心的,要做适合光学做的算法,算法先行,硬件跟进。目前市面上的传统算法不太适合光学芯片去执行,计算机发展这么多年,一直是软和硬耦合在一起发展,“硬”一直是数字芯片,所以算法里嵌了很多数字芯片的基因,用光学硬件很难加速。

因此首先要开发适合光学做的算子,给光学算子配一些数字算子,去组成完整的算法,然后来分析光电混合算法的运算和访存特征,再之后再设计硬件,如何给算法加速。

“这是我们做的核心关键思路,这也是为什么很多公司目前做不出来的原因。”白冰说。

四、适配光学计算的算法示例

那么,哪些算法适合用光学计算去处理呢?

白冰举了些例子,比如光学随机投影,用光学芯片物理实现无需复杂精确控制,加工容差大、一致性要求低。该方案有循环的效果,不是卷积,而是对数据直接进行维度的变化,直接能做非线性的处理,比如升维或压缩这样。

例如对平面上的目标进行分类,用一条曲线可以把它分开,曲线是比较复杂的,算法里面可能对应很多层,在处理之前,可以将数据扔到光学芯片里,做一个升维操作,数据从二维空间变到三维、四维空间,多了Z轴。这个投影用光学做的话没有代价,在电里面用一个线性的平面就可以把两类目标区隔开,可以把十层的网络压缩到两层,这样就是投影变换,光学芯片会有内部的架构。

光子算数把光学函数和数字算子组成了关键的光电混合算法,经尝试,至少可以跟市面上主流的算法做更新。

比如基于光学随机投影做目标识别迁移学习时,后半部分进行重新训练,算法训练量还是很大的。其实可以不走绿色部分,直接在蓝色块用光学芯片做预处理,后面加简单的线性层,就可以完成任务,做一个维度的升维变化。

再比如训练时,通常会用BP,连续求导会有梯度消失或爆炸的问题,另外训练量也比较大。用光学做,可以直接将输出层Loss通过光学随机投影直接回传到不同的权重层,每层并行独立更新权重,这样可以做并行训练处理并且避免了连续求导的过程。

尽管这一领域相对早期的,主要面向特定化的市场,但可以看到,它已在某些领域有些成熟化的产品出现和得到应用。由于当前光学芯片主要作为协处理器,光子算数也在持续地与做电学芯片的大厂积极沟通合作。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算
    +关注

    关注

    2

    文章

    458

    浏览量

    39839
  • AI
    AI
    +关注

    关注

    89

    文章

    38120

    浏览量

    296661
  • 光子芯片
    +关注

    关注

    3

    文章

    110

    浏览量

    25187
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    AI芯片不仅包括深度学细AI加速器,还有另外一个主要列别:类脑芯片。类脑芯片是模拟人脑神经网络架
    发表于 09-17 16:43

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    算法 5.2加速矩阵乘法的芯片架构 ①新的矩阵乘法器架构 ②基于RISC-V的矩阵乘法扩展指令集 ③用信息论的思想来减少AI推理计算量 三、
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    ②Transformer引擎③NVLink Switch系统④机密计算⑤HBM FPGA: 架构的主要特点:可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。 ASIC: 介绍了几种ASIC AI
    发表于 09-12 16:07

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件AI湿件

    想到,除了研究大脑的抽象数学模型外,能否抛弃传统芯片实现方式,以化学物质和生物组件、材料及相关现象来构建人工神经网络或提取其功能来用于AI处理,甚至直接用生物体来实现AI功能,这就是
    发表于 09-06 19:12

    AI 芯片浪潮下,职场晋升新契机?

    芯片设计例,从最初的架构选型,到算法适配、性能优化,每个环节都考验着工程师的专业素养。在设计一款面向智能安防领域的 AI 芯片时,需要深
    发表于 08-19 08:58

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    计算等类别AI芯片的及时、全面而富有远见的书。” 那么时至今日,这个世界发生了什么变化呢? 在这四年间,最重大的技术变革无疑就是大模型的横空出世,人类的时间仿佛被装上
    发表于 07-28 13:54

    AI芯片加速人工智能计算的专用硬件引擎

    人工智能(AI)的快速发展离不开高性能计算硬件的支持,而传统CPU由于架构限制,难以高效处理AI任务中的大规模并行
    的头像 发表于 07-09 15:59 907次阅读

    可编程线性霍尔传感器AH820替换HAL825用于汽车涡轮增压

    可编程线性霍尔传感器AH820替换HAL825用于汽车涡轮增压
    的头像 发表于 04-21 09:53 558次阅读
    可编程线性霍尔传感器AH820替换HAL825用于汽车<b class='flag-5'>涡轮</b><b class='flag-5'>增压</b>

    光子 AI 处理器的核心原理及突破性进展

    电子发烧友网(文 / 李弯弯)光子 AI 处理器,作为一种借助光子执行信息处理与人工智能(AI计算的新型
    的头像 发表于 04-19 00:40 3638次阅读

    RK3588核心板在边缘AI计算中的颠覆性优势与场景落地

    推理任务,需额外部署GPU加速卡,导致成本与功耗飙升。 扩展性受限:老旧接口(如USB 2.0、百兆网口)无法支持5G模组、高速存储等现代外设,升级困难。 开发周期长:BSP适配不完善,跨平台AI
    发表于 04-15 10:48

    零知开源平台重磅升级!嵌入式开发进入“涡轮增压”时代

    ;Arduino项目移植效率惊人,编译速度直接碾压原环境" ▍为什么选择零知涡轮引擎? ✔ 开源架构完全透明 ✔ 企业级代码安全保障 ✔ 智能错误预诊断系统 ✔ 实时编译进度可视化 ✔ 深度硬件加速支持 立即升级您的开发工具链,让每次代码编译都如丝般顺滑!告
    发表于 03-11 11:22

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    的三重革命1) 硬件架构革命:英特尔IPU路线图显示,到2026年将推出FPGA+Xeon的异构加速卡;AMD计划2023年集成Xilinx AI Engine的CPU芯片......
    发表于 03-03 11:21

    Lightmatter借助Cadence工具构建光子芯片

    生成式 AI 日益普及,托管和训练这些算法所消耗的能源也随之增加。光子技术以光子为主要计算源,基于光子
    的头像 发表于 02-24 10:37 1029次阅读

    当我问DeepSeek AI爆发时代的FPGA是否重要?答案是......

    ,开发人员可以根据具体应用需求重新配置硬件逻辑。这种灵活性使得FPGA能够适应不断变化的AI算法和应用场景,而无需更换硬件。 • 定制化加速
    发表于 02-19 13:55

    智算中心的核心硬件是什么?

    智算中心,作为人工智能时代的关键基础设施,其核心硬件的构成与性能直接影响着智能计算的效率与质量。以下是对智算中心核心硬件的详细阐述:一、AI芯片
    的头像 发表于 02-17 14:42 1996次阅读
    智算中心的核心<b class='flag-5'>硬件</b>是什么?