0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepX的AI加速器能够脱颖而出吗?

Astroys 来源:Astroys 2023-06-08 16:48 次阅读

在评估AI硬件时,规格竞赛(能效、性能和对各种算法的支持)绝对是重要的。

但是,当系统公司把在GPU上开发的AI模型移植到其他类型的硬件时发生的精度损失怎么处理呢?这就是DeepX的特色。

上周,AI芯片初创公司DeepX的创始人Lokwon Kim,在加州Santa Clara的展会上推出了一系列AI加速器。Kim声称,这些芯片将实现“无处不在的AI,人人可用的AI。”

Kim选择了嵌入式视觉峰会作为他的首次公开亮相。需明确的是,DeepX是一个刚加入这个拥挤赛道的初创公司。然而,DeepX在韩国却有着深厚的根基。通过向韩国政府积极地营销,Kim已经把DeepX在AI领域的研发变成了一个国家项目。

DeepX从政府那里筹集了4000万美元,还在韩国的风投圈中筹集了2000万美元。根据Kim的说法,今年晚些时候将计划进行B轮融资。

DeepX正在推出一系列用于边缘设备嵌入式视觉产品的AI加速器。它还开发了包括编译器和运行时在内的软件开发套件DXNN。DeepX认为DXNN是其皇冠上的明珠。

据报道,DXNN可以简化深度学习模型部署到DeepX的AI SoC的过程。其编译器提供了高性能量化、模型优化和NPU推理编译的工具。其运行时包括NPU设备驱动程序、带有API的运行时和NPU固件。

最重要的是,该公司声称,DXNN支持“以浮点格式训练的DNN模型的自动量化”。

DeepX并没有凭空创造出其AI硬件架构。Kim说,自2016年创立公司以来,“我们实际上已经与数百家全球公司坐下来进行了面谈。”

Kim观察到,“可扩展性、AI精度以及功率/性能效率”是边缘AI系统开发者一直在苦苦挣扎的三个领域。DeepX的目标是在其AI加速器上实现GPU级的AI精度,同时提供高吞吐量和低功耗。

DeepX的源起

在DeepX之前,Kim是Apple的AP的首席设计师,参与开发了A10、A11 Bionic和A12 Bionic。

Kim创办DeepX的灵感来源于他2010年在IBM的T.J. Watson研究中心做访问学者的经历。他当时的工作是开发深度学习MPU,这是DARPA指派给IBM的一个项目。

当时Kim是UCLA的博士生,自那以后,他一直沉迷于在MPU上运行DNN的想法。

即使在加入Apple后,Kim也一直坚持着自己的AI创业梦想。“我实际上已经把我的想法带给了Apple的高层管理人员。”他们拒绝了,于是Kim结束了在Apple的工作,并返回韩国。

Kim表示,他非常敬仰张忠谋。半导体行业对张忠谋的贡献有很大的感激之情。张忠谋离开美国,在台湾创办了TSMC。这个起初并不被看好的企业最终成为了全球最大的代工巨头。

Kim说,TSMC对台湾的重要性(无论是经济上还是政治上)已不言而喻。通过利用AI的力量,Kim希望在他的祖国取得类似的重要地位。

这是一个大胆的说法。但是Kim的想法反映了这个时代。无论是好是坏,地缘政治已经成为先进半导体发展的内在因素。

战略

DeepX设计了同属一系列的四款AI加速器,所有的焦点都集中在视觉应用上。其策略是为多个边缘视觉AI领域提供可扩展的解决方案。

DX-L1,适用于IP摄像头、车内监控、机器人摄像头和无人机等摄像头应用。

DX-L1包含四核RISC-V、ISP、MIPI和视频编码器,提供12 eTOPS的AI性能。Kim指的eTOPS是“相当于GPU的TOPS的性能度量标准”。

DX-L2支持3-4个摄像头的边缘AI视觉系统,提供38 eTOPS。

DX-M1,配备了双核ARM核和ISP,支持10个摄像头,提供200 eTOPS。

DX-H1,提供1600 eTOPS,将以PCIe卡的形式生产,可以部署在能够执行大规模AI操作的边缘服务器中。通过支持10,000个摄像头,DX-H1可以服务于安装了大量监控摄像头的工厂。H1具有与M1类似的双核ARM核和ISP模块。

所有四种芯片都由三星代工,其中L1和L2采用28nm制程。M1是14nm,H1则使用5nm工艺。价格范围从10美元(L1)、20美元(L2)到50美元(M1)和1500美元(H1)不等。

准确性

除了提供低功耗和性能效率外,DeepX还将资源集中在量化工作上,以保证GPU级的准确性。

基于自身经验,DeepX专注于解决准确性降低的问题上。Kim指出,将原本在浮点格式GPU上训练的AI模型移植到其它硬件上,都会导致准确性降低。

因此,DeepX的团队寻找了每个数据路径中准确性降低的点。结果就是DeepX在其SDK,即DXNN中称之为“世界顶级的量化器”。

396034be-05d8-11ee-962d-dac502259ad0.jpg

市场细分

过去几年中,许多AI硬件创业公司被汽车行业所诱惑,梦想着他们的AI芯片将成为下一代车辆平台的计算机大脑。

相反,Kim得出的结论是,对于一家初创公司来说,向车厂销售AI芯片是一个糟糕的选择。因为汽车芯片需要经过漫长的验证时间,ASIL B和C等认证作业增加了很多困难。即使解决了这些障碍,芯片销量也微乎其微。

相反,Kim的策略是与车厂合作,为DeepX MPU授权IP,包括软件。Kim解释说,DeepX一直被OEM忽视,现在却开始收到OEM要求评估DeepX芯片的请求。

这可能意味着两件事。

首先,许多欧洲车厂向Kim暗示,他们对下一代车辆平台仍未做出决定。

其次,一些领先的车厂已经投入资源使用Nvidia的GPU开发自己的AI模型。但现在,当他们将模型移植到其他硬件上时,准确性降低问题正在出现。这迫使他们重新寻找另一种AI硬件解决方案。

Kim表示,DeepX只会为车厂提供IP授权。对于其他应用领域,其业务模式则是直接销售芯片。

Kim表示,DeepX的AI芯片的最佳应用场景是机器人,无论是配送机器人还是在工厂内作业的机器人。

Nvidia显然已经通过GPU赢得了AI市场。然而,AI竞赛的下一章或许在于如何将在GPU上训练的AI模型有效地移植到非GPU硬件上。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    743

    浏览量

    36598
  • SoC设计
    +关注

    关注

    1

    文章

    141

    浏览量

    18666
  • MPU
    MPU
    +关注

    关注

    0

    文章

    298

    浏览量

    48369
  • NPU
    NPU
    +关注

    关注

    2

    文章

    210

    浏览量

    18083
  • ai硬件
    +关注

    关注

    0

    文章

    8

    浏览量

    2337

原文标题:DeepX的AI加速器能够脱颖而出吗?

文章出处:【微信号:Astroys,微信公众号:Astroys】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Arm推动生成式AI落地边缘!全新Ethos-U85 AI加速器支持Transformer 架构,性能提升四倍

    电子发烧友网报道(文/黄晶晶)在嵌入式领域,边缘与端侧AI推理需求不断增长,Arm既有Helium 技术使 CPU 能够执行更多计算密集型的 AI 推理算法,也有Ethos 系列 AI
    的头像 发表于 04-16 09:10 2269次阅读
    Arm推动生成式<b class='flag-5'>AI</b>落地边缘!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架构,性能提升四倍

    解锁AI时代的利器——讯飞AI鼠标AM30助你在AI时代脱颖

    解锁AI时代的利器——讯飞AI鼠标AM30助你在AI时代脱颖而出 随着AI时代的到来,人们对于人工智能的需求越来越迫切。 在这个竞争激烈的时
    的头像 发表于 03-25 13:37 148次阅读
    解锁<b class='flag-5'>AI</b>时代的利器——讯飞<b class='flag-5'>AI</b>鼠标AM30助你在<b class='flag-5'>AI</b>时代<b class='flag-5'>脱颖</b>

    粒子加速器加速原理是啥呢?

    粒子加速器加速原理是啥呢? 粒子加速器是一种重要的实验设备,用于研究粒子物理学、核物理学等领域。其主要原理是通过电场和磁场的作用,对带电粒子进行加速,在高速运动过程中使其获得较大的动
    的头像 发表于 12-18 13:52 890次阅读

    21489的IIR加速器滤波参数设置如何对应加速器的滤波参数?

    目前在用21489内部的IIR加速器去做一个低通滤波,在例程的基础上修改参数。通过平板的fda 工具工具去设计参数,但是设计出来的参数不知道如何对应加速器的滤波参数,手册里也看得不是很明白。 设计的参数如下: 请问
    发表于 11-30 08:11

    NVG002F语音芯片:低功耗 宽电压工作与可重复烧写脱颖而出

    在芯片日益发展的时期,为满足用户的需求,九芯一款具有颇高竞争力的语音芯片-NVG002F出现在市场上。这款芯片低成本、生产周期短,适合大中小型批量生产以及在2.4V~5.2V宽电压范围内工作的特性,特别是可重复烧写的特点,在语音芯片市场中脱颖而出
    的头像 发表于 11-29 15:59 210次阅读

    PCIe在AI加速器中的作用

    从线上购物时的“猜你喜欢”、到高等级自动驾驶汽车上的实时交通信息接收,再到在线视频游戏,所有的这些都离不开人工智能(AI加速器AI加速器是一种高性能的并行计算设备,旨在高效处理神经
    的头像 发表于 11-18 10:36 1225次阅读
    PCIe在<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>中的作用

    低功耗下,高能效AI加速器如何设计?

    如果在数据中心和边缘设备中部署上人工智能(AI加速器,那么它们将能够快速处理PB级的数据量,还能帮助克服传统的冯·诺依曼瓶颈。
    的头像 发表于 10-26 09:18 874次阅读

    STM32为何在诸多的单片机中脱颖而出

    STM32为何在诸多的单片机中脱颖而出
    的头像 发表于 10-19 18:05 288次阅读
    STM32为何在诸多的单片机中<b class='flag-5'>脱颖而出</b>?

    AI加速器架构设计与实现》+第2章的阅读概括

    首先感谢电子发烧友论坛提供的书籍和阅读评测的机会。 拿到书,先看一下封面介绍。这本书的中文名是《AI加速器架构设计与实现》,英文名是Accelerator Based on CNN Design
    发表于 09-17 16:39

    AI加速器架构设计与实现》+学习和一些思考

    AI加速器设计的学习和一些思考 致谢 首先感谢电子发烧友论坛提供的书籍 然后为该书打个广告吧,32K的幅面,非常小巧方便,全彩印刷,质量精良,很有质感。 前言 设计神经网络首先要考虑的几个问题
    发表于 09-16 11:11

    橙群微电子NanoBeacon SoC 在 &amp;quot;Truly Innovative Electronics &amp;quot;评选中脱颖而出

    InPlay我们的#NanoBeaconSoC产品在ElectronicsForYou的"TrulyInnovativeElectronics"评选中脱颖而出
    的头像 发表于 08-18 08:32 395次阅读
    橙群微电子NanoBeacon SoC 在  &amp;quot;Truly Innovative Electronics &amp;quot;评选中<b class='flag-5'>脱颖而出</b>

    Intel媒体加速器参考软件用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放应用软件,它利用固定功能硬件加速来提高媒体流速、改进工作量平衡和资源利用,以及定制的图形处理股(GPU)管道解决方案。该用户指南将介绍和
    发表于 08-04 07:07

    【书籍评测活动NO.18】 AI加速器架构设计与实现

    经验总结图解NPU算法、架构与实现,从零设计产品级加速器当前,ChatGPT和自动驾驶等技术正在为人类社会带来巨大的生产力变革,其中基于深度学习和增强学习的AI计算扮演着至关重要的角色。新的计算范式需要
    发表于 07-28 10:50

    数据中心 AI 加速器:当前一代和下一代

    数据中心 AI 加速器:当前一代和下一代演讲ppt分享
    发表于 07-14 17:15 0次下载

    企业数字化办公,华为云 WeLink 为何能脱颖而出

    平台中,华为云 WeLink 凭借其安全、开放、智能的特点脱颖而出。它提供了一站式的办公协同解决方案,帮助企业实现全场景智能办公,让企业无边界协同。下面,我们将详细介绍华为云 WeLink 办公协同解决方案的优势和特点。 华为云 WeLin
    的头像 发表于 07-03 22:32 527次阅读