0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

请问一下DSP数学能否在AI领域战胜GPU呢?

Astroys 来源:Astroys 2023-10-26 10:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI芯片初创公司Lemurian Labs发明了一种专为AI加速设计的新型对数数字格式,并正在构建一种芯片,利用它为数据中心AI工作负载服务。

Lemurian的CEO Jay Dawani说:“2018年,我正在为机器人训练模型,部分是卷积,部分是Transformer,部分是强化学习。在1万个Nvidia V100 GPU上训练这个模型需要6个月时间……模型呈指数级增长,但很少有人有足够的算力来尝试训练,很多想法就这样被放弃了。我试图为那些有伟大想法但却苦于没有算力的普通的ML工程师构建模型。”

对Lemurian首款芯片的模拟显示,根据H100最新的MLPerf推理基准测试结果,Lemurian的新数字系统与专门设计的芯片相结合,其性能将优于Nvidia的H100。在离线模式下,Lemurian芯片在MLPerf版本的GPT-J中每个芯片每秒可处理17.54次推理(Nvidia H100在离线模式下每秒可处理13.07次推理)。Dawani说,Lemurian的模拟结果可能在真实芯片性能的10%以内,但他的团队打算今后从软件中榨取更多性能。他说,软件优化加上稀疏性可以将性能再提高3-5倍。

对数数字系统‍‍

Lemurian的秘诀在于该公司提出的新数字格式,称之为PAL(parallel adaptive logarithms)。

Dawani说:“作为一个行业,我们开始急于采用8位整数量化,因为从硬件的角度来看,这是我们所拥有的最有效的东西。但从来没有软件工程师说过我想要8位整数!”

对于今天的LLM推理而言,INT8的精度已被证明是不够的,业界已转向FP8。但Dawani解释说,AI工作负载的性质意味着数字经常处于亚正常范围(接近零的区域),FP8可以表示的数字较少,因此精度较低。FP8在亚正常范围内的覆盖率存在差距,这也是许多训练方案需要BF16和FP32等更高精度数据类型的原因。

5f6a7d50-73a0-11ee-939d-92fbcf53809c.jpg

比较各种数字格式的覆盖范围。与CFP8(configurable floating point 8)、INT8(integer 8)和现有LNS8(logarithmic number system 8)相比,Lemurian的8位对数数据类型PAL8在亚正常范围的覆盖率更高。

Dawani的联合创始人Vassil Dimitrov提出了一个想法,即通过使用多基数和多指数来扩展现有的LNS(logarithmic number system),该系统已在DSP中使用了几十年。

Dawani说:“我们交错表示多个指数,以重现浮点的精度和范围。这样就能提供更好的覆盖范围……它自然而然地形成了一个锥形轮廓,在重要的地方,即在亚正常范围内,具有非常高的精度带。” 这个精度带可以进行偏置,以覆盖所需的区域,这与浮点运算的原理类似,但Dawani说,它允许对偏置进行比浮点运算更精细的控制。

Lemurian开发了从PAL2到PAL64的PAL格式,其中14位格式与BF16相当。与FP8相比,PAL8的精度提高了约一个比特,大小约为INT8的1.2倍。Dawani希望其它公司也能采用这些格式。

他说:“我希望更多的人使用它,因为我认为是时候摆脱浮点运算了。PAL可以应用于目前浮点运算的任何应用,从DSP到HPC以及两者之间,而不仅仅是AI,尽管这是我们目前的重点。我们更有可能与其它为这些应用构建芯片的公司合作,帮助他们采用我们的格式。”

对数加法器‍‍

由于对数加法器简化了乘法运算,因此在大部分为乘法运算的DSP工作负载中,对数加法器已使用了很长时间。LNS表示的两个数的乘法就是这两个对数的加法。然而,将两个LNS数字相加却比较困难。DSP传统上使用LUT (large lookup table) 来实现加法运算,虽然效率相对较低,但如果所需的大部分运算都是乘法运算,这种方法已经足够好了。

对于AI工作负载来说,矩阵乘法需要乘法和加法。Dawani说,Lemurian的秘诀之一就是“在硬件上解决了对数加法”。

他说:“我们完全摒弃了LUT,创建了一个纯对数加法器。我们有一个比浮点精确得多的精确加法器。我们仍在进行更多优化,看看能否使它更便宜、更快速。它的PPA(power, performance, area)已经比FP8高出两倍多。” Lemurian已经为这款加法器申请了多项专利。

他说:“DSP界以研究工作负载并从数值上理解它在寻找什么著称,然后加以利用并将其转化为芯片。这与我们正在做的事没有什么不同。我们并没有构建一个只做一件事的ASIC,而是研究了整个神经网络空间的数值,并构建了一个具有适度灵活性的特定领域架构。”

5f9296e6-73a0-11ee-939d-92fbcf53809c.jpg

Lemurian数据流架构的高级视图。该芯片是围绕该公司的对数数字系统设计的。

软件堆栈‍‍

以高效的方式实现PAL格式需要硬件和软件。

Dawani说:“我们花了很多心思去思考如何让硬件更容易编程,因为除非你能首先提高工程师的生产力,否则任何架构都不会成功。我宁愿有一个糟糕的硬件架构和一个优秀的软件堆栈,而不是相反。”

他说,Lemurian在开始考虑硬件架构之前,就已经构建了大约40%的编译器。如今,Lemurian的软件堆栈已经开始运行,Dawani希望保持它的完全开放性,这样用户就可以编写自己的内核和融合程序。

软件堆栈包括Lemurian的混合精度对数量化器Paladynn,它可以将浮点和整数工作负载映射到PAL格式,同时保持精度。

他说:“我们采用了神经架构搜索中的许多想法,并将其应用于量化,因为我们想让这部分变得简单。”

Dawani说,虽然卷积神经网络的量化相对容易,但transformer却并非如此。激活函数中存在异常值,需要更高的精度,因此transformer总体上可能需要更复杂的混合精度方法。不过,Dawani说,他正在关注多项研究工作,这些工作表明,到Lemurian的芯片上市时,transformer可能就不再流行了。

未来的AI工作负载可能会遵循Google的Gemini等公司设定的路径,即运行非确定的步数。他说,这打破了大多数硬件和软件堆栈的假设。

他说:“如果你事先不知道你的模型需要运行多少步,你该如何安排它,你需要在多少计算上安排它?你需要的是更动态的东西,这影响了我们的很多想法。”

该芯片将是一款300W的数据中心加速器,配备128GB HBM3,可提供3.5POPS的密集算力(稀疏性将稍后推出)。总体而言,Dawani的目标是打造一款性能优于H100的芯片,并使其价格与Nvidia上一代A100相当。目标应用包括内部AI服务器(任何行业)和一些二级或专业云公司(非超大规模公司)。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • dsp
    dsp
    +关注

    关注

    559

    文章

    8214

    浏览量

    363960
  • HPC
    HPC
    +关注

    关注

    0

    文章

    342

    浏览量

    24825
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6395
  • AI芯片
    +关注

    关注

    17

    文章

    2063

    浏览量

    36565

原文标题:DSP数学能否在AI领域战胜GPU?

文章出处:【微信号:Astroys,微信公众号:Astroys】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    请问一下,CW32L083VCT6的DeepSleep模式,功耗多少?

    请问一下,CW32L083VCT6的DeepSleep模式,功耗多少?
    发表于 12-03 06:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的我我们讲解了这几种芯片的应用场景,设计流程、结构等。 CPU: 还为我们讲解了种算法:哈希表算法 GPU: 介绍了英伟达H100GPU芯片。使用了一下关键技术: ①张量
    发表于 09-12 16:07

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    保持停滞的情况,依照目前计算机的能耗效率,至少还需要30年的努力才接近其水准,见图1所示。 图1 大脑与计算机的能量效率对比 图2 类脑芯片的前瞻性研究领域AI湿件 为此,些想
    发表于 09-06 19:12

    AI 芯片浪潮,职场晋升新契机?

    职场、渴望专业领域更进步的人来说,AI 芯片与职称评审之间,实则有着千丝万缕的联系,为职业晋升开辟了新的路径。 AI 芯片
    发表于 08-19 08:58

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引,我已经安装了cuda和cudnn,全局的py里添加了torch,能够调用gpu,当
    发表于 07-25 08:18

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下?直接发个安装包,谢谢。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    发表于 07-09 18:30

    请问CYPM1011-24LQXI能否直接在keil MDK中开发?

    抱歉打扰一下请问这款芯片CYPM1011-24LQXI能否直接在keil MDK中开发
    发表于 05-30 06:20

    DSP智能家电领域的应用,涵盖音效处理、语音识别、智能化控制

    结构,配备专门的硬件乘法器,广泛运用流水线操作,并提供特殊的 DSP 指令,可快速实现各类数字信号处理算法。   DSP  AI 中的应用及优势​ 尽管 
    的头像 发表于 04-14 00:42 2351次阅读

    请问DMD表面玻璃的材质是什么?能否使用酒精擦拭

    请问DMD表面玻璃的材质是什么?能否使用酒精擦拭?如果不能使用酒精,应使用何种方式清洁或者擦拭DMD表面玻璃
    发表于 02-21 06:03

    DLP4710EVM-LC安装了LINUX的驱动之后,能否和在WINDOWS下样投影外部图片

    请问我安装了LINUX的驱动之后,能否和在WINDOWS下样投影外部图片
    发表于 02-18 07:05

    用ADS8342采直流数据时,数据跳动,能否提供个C51的例程参考一下

    用ADS8342采直流数据时,数据跳动,能否提供个C51的例程参考一下
    发表于 02-14 08:06

    Frame-sync的传送方式,ADS1274数据输出引脚如何与DSP的McBSP接口连接

    引脚?还想请问下,Frame-sync的传送方式,ADS1274数据输出引脚如何与DSP的McBSP接口连接
    发表于 02-07 06:58

    请问一下204B接口的各个层次?

    Hi~,我想请问一下204B接口的各个层次,例如transport layer,link layer...里面的8B/10B,scrambler...的内建测试模式和测试模板(test parten)方面的资料,应该参考什么
    发表于 01-20 09:05

    支付宝发布新AI视觉搜索“探一下

    支付宝近日正式推出了基于自研多模态大模型技术的新AI视觉搜索产品——“探一下”。这创新产品的问世,标志着支付宝
    的头像 发表于 12-31 10:49 938次阅读

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解
    的头像 发表于 12-19 17:54 1322次阅读