0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT炒热GPU,ASIC和FPGA能否分一杯羹?

E4Life 来源:电子发烧友网 作者:周凯扬 2023-02-22 09:23 次阅读
电子发烧友网报道(文/周凯扬)ChatGPT的出现,对于数据中心硬件市场无疑是一针强心剂,不少GPU厂商更是从中受益,从再度兴起的聊天机器人潮流中收获了更多订单。那么对于ChatGPT这类对AI算力有着不小需求的应用来说,ASICFPGA是否也能借上这股东风呢?

不同硬件的成本对比

机器学习推理场景中,除了GPU外,还有一大通用AI硬件适合这一负载,那就是FPGA。与GPU一样,在技术和算法还未成熟且仍在打磨阶段时,可以随时重新编程改变芯片功能的FPGA架构前期硬件成本显著低于GPU。在推理性能上,现如今的FPGA加速卡算力远超CPU,甚至高过不少GPU产品

而且在ChatGPT这样的聊天机器人应用上,将FPGA用于推理得以发挥其最大的优势,那就是高吞吐量和低时延。更高的吞吐量和更低的时延也就意味着更大的并发,对ChatGPT这种应用来说可以极大增强其响应速度。
CleanShot 2023-02-21 at 16.13.39@2x
Alveo V70推理加速卡 / AMD
但随着算法和模型逐渐成熟,FPGA在成本上的优势就慢慢不存在了,在大语言模型上需要用到更多的硬件,而FPGA量产规模的单价成本还是太高了,一旦扩充至成千上万张加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,据传单卡价格就在2000美元左右。如果我们以INT8精度来衡量算力的话,假设ChatGPT需要28936块A100 GPU,那么改用Alveo V70的话,也需要44693块加速卡。

所以还是有不少人将目光投向了量产规模成本更低的ASIC,比如谷歌就选择用自研的TPU来部署其聊天机器人Bard。ASIC方案在单芯片算力上或许不是最高的,但计算效率却是最高的,而且随着量产化单片成本会逐渐降低。比如谷歌的单个TPU v4 Pod就集成了4096个TPU v4芯片,单芯片的BF16算力达到275TFLOPS,已经相当接近A100单卡峰值算力了。如果只是这样简单换算的话,只需几个TPU v4 Pod,就能满足与ChatGPT同量级的应用了。

不过ASIC方案并没有我们想象得那么美好,首先这类硬件的前期设计成本较大,要想投入数据中心商用,必须组建强大的硬件设计和软件开发团队,这样才能有与GPU相抗衡的性能。其次,因为本身专用硬件的特性,专用于机器学习推理的ASIC方案很难最大化数据中心的硬件利用率,不像GPU还可以同时用于训练、视频编解码等等。

搭建属于自己的ChatGPT的成本有多高

对于GPT-3这样的大型模型来说,要想个人搭建和部署从成本上看肯定不是实惠的选择,所以我们可以选择其他的模型,比如Meta推出的1750亿参数OPT-175B模型。加州大学伯克利分校的Sky Lab就借助该模型推出了一个开源系统Alpa,同时具备聊天机器人、翻译、代码编写和数学计算的功能。

要想部署OPT-175B模型并搭建Alpa这样的文字聊天应用,对GPU的要求要远远小于ChatGPT。但这是建立在其本身响应速度和功能特性就显著弱于ChatGPT的情况下,比如一旦设定的回答长度过长,就需要等上数十秒,何况它列出的GPU需求也不算小。

根据Alpa的官方说明,虽然不需要用到最新一代的A100 80GB这样价格高昂的GPU或是InfiniBand这样先进的互联方案,但对显存的最低要求也已经达到了350GB。所以Alpa给的建议是使用32个英伟达Tesla V100 GPU,从而提供512GB的显存,这样硬件造价在50万到150万之间。
poYBAGP1btCARD6vAAdNQyw3qtA386.png
Tesla V100 GPU / 英伟达
如果你只是想开展聊天机器人的服务,而不是自己买硬件的话,也可以选择各大公有云服务厂商的方案,比如亚马逊AWS的EC2 P3系列,就是专为机器学习和HPC准备的实例。每个EC2 P3.16xlarge实例上有8块Tesla V100 GPU,所以至少租赁4个实例就能运行Alpa了。

不过这样一来服务器的费用也并不算便宜,单个实例按需付费每小时的花费在24.48美元左右,也就是说如果要全天运行的话,运行Alpa的成本为2400美元一天。哪怕云服务厂商通常都会给到长期承诺使用的折扣,这也是一笔不小的支出。

谷歌推出的Cloud TPU方案也是如此,如果真的打算以租赁服务器的方式来打造ChatGPT,那么谷歌目前给出的按需定价是每芯片小时价格3.22美元。要想部署数万规模的TPU v4芯片媲美ChatGPT,那么一定逃不掉超高的费用。

结语

不久前我们已经提到了ChatGPT的加入或许会给微软的现有产品带来定价的提升,如今这个猜测也已经成真。微软近日宣布,从今年5月1日开始,微软Bing搜索API的定价将会直线飙升,其中超大并发(每秒250次处理)的S1实例定价从每千次处理7美元提升至25美元,而额外的Bing统计更是从每千次处理1美元的价格拔高至10美元。如此看来,可见大语言模型的推理成本有多高可见一斑了,哪怕是微软也经不起这样烧钱。

所以对于ChatGPT这种应用,其运营者不同,对待硬件成本的看法也会不同,比如微软、谷歌之类已经拥有大规模服务器硬件的厂商,必然会利用现有GPU资源的同时,考虑如何用定制化的ASIC进一步节省成本。而体量较小的运营者,例如聊天机器人应用开发商、研究机构等,还是会选择租赁服务器或小规模本地部署,其首选硬件也会是GPU。

再说回FPGA,虽然从目前数据中心的市场现状来看,FPGA的AI推理加速卡仍处于一个弱势的位置。但随着AMD开始推出Alveo V70这样全新XDNA架构的方案,或许能给未来需要更大吞吐量的模型提供新的出路,尤其是视频分析推理应用。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏

    评论

    相关推荐

    FPGA设计中是否可以应用ChatGPT生成想要的程序呢

    当下AI人工智能崛起,很多开发领域都可看到ChatGPT的身影,FPGA设计中,是否也可以用ChatGPT辅助设计呢?
    发表于 03-28 23:41

    fpgaasic在概念上有什么区别

    FPGA(现场可编程门阵列)和ASIC(应用特定集成电路)在概念上存在明显的区别。
    的头像 发表于 03-27 14:12 184次阅读

    fpgaasic的区别

    FPGA(现场可编程门阵列)和ASIC(专用集成电路)是两种不同类型的集成电路,它们在设计灵活性、制造成本、应用领域等方面有着显著的区别。
    的头像 发表于 03-26 15:29 298次阅读

    FPGA在深度学习应用中或将取代GPU

    现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题 在过去的十年里,人工智能的再次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅
    发表于 03-21 15:19

    【国产FPGA+OMAPL138开发板体验】(原创)6.FPGA连接ChatGPT 4

    的复杂系统,然后将其映射到FPGA上运行。FPGA通常与CPU、GPU等并行处理单元起工作,通过网络接口与后端服务器通信。然而,如果编写
    发表于 02-14 21:58

    到底什么是ASICFPGA

    FPGA的架构,是无批次(Batch-less)的。每处理完成个数据包,就能马上输出,时延更有优势。 那么,问题来了。GPU这里那里都不如FPGA
    发表于 01-23 19:08

    FPGAASICGPU谁是最合适的AI芯片?

    CPU、GPU遵循的是冯·诺依曼体系结构,指令要经过存储、译码、执行等步骤,共享内存在使用时,要经历仲裁和缓存。 而FPGAASIC并不是冯·诺依曼架构(是哈佛架构)。以FPGA
    发表于 01-06 11:20 565次阅读
    <b class='flag-5'>FPGA</b>、<b class='flag-5'>ASIC</b>、<b class='flag-5'>GPU</b>谁是最合适的AI芯片?

    ASICGPU,谁才是AI计算的最优解?

    电子发烧友网报道(文/周凯扬)随着AI计算开始有着风头盖过通用计算开始,不少芯片厂商都将其视为下一轮技术革新。CPU、GPUFPGAASIC纷纷投入到这轮AI革命中来,但斩获的战果却是有多有
    的头像 发表于 12-03 08:31 1413次阅读
    <b class='flag-5'>ASIC</b>和<b class='flag-5'>GPU</b>,谁才是AI计算的最优解?

    能否在imx8 dxp芯片上使用GPU进行物体探测?

    能否在 imx8dxp 芯片上使用 GPU 进行物体探测? 请告诉我如何执行 。
    发表于 11-13 06:15

    大模型与生成式AI,RISC-V也想分一杯羹

    电子发烧友网报道(文/周凯扬)作为最考验场景适用度和成本控制的应用之一,机器人市场在随着进一步接入高性能AI芯片,再度开启了新的蓝海赛道。比如人形机器人已经有了接入大语言模型的趋势,我们也已经在不少行业展会上看到了类似的demo。   机器人市场的白刃战已经不再仅仅是运动控制系统和视觉感知系统的比拼了,谁能在新时代把握AI算力的红利,就有可能率先抢下这一蓝海市场的第一块蛋糕。而赋予这一红利的前提,恰恰就是机器人AI芯
    的头像 发表于 10-03 00:02 1984次阅读

    FPGAASIC的优劣势 FPGAASIC的应用场景及前景

      FPGAASIC是数字电路中常见的实现方式,因此人们经常会想要了解哪种芯片在未来的发展中更具有前途。然而,这取决于具体的应用场景和需求。在本文中,我们将探讨FPGAASIC的优
    发表于 08-14 16:40 1191次阅读

    FPGAASIC的区别与联系

      FPGAASIC作为数字电路的常见实现方式,其联系和区别备受关注。本文将从FPGAASIC的基本概念入手,深入研究它们的区别与联系,以帮助读者更好地理解两者的应用场景和选择方法
    发表于 08-14 16:38 1830次阅读

    FPGAASIC的概念、基本组成及其应用场景 FPGAASIC的比较

      FPGAASIC都是数字电路的实现方式,但它们有不同的优缺点和应用场景。本文将以通俗易懂的方式解释FPGAASIC的概念、基本组成、及其应用场景。
    发表于 08-14 16:37 1403次阅读

    关于FPGA的学习和发展问题

    AI方面不如GPU,专用领域又不如ASIC,边缘计算甚至都可以被ASIC替代,只有在些特定的场景(验证)才能发挥作用。 我不希望我在FPGA
    发表于 07-26 11:04

    沐曦付轩:蹄急而步稳,GPU助力ChatGPT快、准、稳全面发展

    付轩在“ChatGPT风向下的集成电路新趋势”论坛中发表主题为《蹄急而步稳:ChatGPT与高性能GPU战略概览》的主题演讲,分析了ChatGPT的应用特点及软硬件需求,指出以
    的头像 发表于 06-20 10:57 836次阅读