最近,以ChatGPT为首的生成类模型已经成为了人工智能的新热点,硅谷的微软、谷歌等都纷纷大举投资此类技术(微软100亿美元入股ChatGPT背后的OpenAI,谷歌也于近日发布了自研的BARD模型),而在中国以百度等为代表的互联网科技公司也纷纷表示正在研发此类技术并且将于近期上线。以ChatGPT为代表的生成类模型有一个共同的特点,就是使用了海量数据做预训练,并且往往会搭配一个较为强大的语言模型。语言模型主要的功能是从海量的现有语料库中进行学习,在经过学习之后可以理解用户的语言指令,或者更进一步根据用户的指令去生成相关的文字输出。生成类模型大致可以分成两大类,一类是语言类生成模型,另一类是图像类生成模型。语言类生成模型以ChatGPT为代表,如前所述其语言模型不仅可以学习理解用户指令的意义(例如,“写一首诗,李白风格的”),而且在经过海量数据训练之后,还能够根据用户的指令生成相关的文字(在上例中就是写一首李白风格的诗)。这意味着ChatGPT需要有一个足够大的语言模型(Large Language Model,LLM)来理解用户的语言,并且能有高质量的语言输出——例如该模型必须能理解如何生成诗歌,如何生成李白风格的诗歌等等。这也意味着语言类生成式人工智能中的大语言模型需要非常多的参数,才能完成这类复杂的学习并且记住如此多的信息。以ChatGPT为例,其参数量高达1750亿(使用标准浮点数的话会占用700GB的存储空间),其语言模型之“大”可见一斑。
生成类模型对于芯片的需求如前所述,以ChatGPT为代表生成类模型需要在海量的训练数据中进行学习,才能实现高质量的生成输出。为了支持高效率训练和推理,生成类模型对于相关芯片也有自己的需求。首先就是对于分布式计算的需求。ChatGPT这类语言类生成模型的参数量高达千亿,几乎不可能使用单机训练和推理,而必须大量使用分布式计算。在进行分布式计算时,对于机器之间的数据互联带宽,以及计算芯片对于这类分布式计算(例如RDMA)就有了很大的需求,因为很多时候任务的瓶颈可能并不在计算,而是在数据互联上面,尤其是在此类大规模分布式计算中,芯片对于分布式计算的高效率支持更加成为了关键。其次是内存容量和带宽。虽然对于语言类生成模型分布式训练和推理不可避免,但是每个芯片的本地内存和带宽也将很大程度上决定单个芯片的执行效率(因为每个芯片的内存都被使用到了极限)。对于图像类生成模型来说,可以把模型(20GB左右)都放在芯片的内存中,但是随着未来图像生成类模型的进一步演进,它对于内存的需求可能也会进一步提升。在这个角度来看,以HBM为代表的超高带宽内存技术将会成为相关加速芯片的必然选择,同时生成类模型也会加速HBM内存进一步增大容量和增大带宽。除了HBM之外,CXL等新的存储技术加上软件的优化也有将在这类应用中增加本地存储的容量和性能,估计会从生成类模型的崛起中获得更多的工业界采用。最后是计算,无论是语言类还是图像类生成类模型的计算需求都很大,而图像类生成模型随着生成分辨率越来越高以及走向视频应用,对于算力的需求可能会大大提升——目前的主流图像生成模型的计算量在20 TFlops左右,而随着走向高分辨率和图像,100-1000 TFLOPS的算力需求很有可能会是标准。
GPU和新AI芯片,谁更有机会生成式模型对于芯片有了新的需求,对于GPU(以Nvidia和AMD为代表)和新AI芯片(以Habana,GraphCore为代表),谁更有机会能抓住这个新的需求和市场?首先,从语言类生成模型来看,由于参数量巨大,需要很好的分布式计算支持,因此目前在这类生态上已经有完整布局的GPU厂商更有优势。这是一个系统工程问题,需要完整的软件和硬件解决方案,而在这个方面,Nvidia已经结合其GPU推出了Triton解决方案。Triton支持分布式训练和分布式推理,可以把一个模型分成多个部分到不同的GPU上去处理,从而解决参数量过大一个GPU的主存无法容纳的问题。未来无论是直接使用Triton,还是在Triton的基础上做进一步开发,都是拥有完整生态的GPU更加方便一点。从计算上来看,由于语言类生成模型的主要计算就是矩阵计算,而矩阵计算本身就是GPU的强项,因此从这一点来看新的AI芯片相比GPU的优势并不明显。从图像类生成模型来看,这类模型的参数量虽然也很大但是比语言类生成模型要小一到两个数量级,此外其计算中还是会大量用到卷积计算,因此在推理应用中,如果能做非常好的优化的话,AI芯片可能有一定机会。这里的优化包括大量的片上存储来容纳参数和中间计算结果,对于卷积以及矩阵运算的高效支持等。总体来说,目前这一代AI芯片在设计的时候主要针对的是更小的模型(参数量在亿级别,计算量在1TOPS级别),而生成模型的需求相对而言还是比原来的设计目标要大不少。GPU在设计时以效率为代价换取了更高的灵活度,而AI芯片设计则是反其道而行之,追求目标应用的效率,因此我们认为在未来一两年内,GPU仍将会在此类生成式模型加速中独占鳌头,但是随着生成式模型设计更加稳定,AI芯片设计有时间能追赶上生成式模型的迭代后,AI芯片有机会从效率的角度在生成式模型领域超越GPU。
入群请加小编微信:eetrend89
Imagination Technologies是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作 场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech!

生成类模型对于芯片的需求如前所述,以ChatGPT为代表生成类模型需要在海量的训练数据中进行学习,才能实现高质量的生成输出。为了支持高效率训练和推理,生成类模型对于相关芯片也有自己的需求。首先就是对于分布式计算的需求。ChatGPT这类语言类生成模型的参数量高达千亿,几乎不可能使用单机训练和推理,而必须大量使用分布式计算。在进行分布式计算时,对于机器之间的数据互联带宽,以及计算芯片对于这类分布式计算(例如RDMA)就有了很大的需求,因为很多时候任务的瓶颈可能并不在计算,而是在数据互联上面,尤其是在此类大规模分布式计算中,芯片对于分布式计算的高效率支持更加成为了关键。其次是内存容量和带宽。虽然对于语言类生成模型分布式训练和推理不可避免,但是每个芯片的本地内存和带宽也将很大程度上决定单个芯片的执行效率(因为每个芯片的内存都被使用到了极限)。对于图像类生成模型来说,可以把模型(20GB左右)都放在芯片的内存中,但是随着未来图像生成类模型的进一步演进,它对于内存的需求可能也会进一步提升。在这个角度来看,以HBM为代表的超高带宽内存技术将会成为相关加速芯片的必然选择,同时生成类模型也会加速HBM内存进一步增大容量和增大带宽。除了HBM之外,CXL等新的存储技术加上软件的优化也有将在这类应用中增加本地存储的容量和性能,估计会从生成类模型的崛起中获得更多的工业界采用。最后是计算,无论是语言类还是图像类生成类模型的计算需求都很大,而图像类生成模型随着生成分辨率越来越高以及走向视频应用,对于算力的需求可能会大大提升——目前的主流图像生成模型的计算量在20 TFlops左右,而随着走向高分辨率和图像,100-1000 TFLOPS的算力需求很有可能会是标准。
综上所述,我们认为生成类模型对于芯片的需求包括了分布式计算,存储以及计算,可谓是涉及了芯片设计的方方面面,而更重要的是如何把这些需求都以合理的方法结合到一起来确保某一个单独的方面不会成为瓶颈,这也将会成为一个芯片设计系统工程的问题。
GPU和新AI芯片,谁更有机会生成式模型对于芯片有了新的需求,对于GPU(以Nvidia和AMD为代表)和新AI芯片(以Habana,GraphCore为代表),谁更有机会能抓住这个新的需求和市场?首先,从语言类生成模型来看,由于参数量巨大,需要很好的分布式计算支持,因此目前在这类生态上已经有完整布局的GPU厂商更有优势。这是一个系统工程问题,需要完整的软件和硬件解决方案,而在这个方面,Nvidia已经结合其GPU推出了Triton解决方案。Triton支持分布式训练和分布式推理,可以把一个模型分成多个部分到不同的GPU上去处理,从而解决参数量过大一个GPU的主存无法容纳的问题。未来无论是直接使用Triton,还是在Triton的基础上做进一步开发,都是拥有完整生态的GPU更加方便一点。从计算上来看,由于语言类生成模型的主要计算就是矩阵计算,而矩阵计算本身就是GPU的强项,因此从这一点来看新的AI芯片相比GPU的优势并不明显。从图像类生成模型来看,这类模型的参数量虽然也很大但是比语言类生成模型要小一到两个数量级,此外其计算中还是会大量用到卷积计算,因此在推理应用中,如果能做非常好的优化的话,AI芯片可能有一定机会。这里的优化包括大量的片上存储来容纳参数和中间计算结果,对于卷积以及矩阵运算的高效支持等。总体来说,目前这一代AI芯片在设计的时候主要针对的是更小的模型(参数量在亿级别,计算量在1TOPS级别),而生成模型的需求相对而言还是比原来的设计目标要大不少。GPU在设计时以效率为代价换取了更高的灵活度,而AI芯片设计则是反其道而行之,追求目标应用的效率,因此我们认为在未来一两年内,GPU仍将会在此类生成式模型加速中独占鳌头,但是随着生成式模型设计更加稳定,AI芯片设计有时间能追赶上生成式模型的迭代后,AI芯片有机会从效率的角度在生成式模型领域超越GPU。
END
欢迎加入Imagination GPU与人工智能交流2群
入群请加小编微信:eetrend89(添加请备注公司名和职称)
推荐阅读 对话Imagination中国区董事长:以GPU为支点加强软硬件协同,助力数字化转型【有奖下载】IMG DXT GPU 让光线追踪触手可及
Imagination Technologies是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作 场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech!原文标题:ChatGPT需要怎样的芯片?
文章出处:【微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
imagination
+关注
关注
1文章
627浏览量
63557
原文标题:ChatGPT需要怎样的芯片?
文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
热点推荐
ChatGPT 5.5镜像站技术升级解析:更快的生成速度对开发者意味着什么?
ChatGPT 5.5 的核心代际提升集中在生成速率的跃升与 Token 利用效率的优化上。对于国内开发者,无需特殊网络环境即可快速体验这一变化的平台之一,是聚合了多款模型的 RskAi
2026实测:如何在国内免费平台上将ChatGPT 5.5镜像站设为主力生成模型,搭配其他模型完成事实核查
对内容产出质量有要求的国内用户,当前更务实的做法是在一个多模型聚合平台上,将ChatGPT 5.5固定为内容生成的主力引擎,同时调度其他模型交叉验证事实。目前,无需特殊网络环境、每日提供免费额度
OpenAI正式发布ChatGPT Images 2.0版本
Hacker News上更是获得了290分的高关注度,足见其受瞩目的程度。那么,ChatGPT Images 2.0究竟有哪些亮点,又将给视觉内容创作领域带来怎样的变革呢?
ChatGPT突然无法登录是什么情况?如何解决?
很多人在使用 ChatGPT 时,都会遇到一个很头疼的问题: 突然无法登录 / 登录失败 / 一直转圈 / 验证不通过 ,尤其是做运营、跨境电商和经常需要使用AI工具的编程人员,这种问题一旦出现,会
后摩智能M50芯片成功部署OpenClaw
近日,由OpenClaw(曾用名ClawdBot)引发的技术热潮持续扩散,这一现象被不少人称为AI Agent的“ChatGPT时刻”。昨日,后摩智能一名工程师通过搭载后摩智能M50芯片的边缘计算盒子,在不到一天时间内完成了对OpenClaw的端侧部署与功能验证。
从功能到场景:5步搞定触摸芯片选型!
需要怎样的“触碰”?1.要几个按键?比如无线充电器,常用“开关、模式、定时”3个功能,那就找3通道的芯片;如果是分区控制的智能灯,可能要8个通道甚至更多。2.除了
巨头竞逐AI医疗健康:OpenAI推出ChatGPT Health,蚂蚁阿福国内领跑
健康已成为AI技术的高频应用场景。OpenAI在其一篇博客文章中透露,通过分析匿名化的ChatGPT对话数据,发现全球每周有超过2.3亿人在ChatGPT上咨询健康相关问题,医疗健康的需求极为旺盛。
为什么单片机芯片上需要多组VDD?
在单片机的芯片上,经常会看到多个组VDD的设计。这样的设计是为了保证 电源 稳定性,同时减小信号的噪声。本文将从单片机内部的电路结构、功耗、EMI/EMC等方面来探讨为什么单片机芯片上需要多组VDD
发表于 12-12 07:59
语音芯片怎样挑选?语音芯片关键选型要点?
选择语音芯片需根据具体应用场景和性能需求进行综合评估,以下是关键选型要点:
一、核心性能参数
1、采样率与信噪比
高采样率(如16位ADC)可减少声音失真,信噪比≥75dB能有效降低背景噪声
报警芯片怎样选择?报警器用的什么芯片?报警芯片的主要类型?常见报警芯片推荐?防盗器芯片有哪些?
选择报警芯片时,需要根据具体的应用场景、功能需求、成本预算和性能要求进行综合评估。以下是选择报警芯片时需要考虑的几个关键因素,帮助你做出更合适的选择:
【免费送书】AI芯片,从过去走向未来:《AI芯片:前沿技术与创新未来》
最重大的技术变革无疑就是大模型的横空出世,人类的时间仿佛被装上了加速器,从ChatGPT到DeepSeek,大模型应用密集出现、频繁升级,这让作者意识到有必要撰写一本新的AI芯片图书,以紧跟时代
AI芯片,需要ASIC
电子发烧友网报道(文/李弯弯) 2025年,全球AI芯片市场正迎来一场结构性变革。在英伟达GPU占据主导地位的大格局下,ASIC(专用集成电路)凭借针对AI任务的定制化设计,成为推动算力革命的新动力
AI真会人格分裂!OpenAI最新发现,ChatGPT善恶开关已开启
AI现在就像一个小朋友,很容易就学坏了!OpenAI刚刚发现,如果用错误的数据微调自家的模型的一个领域,ChatGPT就会把在这个领域学到的「恶」和「坏」泛化到其他领域。比如「刻意」用错误数据在汽车
树莓派与EthernetHat:用ChatGPT实现的MQTT智能家居项目!
我们使用Pico、WIZnetW5100S和PicoBricks开发板开发了MQTTRGB灯,通过ChatGPT4.0生成和优化代码。项目所需组件硬件组件PicoBricks扩展板x1WIZnetW5100S-EVB-Picox1WIZnetW5500-EVB-PicoWIZnet以太网HATx1树莓派Picox1
ChatGPT需要怎样的芯片?
评论