0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

刷屏的Groq芯片,速度远超英伟达GPU!成本却遭质疑

Carol Li 来源:电子发烧友 作者:李弯弯 2024-02-22 09:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)英伟达遇到劲敌了?近日,Groq芯片计算速度超过英伟达GPU的消息刷屏。Groq是一家成立于2016年的AI创企,该公司近日开放了自家产品的免费试用,相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆朋友圈,经网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。

而这样的速度背后,源于Groq自研了一种名为张量流处理器(TSP)的新型处理单元,Groq将其命名为语言处理单元,即LPU,它的工作原理与GPU截然不同。

Groq芯片跑大模型的速度有多快

Groq芯片跑大模型最突出的特点,便是快。有网友震惊地说:“它回复的速度比我眨眼还快。”在传统生成AI中,等待是很平常的事,经常是字符一个个往外蹦,回答完需要挺长时间。而有网友称,在Groq近日开放的云服务体验平台上,你可以看到,当模型收到提示后,几乎能够立即生成答案。

电子邮件初创企业OthersideAI的首席执行官兼联合创始人马特·舒默在演示中亲自体验了Groq的强大功能。他称赞Groq快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。更令人惊讶的是,它超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。

需要说明的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。而驱动模型的硬件便是Groq自研的一种名为张量流处理器(TSP)的新型处理单元,Groq将其命名为语言处理单元,即LPU(Language Processing Units),它的工作原理与GPU截然不同。

各种测试结果和网友的体验,都显示Groq LPU的计算速度相当快。根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。有报道称,Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。

有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题,结果,Groq的输出速度比Gemini快10倍,比GPT-4快18倍。

有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”。有用户认为,Groq的LPU可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。不过,也有AI行业的专家表示,Groq的LPU从成本上来看并不具优势,目前并不能代替英伟达。

Groq 开发的LPU与GPU有何不同

Groq开发的LPU到底是个怎样的产品?据其官网介绍,LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU,是一种为图形渲染而设计的并行处理器,有数百个内核。而LPU架构则与GPU使用的SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求。

Groq的LPU推理引擎不是普通的处理单元;它是一个端到端系统,专为需要大量计算和连续处理的应用(如LLM)提供最快的推理而设计。通过消除外部内存瓶颈,LPU推理引擎的性能比传统GPU高出几个数量级。

根据与Groq关系密切的投资人k_zeroS分享,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(TemporalInstructionSetComputer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。

Groq创始人兼首席执行官Jonathan Ross此前在接受采访的时候就谈到,在大模型推理场景,Groq LPU芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为后者的十分之一。

Ross认为,对于在产品中使用人工智能的公司来说,推理成本正在成为一个问题,因为随着使用这些产品的客户数量增加,运行模型的成本也在迅速增加。与英伟达GPU相比,Groq LPU集群将为大模型推理提供更高的吞吐量、更低的延迟和更低的成本。

他强调,由于技术路径不同,Groq的LPU芯片不依赖于三星或SK海力士的HBM,也不依赖于台积电将外部HBM焊接到芯片上的CoWoS封装技术。它在供应方面比英伟达更充足,不会被台积电或者SK海力士等供应商卡脖子。

可以看到,Groq LPU芯片相当于是去掉了HBM,而只是依靠SRAM来计算。虽然这样计算速度确实相当惊艳,然而其更低成本的问题却遭到质疑。

有AI专家表示,Groq芯片的实际成本并不低,如人工智能专家贾扬清分析称,因为Groq小的可怜的内存容量(230MB),在运行Llama-270b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

当然也有SRAM行业的专家非常看好这种架构模式,他认为,贾扬清对Groq成本的估算不是很对,因为没有考虑到Groq的per token cost明显低于GPGPU。

可以看到,作为一种新的架构模式,Groq LPU当前必然还面临一些潜在问题,然而它的出现,也让人们看到GPU之外的可能路径。

Groq LPU芯片未来能否肩负起运行大模型的重任,或许再等等,就能看到明确答案。事实上,在去年年底的采访中,Ross就表示,考虑到GPU的短缺和高昂的成本,他相信Groq未来的发展潜力。他说到:“在未来12个月内,我们可以部署10万个LPU,在24个月内,我们可以部署100万个LPU。”

写在最后

过去一年多时间,全球众多科技公司都在研发大模型,今年将会是大模型落地部署的重要一年,而如众多大模型的训练和推理却依赖英伟达的GPU。业界亟需除英伟达GPU之外的芯片,能够用于大模型的部署推理,Groq的LPU芯片可以说是带来了新的探索方向。

虽然Groq公司对自己的LPU芯片在性能和成本上都自信满满,然而业界对于其成本问题还是有所质疑。如果今年LPU芯片能够如规划那样进行较大规模的部署,或许就能一定程度证明LPU芯片在成本上也在众多用户所能接受的范围之内。












声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136059
  • 英伟达
    +关注

    关注

    23

    文章

    4115

    浏览量

    99604
  • Groq
    +关注

    关注

    0

    文章

    10

    浏览量

    220
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Vera rubin平台即将交付,英伟800VDC电源方案进展如何?

    、BlueField-4 DPU、Spectrum-6 Ethernet Switch,以及集成Groq 3 LPU)进行整合,形成一个拥有40个机架结构、1200万亿个晶体管、接近20000个英伟die、1152个Rubin
    的头像 发表于 03-23 00:44 7732次阅读
    Vera rubin平台即将交付,<b class='flag-5'>英伟</b><b class='flag-5'>达</b>800VDC电源方案进展如何?

    豪言自家芯片英伟GPU强10倍,这家AI公司再获融资

    的 “复仇者联盟” 正在硅谷悄然集结,他们创立的 MatX 公司刚刚完成 5 亿美元 B 轮融资,豪言要打造性能 10 倍于英伟 GPU 的专用 AI 芯片,试图在通用
    的头像 发表于 03-01 06:41 1.2w次阅读

    堪称史上最强推理芯片英伟发布 Rubin CPX,实现50倍ROI

    电子发烧友网报道(文/梁浩斌)近日,英伟在AI infra峰会上发布了专为大规模上下文推理设计的全新GPU系列Rubin CPX,性能堪称炸裂!   英伟
    的头像 发表于 09-11 08:25 1.1w次阅读
    堪称史上最强推理<b class='flag-5'>芯片</b>!<b class='flag-5'>英伟</b><b class='flag-5'>达</b>发布 Rubin CPX,实现50倍ROI

    GPU不是AI的唯一解:英伟Groq LPU证明,推理赛道需要“另一条腿”

    大会上,英伟CEO黄仁勋正式发布了Vera Rubin AI超级计算机平台。这一平台的问世,不仅标志着英伟战略从单一的GPU主导转向涵盖
    的头像 发表于 03-24 11:27 6026次阅读
    <b class='flag-5'>GPU</b>不是AI的唯一解:<b class='flag-5'>英伟</b><b class='flag-5'>达</b>用<b class='flag-5'>Groq</b> LPU证明,推理赛道需要“另一条腿”

    英伟Rubin GPU采用钻石铜散热,解决芯片散热难题

    电子发烧友网综合报道 在AI算力狂飙的时代,芯片散热问题成为制约技术发展的关键瓶颈。英伟下一代Vera Rubin架构GPU,将全面采用“钻石铜复合散热 + 45℃温水直液冷”全新方
    的头像 发表于 02-05 13:46 5374次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>Rubin <b class='flag-5'>GPU</b>采用钻石铜散热,解决<b class='flag-5'>芯片</b>散热难题

    英伟重磅出手!AI 推理存储全面觉醒

    电子发烧友网报道(文/黄晶晶)近日,有消息称,英伟将以大约200亿美元收购人工智能芯片初创公司Groq,这将是英伟
    的头像 发表于 12-26 08:44 1.2w次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>重磅出手!AI 推理存储全面觉醒

    今日看点:苹果认证中国快充品牌美调查;英伟拟向OpenAI投资最高1000亿美元

    系统建设并部署至少10吉瓦的人工智能(AI)数据中心,用于训练和运行下一代模型。这一耗电量相当于800万户美国家庭的用电量。 英伟CEO黄仁勋曾表示,10吉瓦相当于400万至500万块图形处理器(GPU),约等于
    发表于 09-23 10:09 502次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的我我们讲解了这几种芯片的应用场景,设计流程、结构等。 CPU: 还为我们讲解了一种算法:哈希表算法 GPU: 介绍了英伟H100GP
    发表于 09-12 16:07

    英伟自研HBM基础裸片

    "后的下一代AI GPU "Feynman"。   有分析指出,英伟此举或是将部分GPU功能集成到基础裸片中,旨在提高HBM和GPU的整体
    的头像 发表于 08-21 08:16 3018次阅读

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    英伟黄仁勋:将向中国市场销售H20芯片 中国市场至关重要

    英伟CEO黄仁勋在北京访问期间发表声明称,将恢复在中国销售其H20 GPU芯片,并根据美国出口限制为中国市场推出一款新的GPU
    的头像 发表于 07-15 14:32 1496次阅读

    摆脱依赖英伟!OpenAI首次转向使用谷歌芯片

    地使用非英伟芯片,更显示出其正在逐步摆脱对英伟芯片的深度依赖,在算力布局上迈出了重要战略调整
    的头像 发表于 07-02 00:59 8573次阅读

    英伟拟再推中国特供GPU,今年6月量产!

    电子发烧友网综合报道 近年来,美国政府对华半导体出口管制政策不断收紧,英伟等半导体企业面临严峻挑战。为保持在中国市场的竞争力,英伟推出了多款特供版
    发表于 05-27 00:03 4894次阅读

    GPU 维修干货 | 英伟 GPU H100 常见故障有哪些?

    上涨,英伟H100GPU凭借其强大的算力,成为AI训练、高性能计算领域的核心硬件。然而,随着使用场景的复杂化,H100服务器故障率也逐渐攀升,轻则影响业务进度,重
    的头像 发表于 05-05 09:03 3378次阅读
    <b class='flag-5'>GPU</b> 维修干货 | <b class='flag-5'>英伟</b><b class='flag-5'>达</b> <b class='flag-5'>GPU</b> H100 常见故障有哪些?