0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Groq推出大模型推理芯片 超越了传统GPU和谷歌TPU

汽车电子设计 来源:芝能汽车 2024-02-26 10:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Groq推出了大模型推理芯片,以每秒500tokens的速度引起轰动,超越了传统GPU和谷歌TPU。该芯片采用了全球首个LPU方案,解决了计算密度和内存带宽的瓶颈,推理速度提高了10倍,成本降低十分之一,性价比提高了100倍。芯片搭载了230MB大SRAM,内存带宽高达80TB/s,算力强大,支持多种机器学习框架进行推理。 Groq在演示中展示了多种模型的强大性能,并宣称在三年内将超越英伟达产品特色包括API访问速度快、支持多种开源LLM模型、价格优势等,成为大模型推理领域的新兴力量。

Groq 公司的创始于2016年,旗舰产品是 Groq Tensor Streaming Processor Chip(TSP)和相应的软件,主要应用于人工智能、机器学习、深度学习等领域。目标市场包括人工智能和机器学习超大规模应用、政府部门、高性能计算集群、自动驾驶车辆以及高性能边缘设备。

Groq产品以其出色的推理性能、对多种开源LLM模型的支持以及具有竞争力的价格政策等特色,成为一个引人注目的选择。这个芯片到底是怎么做的呢?

6563bedc-d440-11ee-a297-92fbcf53809c.png

Part 1

Groq的做法

随着人工智能(AI)和高性能计算(HPC)的融合发展,对于同时处理AI和HPC工作负载的需求日益增加。在这一背景下,Groq公司推出了其最新的AI推理加速器,旨在简化计算、提高效率,并实现更高的可扩展性,软件定义张量流多处理器(TSP),采用了一种全新的硬件软件结合的方法,为人工智能、机器学习和深度学习应用提供更高效的计算支持。

Groq AI推理加速器的设计思想是结合了HPC与AI的工作负载需求,提供了一种创新的可扩展计算架构。

相比传统的GPU,GroqChip 1具有更简化的编程模型,更高的响应速度以及更可靠的执行。该芯片拥有多个特色组件,包括高速网络、数据交换器、指令控制、SRAM内存以及Groq TruePoint矩阵,使其具备了强大的计算能力和灵活性。

传统的 CPU 架构在控制逻辑方面隐藏了大量复杂性,如缓存、预取、乱序执行和分支预测,但这些控制逻辑会减少可用于原始计算的面积。

与此相反,Groq 公司重新审视了硬件软件的合约,创造出了更加可预测和基于流的硬件,并将更多的控制权交给了软件。

硬件(CPU)定义了软件,但随着数据流型计算需求的增长以及摩尔定律和 Dennard 缩放的减速,CPU“抽象”不再是软件开发的唯一基础。因此,Hennessy 和 Patterson 提出了“计算机体系结构的新黄金时代”的观点,Lattner 提出了“编译器的新黄金时代”的观点,Karpathy 则提出了“软件 2.0”的概念,这都预示着硬件与软件的抽象合约已经重新开启,实现了“软件定义硬件”的机会。

GroqChip 的可扩展架构以简化计算,通过使用大量单级划分 SRAM 和显式分配张量,实现了可预测的性能。

此外,Groq 公司设计了功能划分的微体系结构,重新组织了多核网格,使得编译器可以对程序执行进行精确控制,从而提高了执行效率。

659b1602-d440-11ee-a297-92fbcf53809c.png

Groq AI推理加速器支持各种规模的计算节点,从单个卡片到整个机架,都能实现高效的并行计算。

65aae5d2-d440-11ee-a297-92fbcf53809c.png

通过GroqRack和GroqNode等组件的组合,用户可以根据实际需求灵活搭建计算集群,实现对不同规模工作负载的处理。

Groq 公司提供了强大的编译器支持,通过在编译时和运行时之间建立静态-动态接口和硬件-软件接口,赋予了软件更多的数据编排权力。该编译器能够实现 SOTA(State of the Art)级别的性能,对于一些重要的矩阵操作如通用矩阵乘法(GEMM),Cholesky 分解等,取得了令人瞩目的成果。

65aff626-d440-11ee-a297-92fbcf53809c.png

在系统拓扑结构方面,Groq 公司采用了低直径网络 Dragonfly,以最小化网络中的跳数,提高了数据传输效率。

同时,通过 Chip-to-Chip(C2C)链接和流量控制,实现了多芯片间的通信。此外,Groq 公司还提出了一种多芯片间的分区和流水线并行执行的方法,以进一步提高多芯片系统的性能。

65b4d1f0-d440-11ee-a297-92fbcf53809c.png

Part 2

实际案例

除了传统的计算流体动力学(CFD)应用外,Groq AI推理加速器还可应用于图神经网络(GNN)等领域。GNN广泛应用于非欧几里得数据的建模和预测,例如化学分子结构、社交媒体推荐系统等。Groq芯片在处理这类非结构化数据时表现出色,通过深度学习算法的加速,能够大幅提升模型训练和推理的效率。软件定义张量流多处理器提供了一种全新的硬件软件结合的方法,通过重新审视硬件软件合约,将更多的控制权交给了软件,从而实现了更高效的计算性能。随着人工智能和深度学习应用的不断发展,这种方法将有望在未来的计算领域发挥重要作用。

在实际应用中,Groq AI推理加速器已经在化学分子属性预测、药物发现等领域取得了显著的成果。

65d0a9f2-d440-11ee-a297-92fbcf53809c.png

借助其高性能和可扩展性,Groq芯片在处理大规模数据集时能够实现极大的加速,从而提升了科学研究和工程实践的效率。

65ff0b4e-d440-11ee-a297-92fbcf53809c.png

小结

总的来说,Groq AI推理加速器以其创新的设计思想和强大的性能,在处理融合HPC与AI工作负载的应用中展现出了巨大的潜力。随着对于高性能计算和人工智能技术的不断发展,相信Groq芯片将在各个领域展现出更广泛的应用前景。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50324

    浏览量

    266927
  • 机器学习
    +关注

    关注

    67

    文章

    8564

    浏览量

    137221
  • TSP
    TSP
    +关注

    关注

    1

    文章

    26

    浏览量

    17475
  • 大模型
    +关注

    关注

    2

    文章

    3770

    浏览量

    5270
  • Groq
    +关注

    关注

    0

    文章

    10

    浏览量

    220

原文标题:Groq AI推理加速器: 三年内超越英伟达?

文章出处:【微信号:QCDZSJ,微信公众号:汽车电子设计】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌发布第八代TPU,训练推理分离,搭载自研CPU

    电子发烧友网报道(文/李弯弯)在2026年4月22日举行的谷歌云Next大会上,谷歌正式发布第八代张量处理单元(TPU)。此次发布的产品包含两款独立的
    的头像 发表于 04-24 09:03 5318次阅读
    <b class='flag-5'>谷歌</b>发布第八代<b class='flag-5'>TPU</b>,训练<b class='flag-5'>推理</b>分离,搭载自研CPU

    模型推理服务的弹性部署与GPU调度方案

    7B 模型 FP16 推理需要约 14GB 显存,70B 模型需要 140GB+,KV Cache 随并发数线性增长,显存碎片化导致实际利用率不足 60%。
    的头像 发表于 03-03 09:29 401次阅读

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    领域占据主导,其GPU凭借强大的海量数据处理能力,成为全球AI爆炸式增长的重要基石。但随着AI不断演进,重点正从大规模训练转向对已训练模型推理和推断,推理已然成为新的竞争战场。业内普
    的头像 发表于 02-03 17:15 3252次阅读

    曦望发布新一代推理GPU芯片,单位Token推理成本降低90%

    电子发烧友网报道 1月27日,国产GPU厂商曦望(Sunrise)重磅发布新一代推理GPU芯片——启望S3。这是曦望在近一年累计完成约30亿元战略融资后的首次集中公开亮相。2025年,
    的头像 发表于 01-28 17:38 9537次阅读

    今日看点:消息称 AMD、高通考虑导入 SOCAMM 内存;曦望发布新一代推理GPU芯片启望S3

    曦望发布新一代推理GPU芯片启望S3 近日,浙江杭州GPU创企曦望(Sunrise)发布新一代推理GPU
    发表于 01-28 11:09 1331次阅读

    LLM推理模型是如何推理的?

    这篇文章《(How)DoReasoningModelsReason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键
    的头像 发表于 01-19 15:33 698次阅读
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    英伟达重磅出手!AI 推理存储全面觉醒

    电子发烧友网报道(文/黄晶晶)近日,有消息称,英伟达将以大约200亿美元收购人工智能芯片初创公司Groq,这将是英伟达迄今为止规模最大的一笔收购。但英伟达回应表示,并未计划收购Groq,仅达成技术
    的头像 发表于 12-26 08:44 1.2w次阅读
    英伟达重磅出手!AI <b class='flag-5'>推理</b>存储全面觉醒

    AI硬件全景解析:CPU、GPU、NPU、TPU的差异化之路,一文看懂!​

    CPU作为“通用基石”,支撑所有设备的基础运行;GPU凭借并行算力,成为AI训练与图形处理的“主力”;TPU在Google生态中深耕云端大模型训练;NPU则让AI从“云端”走向“身边”(手机、手表
    的头像 发表于 12-17 17:13 2244次阅读
    AI硬件全景解析:CPU、<b class='flag-5'>GPU</b>、NPU、<b class='flag-5'>TPU</b>的差异化之路,一文看懂!​

    谷歌正式推出最新Gemini 3 AI模型

    今天我们正式推出 Gemini 3,这是我们迄今为止最智能的模型,能够帮助用户实现任何创意。Gemini 3 Pro 基于最先进的推理技术,与之前的版本相比,它在所有主要的 AI 基准测试中都取得了无与伦比的结果,尤其是在编程方
    的头像 发表于 11-24 11:10 1426次阅读
    <b class='flag-5'>谷歌</b>正式<b class='flag-5'>推出</b>最新Gemini 3 AI<b class='flag-5'>模型</b>

    谷歌云发布最强自研TPU,性能比前代提升4倍

    电子发烧友网报道(文/李弯弯)近日,谷歌云在官方博客上正式宣布,公司成功推出第七代TPU(张量处理器)“Ironwood”,该芯片预计在未来几周内正式上市。   “Ironwood”由
    的头像 发表于 11-13 07:49 8967次阅读
    <b class='flag-5'>谷歌</b>云发布最强自研<b class='flag-5'>TPU</b>,性能比前代提升4倍

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的我我们讲解了这几种芯片的应用场景,设计流程、结构等。 CPU: 还为我们讲解了一种算法:哈希表算法 GPU: 介绍英伟达H100GPU
    发表于 09-12 16:07

    Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 倍提速背后的黑科技

    开放预览,引发了开发者社区的疯狂讨论——‌为什么 Groq 能跑得这么快?‌ 传统 AI 推理硬件(如 GPU)往往面临一个两难选择: ✅ ‌快‌(但牺牲精度) ⛔ ‌准‌(但延迟高到
    的头像 发表于 08-07 10:01 1333次阅读

    模型推理显存和计算量估计方法研究

    ,为实际应用提供有益的参考。 未来,我们将继续深入研究大模型推理的优化方法,以降低显存和计算资源的需求,提高深度学习模型在实际应用中的性能。
    发表于 07-03 19:43

    为什么无法在GPU上使用INT8 和 INT4量化模型获得输出?

    安装OpenVINO™ 2024.0 版本。 使用 optimum-intel 程序包将 whisper-large-v3 模型转换为 int 4 和 int8,并在 GPU 上使用 OpenVINO™ 运行推理。 没有可用的
    发表于 06-23 07:11

    智算加速卡是什么东西?它真能在AI战场上干掉GPUTPU

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,算力才是硬通货。你有没有发现,现在越来越多的AI企业不光用GPU,也不怎么迷信TPU?他
    的头像 发表于 06-05 13:39 1887次阅读
    智算加速卡是什么东西?它真能在AI战场上干掉<b class='flag-5'>GPU</b>和<b class='flag-5'>TPU</b>!