0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

‌Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 倍提速背后的黑科技

观芯者 来源:观芯者 作者:观芯者 2025-08-07 10:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 倍提速背后的黑科技‌

最近,Moonshot AI 的千亿参数大模型 ‌Kimi K2‌ 在 ‌GroqCloud‌ 上开放预览,引发了开发者社区的疯狂讨论——‌为什么 Groq 能跑得这么快?‌

传统 AI 推理硬件(如 GPU)往往面临一个两难选择:
✅ ‌快‌(但牺牲精度)
⛔ ‌准‌(但延迟高到无法接受)

而 Groq 的 ‌LPU(Language Processing Unit)‌ 却打破了这一魔咒,‌既快又准‌。

1. 精度与速度的「鱼与熊掌」:如何兼得?‌
传统硬件的「量化陷阱」‌

大多数 AI 加速器(如 GPU)为了提升推理速度,会采用 ‌INT8/FP8 等低精度计算‌,但这会导致‌累积误差‌,模型质量大幅下降。

Groq 的「TruePoint Numerics」黑科技‌

Groq 的解决方案是 ‌动态精度调整‌:

权重/激活函数‌:用低精度存储(节省内存)
矩阵运算‌:全精度计算(保证结果无损)
输出阶段‌:根据下游需求‌智能选择量化策略‌

这样一来,‌速度比 BF16 快 2-4 倍,但精度无损‌(MMLU/HumanEval 等基准测试验证)。

2. 内存架构革命:SRAM 替代 HBM/DRAM

传统 AI 芯片(如 GPU)依赖 ‌HBM/DRAM‌ 作为主存,‌每次权重访问延迟高达数百纳秒‌,严重影响推理速度。

而 Groq ‌直接集成数百兆片上 SRAM‌,让权重加载‌零延迟‌,计算单元‌全速运转‌。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302568
  • 大模型
    +关注

    关注

    2

    文章

    3765

    浏览量

    5269
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    登临科技KS系列GPU产品Day 0适配Kimi-K2.6模型

    2026年4月,随着Kimi-K2.6这一开源原生多模态智能体模型的正式发布,AI领域迎来了又一次重要的技术演进。该模型在长周期编程、编程驱动设计、智能体集群任务编排及主动自主执行等核心能力上取得了显著进展,为开发者和企业带来了
    的头像 发表于 04-23 16:59 524次阅读
    登临科技KS系列GPU产品Day 0适配<b class='flag-5'>Kimi-K</b>2.6<b class='flag-5'>模型</b>

    壁仞科技壁砺166系列GPU产品率先支持Kimi K2.6模型

    4月20日晚,月之暗面正式发布并开源Kimi K2.6模型,带来行业领先(state-of-the-art)的代码、长程任务执行和Agent集群能力。壁仞科技(06082.HK)旗舰通用GPU产品壁
    的头像 发表于 04-23 16:30 281次阅读
    壁仞科技壁砺166系列GPU产品率先支持<b class='flag-5'>Kimi</b> <b class='flag-5'>K</b>2.6<b class='flag-5'>模型</b>

    Kimi K2.6模型发布当天上线华为云

    4月20日, Kimi K2.6模型正式发布并开源,带来行业领先的代码、长程任务执行和Agent集群能力。当前,华为云完成适配并实现针对性优化。华为云MaaS模型即服务平台已为开发者提
    的头像 发表于 04-23 15:10 221次阅读
    <b class='flag-5'>Kimi</b> <b class='flag-5'>K</b>2.6<b class='flag-5'>模型</b>发布当天上线华为云

    中科曙光scaleX万卡超集赋能中国大模型出海新篇章

    榜首,Kimi K2.5、智谱GLM-5、DeepSeek V3.2全线霸榜。这标志着中国大模型正加速走向全球,Token作为AI时代的通用货币,已成为中国数字价值出海的新载体。
    的头像 发表于 03-09 11:42 556次阅读

    模型 ai coding 比较

    :DeepSeek 10/10(100%通过),Kimi 2/10(20%通过) 2. Debug修复能力(权重35%) 测试目标 :模型排查和修复代码问题的能力 测评数据集:Debu
    发表于 02-19 13:43

    月之暗面发布官方编程工具Kimi Code

    月之暗面已正式发布 Kimi 的编程工具:Kimi Code。
    的头像 发表于 01-29 10:23 1463次阅读
    月之暗面发布官方编程工具<b class='flag-5'>Kimi</b> Code

    月之暗面全新开源旗舰模型Kimi K2.5上线模力方舟

    模力方舟平台现已上线来自月之暗面(Moonshot AI)发布的全新开源旗舰模型Kimi K2.5。
    的头像 发表于 01-29 10:20 1211次阅读
    月之暗面全新开源旗舰<b class='flag-5'>模型</b><b class='flag-5'>Kimi</b> <b class='flag-5'>K</b>2.5上线模力方舟

    重磅!智慧水利背后的NTP时间同步服务器揭秘

    重磅!智慧水利背后的NTP时间同步服务器揭秘
    的头像 发表于 09-10 10:41 927次阅读
    重磅!智慧水利<b class='flag-5'>背后</b>的NTP时间同步服务器<b class='flag-5'>揭秘</b>!

    Dynamo 0.4在NVIDIA Blackwell上通过PD分离将性能提升4

    近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多个新的前沿开源模型相继问世,标志着大语言模型 (LLM) 创新浪潮的加速。近日发布的 Dynamo 0.4 提供
    的头像 发表于 08-22 15:59 1634次阅读
    Dynamo 0.4在NVIDIA Blackwell上通过PD分离将性能提升4<b class='flag-5'>倍</b>

    浪潮信息发布&quot;元脑SD200&quot;超节点,面向万亿参数模型创新设计

    扩展支持64路本土GPU芯片。元脑SD200可实现单机内运行超万亿参数模型,并支持多个领先大模型机内同时运行及多智能体实时协作与按需调用,目前已率先实现商用。在实际评测中,元脑SD2
    的头像 发表于 08-08 22:17 777次阅读
    浪潮信息发布&quot;元脑SD200&quot;超节点,面向<b class='flag-5'>万亿</b><b class='flag-5'>参数</b>大<b class='flag-5'>模型</b>创新设计

    请问InDTU IHDMP协议使用的CRC校验使用的什么参数模型

    InDTU IHDMP协议使用的CRC校验使用的什么参数模型
    发表于 08-06 07:57

    奇异摩尔邀您相约2025 AI网络技术应用创新大会

    AI大模型的军备赛每天都在上演,近期Kimi发布的K2模型再次引发全球关注。相关专业机构评价K2是至今最好的开源权重
    的头像 发表于 08-01 17:27 1347次阅读

    硅基流动携手沐曦首发基于曦云的Kimi K2推理服务

    今天,硅基流动联合沐曦集成电路(上海)股份有限公司(简称“沐曦”),全球首发基于沐曦曦云 C550 集群的月之暗面 Kimi-K2模型商业化服务部署。该服务运行于汇天网络科技有限公司(简称“汇
    的头像 发表于 07-23 17:33 2144次阅读

    万亿参数!元脑企智一体机率先支持Kimi K2模型

    北京2025年7月21日 /美通社/ -- 浪潮信息宣布元脑企智一体机已率先完成对Kimi K2 万亿参数模型的适配支持,并实现单用户70
    的头像 发表于 07-22 09:27 675次阅读
    <b class='flag-5'>万亿</b><b class='flag-5'>参数</b>!元脑企智一体机率先支持<b class='flag-5'>Kimi</b> <b class='flag-5'>K2</b>大<b class='flag-5'>模型</b>

    K1,K2,K3是圆形旋转开关问题

    如图所示,K1,K2,K3是圆形旋转开关(控制M的转速),一次只有一个接通,当任意一个接通时,K4闭合则M1得电工作,需三个开关二极管但不懂选型,请热心网友们支招,多谢!
    发表于 05-15 21:06