0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用Chiplet解决ASIC在LLM上的成本问题

E4Life 来源:电子发烧友网 作者:周凯扬 2023-07-18 00:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)虽说最近靠着GPT大语言模型的热度,英伟达之类的主流GPU公司赚得盆满钵满,但要说仗着GPU的高性能就能高枕无忧的话,也就未免有些痴人说梦了。未来随着LLM的继续发展,训练与推理如果要花费同样的硬件成本,那么即便是大厂也难以负担。

所以不少厂商都在追求如何削减TCO(总拥有成本)的办法,有的从网络结构出发,有的从自研ASIC出发的,但收效甚微,到最后还是得花大价钱购置更多的GPU。而来自华盛顿大学和悉尼大学的几位研究人员,在近期鼓捣出的Chiplet Cloud架构,却有可能颠覆这一现状。

TCO居高不下的因素

对于大部分厂商来说,纯粹的TCO并不是他们考虑的首要因素,他们更关注的是同一性能下如何实现更低的TCO。当下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是内存带宽。

比如在更小的batch size和普通的推理序列长度下,内存带宽就会限制对模型参数的读取,比如把参数从HBM加载到片上寄存器,因为全连接层中的GeMM(通用矩阵乘)计算强度不高,几乎每次计算都需要加载新的参数。

而Chiplet Cloud为了获得更好的TCO与性能比,选择了片上SRAM而不是HBM的外部内存方案,将所有模型参数和中间数据(比如K和V向量等)缓存到片上内存中去,从而实现了比传统的DDR、HBM2e更好的单Token TCO表现,同时也获得了更大的内存带宽。

Chiplet Cloud,作为基于chiplet的ASIC AI超算架构,正是专为LLM减少生成单个Token所需的TCO成本设计的。从他们给出的评估数据对比来看,与目前主流的GPU和TPU对比,只有Chiplet Cloud对于TCO/Token做了极致的优化。比如在GPT-3上,32个Chiplet Cloud服务器相较32个DGX A100服务器的TCO成本改善了94倍,在PaLM 540B上,30个Chiplet Cloud服务器相较64个TPUv4芯片将TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更灵活的Chiplet方案

为什么选择Chiplet呢?我们先来看一个极端的堆片上内存的例子,也就是直接选择晶圆级的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。该芯片基于7nm工艺下的一整片12英寸晶圆打造,集成了2.6万亿个晶体管,面积达到46255mm2,片上内存更是达到了40GB。

但这样的巨芯设计意味着高昂的制造成本,所以Chiplet Cloud的研究人员认为更大的SRAM应该与相对较小的芯片对应,这样才能减少制造成本,所以他们选择了chiplet的设计方式。近来流行的Chiplet方案提高了制造良率,也减少了制造成本,允许在不同的系统层级上进行设计的重复利用。

以台积电7nm工艺为例,要想做到0.1/cm2的缺陷密度,一个750mm2芯片的单价是一个150mm2芯片单价的两倍,所以Chiplet的小芯片设计成本更低。重复利用的设计也可以进一步降低成本,加快设计周期,为ASIC芯片提供更高的灵活性。

Chiplet Cloud更适合哪些厂商

虽然论文中提到了不少Chiplet Cloud的优点,但这依然是一个尚未得到实际产品验证的架构,拥有验证实力的公司往往也只有微软、谷歌、亚马逊以及阿里巴巴这类具备芯片设计实力的公司。况且ASIC终究是一种特化的方案,最清楚云平台计算负载需要哪些优化,还得是云服务厂商自己。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54422

    浏览量

    469287
  • asic
    +关注

    关注

    34

    文章

    1278

    浏览量

    124945
  • chiplet
    +关注

    关注

    6

    文章

    499

    浏览量

    13648
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Google正式发布LLM评测基准Android Bench

    LLM Android 开发任务中的表现。现在,我们发布了 Android Bench 的首个版本,这是 Google 官方专门针对 Android 开发打造的 LLM 排行榜。
    的头像 发表于 03-14 16:00 1892次阅读
    Google正式发布<b class='flag-5'>LLM</b>评测基准Android Bench

    拥抱Chiplet,大芯片的必经之路

    本文转自:半导体行业观察随着传统芯片架构功耗、散热和空间方面逼近物理极限,一种新型架构正在兴起,有望为高性能计算(HPC)开辟一条新的发展道路。这种架构被称为Chiplet架构
    的头像 发表于 02-13 14:35 518次阅读
    拥抱<b class='flag-5'>Chiplet</b>,大芯片的必经之路

    NVIDIA TensorRT Edge-LLM汽车与机器人行业的落地应用

    大语言模型(LLM)与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、多模态感知系统和高级规划功能直接部署端侧,因为在这些场景中,低延迟、高可靠性以及离线运行能力至关重要。
    的头像 发表于 01-14 09:10 3227次阅读
    NVIDIA TensorRT Edge-<b class='flag-5'>LLM</b><b class='flag-5'>在</b>汽车与机器人行业的落地应用

    跃昉科技受邀出席第四届HiPi Chiplet论坛

    随着摩尔定律放缓与AI算力需求的爆发式增长,传统芯片设计模式正面临研发成本高昂、能耗巨大、迭代周期长的多重压力。在此背景下,Chiplet(芯粒)技术成为推动集成电路产业持续演进的关键路径。2025
    的头像 发表于 12-28 16:36 883次阅读
    跃昉科技受邀出席第四届HiPi <b class='flag-5'>Chiplet</b>论坛

    PowerVRLLM加速:LLM性能解析

    作者:AlexPim,Imagination软件架构FellowImagination,我们致力于加速大语言模型日常设备的运行。本系列关于大语言模型性能与加速的两篇博客的首篇中
    的头像 发表于 12-10 08:34 407次阅读
    PowerVR<b class='flag-5'>上</b>的<b class='flag-5'>LLM</b>加速:<b class='flag-5'>LLM</b>性能解析

    微弱信号采集 ASIC芯片 CBM12AD1X

    ASIC芯片
    芯佰微电子
    发布于 :2025年11月28日 15:04:53

    【CIE全国RISC-V创新应用大赛】+ 一种基于LLM的可通过图像语音控制的元件库管理工具

    成本下长时间的维持运营一个良好的库存环境。本项目实现了多模态同步,项目中联合调用了CV(OCR),ASR,LLM。 主要功能构想 ​ 1.实现用户将采购单或元器件标签或元器件(下文称输入资料)放置或
    发表于 11-12 19:32

    解构Chiplet,区分炒作与现实

    ,对于芯片架构的设计需要什么、哪些技术已经成熟可用以及哪些创新即将出现,仍然存在不确定性。Chiplet开始广泛应用之前,了解该技术及其配套生态系统至关重要。随着
    的头像 发表于 10-23 12:19 526次阅读
    解构<b class='flag-5'>Chiplet</b>,区分炒作与现实

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 1414次阅读

    基于树莓派5+LLM8850 Card的高性能AI加速解决方案

    推广的过程中,树莓派生态客户反馈希望能提供一种兼容原装Raspberry PI HAT的M.2 2242的AI Card版本。经过国内优秀的AIOT硬件设计公司M5Stack长达几个月的反复设计,终于本周正式架了
    的头像 发表于 10-14 11:25 2782次阅读
    基于树莓派5+<b class='flag-5'>LLM</b>8850 Card的高性能AI加速解决方案

    DeepSeek R1 MTPTensorRT-LLM中的实现与优化

    TensorRT-LLM NVIDIA Blackwell GPU 创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4680次阅读
    DeepSeek R1 MTP<b class='flag-5'>在</b>TensorRT-<b class='flag-5'>LLM</b>中的实现与优化

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2421次阅读

    使用 llm-agent-rag-llamaindex 笔记本时收到的 NPU 错误怎么解决?

    使用 conda create -n ov-nb-demos python=3.11 创建运行 llm-agent-rag-llamaindex notebook 的环境。 执行“创建
    发表于 06-23 06:26

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 2074次阅读
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS应用的最佳实践

    LM Studio使用NVIDIA技术加速LLM性能

    随着 AI 使用场景不断扩展(从文档摘要到定制化软件代理),开发者和技术爱好者正在寻求以更 快、更灵活的方式来运行大语言模型(LLM)。
    的头像 发表于 06-06 15:14 1443次阅读
    LM Studio使用NVIDIA技术加速<b class='flag-5'>LLM</b>性能