0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用Chiplet解决ASIC在LLM上的成本问题

E4Life 来源:电子发烧友网 作者:周凯扬 2023-07-18 00:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)虽说最近靠着GPT大语言模型的热度,英伟达之类的主流GPU公司赚得盆满钵满,但要说仗着GPU的高性能就能高枕无忧的话,也就未免有些痴人说梦了。未来随着LLM的继续发展,训练与推理如果要花费同样的硬件成本,那么即便是大厂也难以负担。

所以不少厂商都在追求如何削减TCO(总拥有成本)的办法,有的从网络结构出发,有的从自研ASIC出发的,但收效甚微,到最后还是得花大价钱购置更多的GPU。而来自华盛顿大学和悉尼大学的几位研究人员,在近期鼓捣出的Chiplet Cloud架构,却有可能颠覆这一现状。

TCO居高不下的因素

对于大部分厂商来说,纯粹的TCO并不是他们考虑的首要因素,他们更关注的是同一性能下如何实现更低的TCO。当下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是内存带宽。

比如在更小的batch size和普通的推理序列长度下,内存带宽就会限制对模型参数的读取,比如把参数从HBM加载到片上寄存器,因为全连接层中的GeMM(通用矩阵乘)计算强度不高,几乎每次计算都需要加载新的参数。

而Chiplet Cloud为了获得更好的TCO与性能比,选择了片上SRAM而不是HBM的外部内存方案,将所有模型参数和中间数据(比如K和V向量等)缓存到片上内存中去,从而实现了比传统的DDR、HBM2e更好的单Token TCO表现,同时也获得了更大的内存带宽。

Chiplet Cloud,作为基于chiplet的ASIC AI超算架构,正是专为LLM减少生成单个Token所需的TCO成本设计的。从他们给出的评估数据对比来看,与目前主流的GPU和TPU对比,只有Chiplet Cloud对于TCO/Token做了极致的优化。比如在GPT-3上,32个Chiplet Cloud服务器相较32个DGX A100服务器的TCO成本改善了94倍,在PaLM 540B上,30个Chiplet Cloud服务器相较64个TPUv4芯片将TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更灵活的Chiplet方案

为什么选择Chiplet呢?我们先来看一个极端的堆片上内存的例子,也就是直接选择晶圆级的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。该芯片基于7nm工艺下的一整片12英寸晶圆打造,集成了2.6万亿个晶体管,面积达到46255mm2,片上内存更是达到了40GB。

但这样的巨芯设计意味着高昂的制造成本,所以Chiplet Cloud的研究人员认为更大的SRAM应该与相对较小的芯片对应,这样才能减少制造成本,所以他们选择了chiplet的设计方式。近来流行的Chiplet方案提高了制造良率,也减少了制造成本,允许在不同的系统层级上进行设计的重复利用。

以台积电7nm工艺为例,要想做到0.1/cm2的缺陷密度,一个750mm2芯片的单价是一个150mm2芯片单价的两倍,所以Chiplet的小芯片设计成本更低。重复利用的设计也可以进一步降低成本,加快设计周期,为ASIC芯片提供更高的灵活性。

Chiplet Cloud更适合哪些厂商

虽然论文中提到了不少Chiplet Cloud的优点,但这依然是一个尚未得到实际产品验证的架构,拥有验证实力的公司往往也只有微软、谷歌、亚马逊以及阿里巴巴这类具备芯片设计实力的公司。况且ASIC终究是一种特化的方案,最清楚云平台计算负载需要哪些优化,还得是云服务厂商自己。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53559

    浏览量

    459333
  • asic
    +关注

    关注

    34

    文章

    1269

    浏览量

    124065
  • chiplet
    +关注

    关注

    6

    文章

    482

    浏览量

    13506
  • LLM
    LLM
    +关注

    关注

    1

    文章

    341

    浏览量

    1258
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    PowerVRLLM加速:LLM性能解析

    作者:AlexPim,Imagination软件架构FellowImagination,我们致力于加速大语言模型日常设备的运行。本系列关于大语言模型性能与加速的两篇博客的首篇中
    的头像 发表于 12-10 08:34 66次阅读
    PowerVR<b class='flag-5'>上</b>的<b class='flag-5'>LLM</b>加速:<b class='flag-5'>LLM</b>性能解析

    【CIE全国RISC-V创新应用大赛】+ 一种基于LLM的可通过图像语音控制的元件库管理工具

    成本下长时间的维持运营一个良好的库存环境。本项目实现了多模态同步,项目中联合调用了CV(OCR),ASR,LLM。 主要功能构想 ​ 1.实现用户将采购单或元器件标签或元器件(下文称输入资料)放置或
    发表于 11-12 19:32

    DeepSeek R1 MTPTensorRT-LLM中的实现与优化

    TensorRT-LLM NVIDIA Blackwell GPU 创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 3978次阅读
    DeepSeek R1 MTP<b class='flag-5'>在</b>TensorRT-<b class='flag-5'>LLM</b>中的实现与优化

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 1768次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 1311次阅读
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS应用的最佳实践

    Chiplet技术消费电子领域的应用前景

    探讨Chiplet技术如何为智能手机、平板电脑等消费电子产品带来更优的性能和能效比。
    的头像 发表于 04-09 15:48 795次阅读
    <b class='flag-5'>Chiplet</b>技术<b class='flag-5'>在</b>消费电子领域的应用前景

    详解 LLM 推理模型的现状

    领域的最新研究进展,特别是自DeepSeekR1发布后兴起的推理时间计算扩展相关内容。LLM中实施和改进推理简单来说,基于LLM的推理模型是一种旨在通过生成中间
    的头像 发表于 04-03 12:09 1261次阅读
    详解 <b class='flag-5'>LLM</b> 推理模型的现状

    Chiplet:芯片良率与可靠性的新保障!

    Chiplet技术,也被称为小芯片或芯粒技术,是一种创新的芯片设计理念。它将传统的大型系统级芯片(SoC)分解成多个小型、功能化的芯片模块(Chiplet),然后通过先进的封装技术将这些模块连接在一起,形成一个完整的系统。这一技术的出现,源于对摩尔定律放缓的应对以及对芯片
    的头像 发表于 03-12 12:47 2028次阅读
    <b class='flag-5'>Chiplet</b>:芯片良率与可靠性的新保障!

    无法OVMS运行来自Meta的大型语言模型 (LLM),为什么?

    无法 OVMS 运行来自 Meta 的大型语言模型 (LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama_chat Python* Demo 时遇到错误。
    发表于 03-05 08:07

    2.5D集成电路的Chiplet布局设计

    随着摩尔定律接近物理极限,半导体产业正在向2.5D和3D集成电路等新型技术方向发展。2.5D集成技术中,多个Chiplet通过微凸点、硅通孔和重布线层放置中介层。这种架构
    的头像 发表于 02-12 16:00 2062次阅读
    2.5D集成电路的<b class='flag-5'>Chiplet</b>布局设计

    小白学大模型:构建LLM的关键步骤

    随着大规模语言模型(LLM性能、成本和应用前景的快速发展,越来越多的团队开始探索如何自主训练LLM模型。然而,是否从零开始训练一个
    的头像 发表于 01-09 12:12 1559次阅读
    小白学大模型:构建<b class='flag-5'>LLM</b>的关键步骤

    Neuchips展示大模型推理ASIC芯片

    领先的AI专用集成电路(ASIC)解决方案提供商NeuchipsCES 2024展示了其革命性的Raptor Gen AI加速芯片(以前称为N3000)和Evo PCIe加速卡LLM
    的头像 发表于 01-06 17:30 1289次阅读

    解锁Chiplet潜力:封装技术是关键

    如今,算力极限挑战正推动着芯片设计的技术边界。Chiplet的诞生不仅仅是技术的迭代,更是对未来芯片架构的革命性改变。然而,要真正解锁Chiplet技术的无限潜力, 先进封装技术 成为了不可或缺
    的头像 发表于 01-05 10:18 1825次阅读
    解锁<b class='flag-5'>Chiplet</b>潜力:封装技术是关键

    Chiplet技术革命:解锁半导体行业的未来之门

    随着半导体技术的飞速发展,芯片设计和制造面临着越来越大的挑战。传统的单芯片系统(SoC)设计模式追求高度集成化的同时,也面临着设计复杂性、制造成本、良率等方面的瓶颈。而Chiplet技术的出现,为这些问题提供了新的解决方案。本
    的头像 发表于 12-26 13:58 1822次阅读
    <b class='flag-5'>Chiplet</b>技术革命:解锁半导体行业的未来之门

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 1245次阅读
    <b class='flag-5'>在</b>NVIDIA TensorRT-<b class='flag-5'>LLM</b>中启用ReDrafter的一些变化