0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用Chiplet解决ASIC在LLM上的成本问题

E4Life 来源:电子发烧友网 作者:周凯扬 2023-07-18 00:15 次阅读

电子发烧友网报道(文/周凯扬)虽说最近靠着GPT大语言模型的热度,英伟达之类的主流GPU公司赚得盆满钵满,但要说仗着GPU的高性能就能高枕无忧的话,也就未免有些痴人说梦了。未来随着LLM的继续发展,训练与推理如果要花费同样的硬件成本,那么即便是大厂也难以负担。

所以不少厂商都在追求如何削减TCO(总拥有成本)的办法,有的从网络结构出发,有的从自研ASIC出发的,但收效甚微,到最后还是得花大价钱购置更多的GPU。而来自华盛顿大学和悉尼大学的几位研究人员,在近期鼓捣出的Chiplet Cloud架构,却有可能颠覆这一现状。

TCO居高不下的因素

对于大部分厂商来说,纯粹的TCO并不是他们考虑的首要因素,他们更关注的是同一性能下如何实现更低的TCO。当下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是内存带宽。

比如在更小的batch size和普通的推理序列长度下,内存带宽就会限制对模型参数的读取,比如把参数从HBM加载到片上寄存器,因为全连接层中的GeMM(通用矩阵乘)计算强度不高,几乎每次计算都需要加载新的参数。

而Chiplet Cloud为了获得更好的TCO与性能比,选择了片上SRAM而不是HBM的外部内存方案,将所有模型参数和中间数据(比如K和V向量等)缓存到片上内存中去,从而实现了比传统的DDR、HBM2e更好的单Token TCO表现,同时也获得了更大的内存带宽。

Chiplet Cloud,作为基于chiplet的ASIC AI超算架构,正是专为LLM减少生成单个Token所需的TCO成本设计的。从他们给出的评估数据对比来看,与目前主流的GPU和TPU对比,只有Chiplet Cloud对于TCO/Token做了极致的优化。比如在GPT-3上,32个Chiplet Cloud服务器相较32个DGX A100服务器的TCO成本改善了94倍,在PaLM 540B上,30个Chiplet Cloud服务器相较64个TPUv4芯片将TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更灵活的Chiplet方案

为什么选择Chiplet呢?我们先来看一个极端的堆片上内存的例子,也就是直接选择晶圆级的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。该芯片基于7nm工艺下的一整片12英寸晶圆打造,集成了2.6万亿个晶体管,面积达到46255mm2,片上内存更是达到了40GB。

但这样的巨芯设计意味着高昂的制造成本,所以Chiplet Cloud的研究人员认为更大的SRAM应该与相对较小的芯片对应,这样才能减少制造成本,所以他们选择了chiplet的设计方式。近来流行的Chiplet方案提高了制造良率,也减少了制造成本,允许在不同的系统层级上进行设计的重复利用。

以台积电7nm工艺为例,要想做到0.1/cm2的缺陷密度,一个750mm2芯片的单价是一个150mm2芯片单价的两倍,所以Chiplet的小芯片设计成本更低。重复利用的设计也可以进一步降低成本,加快设计周期,为ASIC芯片提供更高的灵活性。

Chiplet Cloud更适合哪些厂商

虽然论文中提到了不少Chiplet Cloud的优点,但这依然是一个尚未得到实际产品验证的架构,拥有验证实力的公司往往也只有微软、谷歌、亚马逊以及阿里巴巴这类具备芯片设计实力的公司。况且ASIC终究是一种特化的方案,最清楚云平台计算负载需要哪些优化,还得是云服务厂商自己。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    447

    文章

    47821

    浏览量

    409207
  • asic
    +关注

    关注

    34

    文章

    1158

    浏览量

    119269
  • chiplet
    +关注

    关注

    6

    文章

    380

    浏览量

    12420
  • LLM
    LLM
    +关注

    关注

    0

    文章

    202

    浏览量

    233
收藏 人收藏

    评论

    相关推荐

    Chiplet是否也走上了集成竞赛的道路?

    Chiplet会将SoC分解成微小的芯片,各公司已开始产生新的想法、工具和“Chiplet平台”,旨在将这些Chiplet横向或纵向组装成先进的SiP(system-in- package)形式。
    的头像 发表于 02-23 10:35 248次阅读
    <b class='flag-5'>Chiplet</b>是否也走上了集成竞赛的道路?

    什么是Chiplet技术?

    什么是Chiplet技术?Chiplet技术是一种在半导体设计和制造中将大型芯片的不同功能分解并分散实现在多个较小和专用的芯片(Chiplets)上的方法。这些较小的芯片随后通过高速互连方式集成到一个封装中,共同实现全功能的芯片系统。
    的头像 发表于 01-25 10:43 555次阅读
    什么是<b class='flag-5'>Chiplet</b>技术?

    到底什么是ASIC和FPGA?

    它。数据中心之前DPU等部件,也。 后来,很多技术成熟了、定型了,通信设备商们就开始ASIC替代,以此减少
    发表于 01-23 19:08

    Chiplet成大芯片设计主流方式,开启IP复用新模式

    照不同的计算单元或功能单元对其进行分解,然后每个单元选择最适合的工艺制程进行制造,再将这些模块化的裸片互联起来,降低芯片设计的成本和难度。   Chiplet模型已经被证明是可行的,目前AMD、英特尔、博通和Marvell等公司都已经推出自己的
    的头像 发表于 01-12 00:55 1437次阅读

    什么是Chiplet技术?Chiplet技术有哪些优缺点?

    组件。这种技术的核心思想是将大型集成电路拆分成更小、更模块化的部分,以便更灵活地设计、制造和组装芯片。Chiplet技术可以突破单芯片光刻面积的瓶颈,减少对先进工艺制程的依赖,提高芯片的性能并降低制造成本
    的头像 发表于 01-08 09:22 1735次阅读

    Continuous Batching:解锁LLM潜力!让LLM推断速度飙升23倍,降低延迟!

    本文介绍一篇 LLM 推理加速技术 相关的文章,值得读一读。 LLMs 在现实应用中的计算成本主要由服务成本所主导,但是传统的批处理策略存在低效性。在这篇文章中,我们将告诉
    的头像 发表于 10-15 20:25 349次阅读
    Continuous Batching:解锁<b class='flag-5'>LLM</b>潜力!让<b class='flag-5'>LLM</b>推断速度飙升23倍,降低延迟!

    对比解码在LLM上的应用

    为了改进LLM的推理能力,University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明,所提方法能有效改进LLM的推理能力。让我们走进
    发表于 09-21 11:37 373次阅读
    对比解码在<b class='flag-5'>LLM</b>上的应用

    Chiplet,怎么连?

    高昂的研发费用和生产成本,与芯片的性能提升无法持续等比例延续。为解决这一问题,“后摩尔时代”下的芯片异构集成技术——Chiplet应运而生,或将从另一个维度来延续摩尔定律的“经济效益”。
    的头像 发表于 09-20 15:39 417次阅读
    <b class='flag-5'>Chiplet</b>,怎么连?

    基于Speedcore eFPGA IP构建Chiplet

    寻求最高集成度的设计人员可以选择去开发一款包含Speedcore eFPGA IP的单芯片ASIC。然而,在某些应用中,单芯片集成无法实现某些产品灵活性,而这在使用基于chiplet的方案中就有更多灵活性。
    发表于 09-06 15:12 258次阅读

    chiplet和cowos的关系

    chiplet和cowos的关系 Chiplet和CoWoS是现代半导体工业中的两种关键概念。两者都具有很高的技术含量和经济意义。本文将详细介绍Chiplet和CoWoS的概念、优点、应用以
    的头像 发表于 08-25 14:49 2317次阅读

    chiplet和sip的区别是什么?

    chiplet和sip的区别是什么? 芯片行业一直在积极探索高性能、高效率、低成本的制造技术,而目前引起人们关注的是chiplet和SIP(system-in-package)技术。这两种技术虽然有
    的头像 发表于 08-25 14:44 2630次阅读

    Chiplet的验证需求有哪些变化?

    Chiplet(芯粒)已经成为设计师的战略资产,他们将其应用于各种应用中。到目前为止,Chiplet的验证环节一直被忽视。
    的头像 发表于 07-26 17:06 602次阅读

    Chiplet关键技术与挑战

    半导体产业正在进入后摩尔时代,Chiplet应运而生。介绍了Chiplet技术现状与接口标准,阐述了应用于Chiplet的先进封装种类:多芯片模块(MCM)封装、2.5D封装和3D封装,并从技术特征
    的头像 发表于 07-17 16:36 853次阅读
    <b class='flag-5'>Chiplet</b>关键技术与挑战

    汽车行业下一个流行趋势,chiplet

    Chiplet是一个小型IC,有明确定义的功能子集,理论上可以与封装中的其他chiplet结合。Chiplet的最大优势之一是能够实现“混搭”,与先进制程的定制化SoC相比成本更低。采
    的头像 发表于 06-20 09:20 533次阅读
    汽车行业下一个流行趋势,<b class='flag-5'>chiplet</b>?

    LLM性能的主要因素

    现在是2023年5月,截止目前,网络上已经开源了众多的LLM,如何用较低的成本,判断LLM的基础性能,选到适合自己任务的LLM,成为一个关键。 本文会涉及以下几个问题: 影响
    的头像 发表于 05-22 15:26 1236次阅读
    <b class='flag-5'>LLM</b>性能的主要因素