0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存内计算——助力实现28nm等效7nm功效

廖慧敏 来源:jf_13681693 作者:jf_13681693 2024-05-17 15:03 次阅读

算力是数字经济时代的核心生产力,并且近年来需求剧增。而我国当前的算力供给上仍面临巨大的挑战,一方面,国外的高端算力芯片被美国禁售,另一方面,国内的芯片产业仍处于发展阶段[1]。如何获取算力提升,成为当前时代芯片研究的重要命题。

一.算力突破

研究如何获取算力提升,要从算力的来源上考虑。芯片算力可大致总结为以下计算公式:

因此,获取算力提升的主要切入点是晶体管密度、芯片面积、单位晶体管的算力,这三个方面分别主要涉及制作工艺、光刻口径、计算架构。

(1)晶体管密度:

晶体管密度的主要影响因素是制造工艺、基板材料,同样的面积内,封装的可用晶体管越多,就能提供越强的算力。

制造工艺方面,受限于美国的无理封锁,当前国内量产芯片的最先进制造工艺为14nm,国际上量产芯片最先进的制造工艺为3nm。清华大学尹首一教授认为,国内芯片制造工艺将长期处于在14nm,国内芯片产业与研究不能指望通过制造工艺获得性能提升。在国际领域,虽然芯片制造商仍能享受到制程工艺带来的升级,但从苹果A17Pro芯片的性能表现、高通仍然采用基于4nm的升级工艺制造今年旗舰芯片的市场行为来看,产业界最先进的工艺制程已经不及预期。

wKgZomZG_w2AFrk2AAak9a8makU966.png

基板材料方面,随着制造工艺步入埃米级别,芯片制造工艺受到硅原子性质的影响越来越大,产业界和学界也在探索新的材料用于制造芯片,通过“弯道超车”的方式提升晶体管密度,比如英特尔厂商正在研发的玻璃基芯片[3]、北京大学彭练矛教授团队正在研发的碳基芯片[4]。

(2)芯片面积

芯片面积和晶体管密度考虑的是类似的问题,在一颗芯片内提供更多的可用晶体管,就意味着能提供更多的算力。但是在当前,GPU的单芯片面积基本已经达到上限,想通过面积获得进一步的算力提升,可以从拓展角度考虑,有两个探索的方向:平面拓展和垂直拓展。

平面拓展就是在光刻时使用光照拼接技术,实现两个曝光区域的物理连接,来把芯片做大,通过计算架构的优化设计,保证晶圆中晶体管的可用性,Cerebras公司Tesla公司已经实现了晶圆级芯片。垂直拓展就是把芯片或其中的部分器件三维堆叠起来,如AMD的3D缓存技术。

(3)单位晶体管提供的算力:

单位晶体管提供的算力和计算架构息息相关,计算架构的优化改进或使用新的计算架构,能够对芯片算力产生更根本的影响。计算架构上面临的主要问题有:基本器件的设计架构不同导致的晶体管数量不同,需要探索更优的基本器件结构设计;冯诺依曼架构的“存储墙”导致的访存瓶颈,限制了算力的发挥,需要降低带宽对算力的限制;功耗限制导致的darkselect问题,即为了保证芯片功耗,不能同时点亮芯片上的所有晶体管,需要优化设计来避免。

面对以上的部分问题,产业界和学界已经给出了相应的解决方案。在计算架构的优化方面,有数据流、可重构、存算一体三条路径。首先,数据流芯片尝试不使用指令而是直接通过数据驱动计算,避免外部存储访问,来解决晶体管利用率低的问题。Google的TPU芯片已经证明了,这种方式虽然在单芯片性能上逊于GPU,但能在系统级算力上实现超越[1]。具体来讲,单核TPU v4的性能是低于A100 GPU的,只有它的88%,但1024颗TPU v4的集群性能,超过了A100 GPU的集群性能,最高达到了1.96倍。4096颗TPUv4芯片示意图如下图3所示。

wKgZomZG_0SAUyAuAAibfY8mQu8058.png

图 34096颗TPUv4芯片集成[6]

可重构芯片尝试在芯片内布设可编程的计算资源,根据计算任务的数据流特点,动态构造出最适合的计算架构,国内团队设计并在12nm工艺下制造的CGRA芯片,已经在标准测试集上实现了和7nm的GPU基本相当的性能。存算一体尝试通过集成存储和计算在一个芯片甚至一个容器内,来突破访存限制,发挥芯片的最大算力。下面我们将重点介绍存算一体技术。

二.存算一体

存算一体是一种新型计算架构,直接利用存储器本身进行数据处理,从根本上消除数据搬运,实现存储与计算融合一体化,成为后摩尔时代集成电路领域的重点研究方向之一。

(1)存算一体技术优势:

存算一体技术具有很大的优势,存算融合的特点使其天然具备较大算力、低延迟、高带宽等优势。相比传统架构,存算一体大算力芯片不仅仅是能效比有数量级的提升,更重要的是将大大缓解存储墙问题,简化AI服务器集群的互联网络及其管理和各类成本,包括高速互联、DPU和能耗等。因此,存算一体技术是实现芯片算力突破的重要途径,可助力实现28nm等效7nm功效。

(2)传统工艺芯片算力提升实例:

目前已有一些企业和高校,通过存算一体技术,实现28nm制程芯片的能效算力提升。

忆铸科技于2021年10月于上海成立,是一家基于ReRAM设计和落地数字存算一体芯片的企业。在公司的技术畅想中,他们尝试将新型忆阻器、存算一体架构、Chiplet技术、3D封装等技术结合,实现大算力、高能效比的芯片。据其官网信息,亿铸第一代算力芯片采用的工艺为28nm,其能效比可以实现目前主流算力板卡的10倍以上[7]。

2023年8月29日,华为的麒麟9000s芯片随着Mate 60 Pro成功发布,该款芯片一经发出,就引发业界讨论:“麒麟9000s的工艺制程究竟是多少?”在2023年中国集成电路设计业(ICCAD)年会上,清华大学魏少军教授在演讲中提出:“能够用14nm,甚至28nm做成7nm的产品性能才是真正的高手”。据悉,华为并未公布麒麟9000s真正的工艺制程,知名科技解析机构TechInsights对麒麟9000s深入解析结果显示,该芯片确实拥有7nm工艺制程的特性。

wKgaomZG_4qASTXfAAhO6-C-2sM264.png

图 4 华为麒麟9000s芯片

知存科技的WTM2101量产芯片采用40nm制程,将神经网络部署在芯片中,已经实现了满足端侧算力需求的语音识别等功能。即将量产的WTM8芯片,采用28nm制程,作为新一代存内AI计算视觉芯片,能够实现图像的AI超分、插帧、HDR识别和检测这样复杂的功能[8],现有的一些研究也已经证明存算一体可以实现16bit、32bit的浮点计算,具备进入高算力芯片的能力。

wKgZomZG_7-AVfuGAA7RTsVXOJM498.png

图 5知存科技WTM-8系列芯片示意图

三.未来展望

随着工艺的进步,先进工艺制程已从28nm发展至3nm,苹果新发布的A17Pro已采用了tsmc 3nm工艺。据悉,tsmc也将投资近万亿新台币建造1nm晶圆厂。在未来,有没有一种全新的方案解决算力不足、工艺制程发展空间受限的局面?存算一体便是答案之一。

wKgaomZG__eATwmkAACAbHX2cbY443.png

综上所述,存算一体技术因为其特殊优势,可以大大提升芯片算力,从而使得成熟28nm制程芯片能够实现等效于7nm制程芯片的性能。当然这其中还有很多难点需要突破,需要科研工作着的不断努力,期待未来基于存算一体技术的芯片可以更好地突破芯片制程的限制。

参考资料

[1] 尹首一教授报告:以“架构”创新,突破算力卡脖子问题.

[2] 极客湾 space.bilibili.com/25876945.

[3] 第八届未来芯片论坛中英特尔中国研究院的报告.

[4] 北京大学新闻网:专访北大碳基芯片团队:我们换道走了20年,觉得能走下去 (news.pku.edu.cn).

[5] AMD官网 amd.com.

[6] Jouppi N, Kurian G, Li S, et al. Tpu v4: An optically reconfigurable supercomputer for machine learning with hardware support for embeddings[C]//Proceedings of the 50th Annual International Symposium on Computer Architecture. 2023: 1-14.

[7] 忆铸科技官网 (yizhu-tech.com).

[8] 知存科技官网(witintech.com).

[9] 从7nm到5nm,半导体制程 - 吴建明wujianming - 知乎(zhuanlan.zhihu.com/).

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    452

    文章

    50149

    浏览量

    420480
  • AI
    AI
    +关注

    关注

    87

    文章

    29662

    浏览量

    267990
  • 芯片制程
    +关注

    关注

    0

    文章

    51

    浏览量

    4650
  • 算力
    +关注

    关注

    1

    文章

    892

    浏览量

    14684
  • 存内计算
    +关注

    关注

    0

    文章

    28

    浏览量

    1356
收藏 人收藏

    评论

    相关推荐

    Altera 28nm FPGA助力NEC提升LTE基站性能

    Altera的28nm FPGA所具有的灵活性和性能指标满足了下一代基站各种LTE系统级特性的需求,而且没有牺牲功效。近日Altera宣布NEC将使用其28nm FPGA,助力提高其L
    发表于 11-19 09:09 820次阅读

    什么是Altera最新28nm FPGA技术?

    1月22日,Altera 在北京展示了号称业界最全面的28nm 最新技术及强大解决方案。Altera公司的多位工程师为在京的媒体人士进行了讲解。
    发表于 08-21 07:37

    如何利用28nm高端FPGA实现功耗和性能的平衡?

     从工艺选择到设计直至投产,设计人员关注的重点是以尽可能低的功耗获得最佳性能。Altera在功耗和性能上的不断创新,那其28nm高端FPGA如何实现功耗和性能的平衡?具体有何优势? 
    发表于 09-17 08:18

    10nm7nm等制程到底是指什么?宏旺半导体和你聊聊

    随着半导体产业技术的不断发展,芯片制程工艺已从90nm、65nm、45nm、32nm、22nm、14nm
    发表于 12-10 14:38

    请问C2000系列产品的制程是45nm还是28nm

    请问工程师,C2000系列产品的制程是45nm还是28nm?同一款新片可能采用不同的制程生产吗?
    发表于 06-17 14:41

    Fusion Design Platform™已实现重大7nm工艺里程碑

    • 在设计人员的推动下,加快部署7nm Fusion Design Platform,在具有挑战性的设计方面,不仅设计实现质量提升了20%,设计收敛速度也提高了两倍多。• Fusion Design
    发表于 10-22 09:40

    请大神解释一下28nm下是没有MIM电容了吗?

    之前只用过tsmc 65nm的,在设置电感时候是有indcutor finder的工具的,28nm下没有了吗?只能自己扫描参数一个一个试?28nm下是没有MIM电容了吗?相关的模拟射频器件(比如
    发表于 06-24 06:18

    求一份tsmc 7nm standard cell library

    求一份tsmc 7nm standard cell library求一份28nm或者40nm 的数字库
    发表于 06-25 06:39

    7nm到5nm,半导体制程 精选资料分享

    7nm到5nm,半导体制程芯片的制造工艺常常用XXnm来表示,比如Intel最新的六代酷睿系列CPU就采用Intel自家的14nm++制造工艺。所谓的XXnm指的是集成电路的MOSFET晶体管栅极
    发表于 07-29 07:19

    28nm Stratix V FPGA突破带宽瓶颈

    28nm Stratix V FPGA突破带宽瓶颈 Altera公司的最新28nm Stratix V FPGA正是为满足高带宽应用设计要求而推出。 移动互联网、高清视频、军事、医疗以及计算
    发表于 05-10 17:52 774次阅读

    降低赛灵思28nm 7系列FPGA的功耗

    本白皮书介绍了有关赛灵思 28 nm 7 系列 FPGA 功耗的几个方面,其中包括台积电 28nm高介电层金属闸 (HKMG) 高性能低功耗(28n
    发表于 03-07 14:43 41次下载
    降低赛灵思<b class='flag-5'>28nm</b> <b class='flag-5'>7</b>系列FPGA的功耗

    半导体制程发展:28nm向3nm的“大跃进”

    虽然高端市场会被 7nm、10nm以及14nm/16nm工艺占据,但40nm28nm等并不会退
    的头像 发表于 10-15 11:18 5068次阅读

    22nm28nm芯片性能差异

    据芯片行业来看,目前22nm28nm的芯片工艺技术已经相当成熟了,很多厂商也使用22nm28nm的芯片居多,主要原因就是价格便宜,那么这两个芯片之间有什么性能差异呢?
    的头像 发表于 06-29 09:47 9639次阅读

    7nm芯片和5nm芯片哪个好

    7nm芯片和5nm芯片的区别在哪?7nm芯片和5nm芯片哪个好?在其他变量恒定的情况下,5nm芯片肯定要强于
    的头像 发表于 07-05 09:26 2.3w次阅读

    所谓的7nm芯片上没有一个图形是7nm

    最近网上因为光刻机的事情,网上又是一阵热闹。好多人又开始讨论起28nm/7nm的事情了有意无意之间,我也看了不少网上关于国产自主7nm工艺的文章。不过这些文章里更多是抒情和遐想,却很少有人针对技术
    的头像 发表于 10-08 17:12 163次阅读
    所谓的<b class='flag-5'>7nm</b>芯片上没有一个图形是<b class='flag-5'>7nm</b>的