0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哪家中国芯片公司能「吃下」大模型?

半导体产业纵横 来源:雷峰网 2023-07-31 18:22 次阅读

中国AI芯片公司的天花板,可能是AMD

ChatGPT火爆时,浩然被两股矛盾的情绪夹在缝隙:一面是兴奋,一面是悲伤。 作为一名AI芯片公司的高级软件工程师,ChatGPT大爆发前夜,浩然对自己参与研发的大算力AI芯片充满信心,他相信为特定AI算法研发的专用芯片,相比英伟达通用的GPGPU在同等功耗下可以有2倍的性能优势,价格可以做到50%甚至更低,只要软件体验不太差,客户一定会买单。 可ChatGPT掀起的大模型热潮,让浩然和同行们都开始思考,AI算法是否有从百家争鸣走向大一统的可能。

这意味着,过去为特定领域AI算法研发的专用AI芯片,由于计算负载特性的急剧变化,之前的性价比优势会被明显削弱,英伟达兼具高显存带宽和高互联带宽特性的通用GPU优势将会进一步扩大,想要和英伟达竞争的难度更大了,这让浩然有些悲观。 但从自己工作的角度,AI算法的大一统可以让硬件工程师和软件工程师工作的目标都更清晰,工作会难度降低,这是浩然欢呼的理由。 “我不相信英伟达能一直保持领先。”芯片架构师宇阳保持信心,“GPU不见得是大模型的最佳解,中国AI芯片公司里一定会有能和英伟达掰手腕的公司。 国内众多的AI大芯片公司,谁能吃下大模型市场?

芯片公司想喝口大模型的汤也不容易

就算是英伟达长久以来的竞争对手AMD,在英伟达大口吃AI大模型肥肉的时候,AMD也没喝上多少汤。综合实力不及AMD的国内初创公司们,就算嘴上高呼赶超英伟达,心里也清楚能做互联网公司的第二供应商,喝上大模型的汤就是巨大的成功。 大模型火爆,全世界的公司都在找英伟达买GPU。原先售价3万多美元的最新款H800 GPU,就算终端售价加价1万多美元依旧一卡难求。这种供不应求的盛况直接将英伟达的市值推向1万亿美元,创造了全球半导体公司市值的新纪录。 “客户很奇怪,就算AMD有性能不错的GPU现货,许多想要购买H800 GPU的人依旧不为所动。”一家AI芯片公司的高管道出想要超越英伟达的难度。

技术出身,如今已是芯片公司高管的洪杰深谙其中的道理,“客户对AMD的要求和对英伟达产品的要求一样,有的时候甚至更苛刻,客户愿意买单的替代产品是比英伟达的GPU便宜,体验还要差不多。” “采购英伟达GPU量最大的公司还没有第二供应商。”洪杰感叹,“不得不承认英伟达的强大,现阶段不要说超越英伟达,成为二供都很难。” 困难的事情往往收益很高,像是字节跳动这类大客户,每年采购英伟达GPU的订单金额就接近百亿元。只要能从英伟达嘴里分到几十亿的市场份额,就足够养活几家国内的AI芯片公司。 离开AMD创业的人成为二供的概率会更大吗?欢迎添加文章作者微信BENSONEIT聊聊离开AMD的人。

「追随派」和「创新派」争抢大模型

国内AI大芯片初创公司非常特别,有跟随英伟达路线做GPGPU的初创公司,可以叫他们“追随派”。也有另辟蹊径,设计AI专用芯片(也就是DSA,Domain Specific Architecture,领域专用架构)的“创新派”。 这是一个非常有趣的现象,因为在国外只有创新派没有追随派,也就是没人选择走GPGPU的技术路线创业。 “所有人都知道,沿着英伟达的路径不可能超越英伟达,这几乎是不证自明的事情。并且,西方的创业者更喜欢做颠覆式创新。”洪杰分析,“寻求颠覆式创新的架构师们对AI计算问题的理解与定义不同,自然也计出了各种不同的AI芯片架构。” 谷歌定义的TPU专用性很强,是一个典型的领域专用芯片DSA。

被誉为全球AI芯片独角兽的SambaNova Systems选择了可重构架构。Cerebras Systems走了一条直接用晶圆做芯片的路。英国AI芯片独角兽Graphcore创造了独特的IPU架构。 国内也有多家走DSA路径创业的AI大芯片公司,比如寒武纪、昆仑芯、燧原科技、瀚博半导体、墨芯人工智能。 “选择DSA路径创业还有一个优势,核心IP设计门槛相对较低。”芯片编译器专家德辉打了个比方, 用搭乐高来理解设计GPGPU和DSA的难度,设计GPGPU就是面向18岁以上玩家的乐高,有许多精细的小模块,拼起来难度大但作品很精巧。设计DSA就像是面向5岁的乐高,模块更大拼起来更容易。

“DSA的门槛可以很低,上限也可以很高。”宇阳说,“ GPU也是一个DSA。最初的GPU图形专用加速芯片,没有可编程性,后来英伟达为其增加了通用性之后才变成了GPGPU。” 英伟达将GPU变为大众认知里的通用芯片,也是通过了近20年的努力,从建立CUDA软件生态到成熟,让GPGPU能做图形加速,AI计算,科学计算。 “从技术维度,区别CPU和DSA可以看其是否能运行Windows、Linux这样的操作系统。”宇阳补充,“从这个角度看GPU依旧是DSA。” 只是在大部分人眼里,英伟达的GPGPU已然成为了一颗通用芯片,在当下最为火热的AI市场里供不应求。

早已看到英伟达GPGPU强大的中国创业者,直接选择了GPGPU架构进行创业,就像天数智芯、登临科技、壁仞科技、海飞科。 “选择GPGPU的路径虽然不能超越英伟达,但有国产替代的刚需,而且这条路线可以通过多种技术方案做到‘兼容CUDA’,降低用户的软件切换成本。”浩然直言,“有了国产替代的需求,让中国大芯片创业公司有机会与英伟达竞争,并且最终一定会留下几家AI大芯片的公司。” 这时谁能吃下大模型的问题就变成了追随派和创新派的机会谁更大?

两派相争,创新派已死?

一个非常犀利的观点是,DSA已死。这是一个极具争议性的话题,探讨这个话题可以添加作者微信BENSONEIT。 这种论调核心的逻辑是英伟达编程性很强的GPGPU已经通过了AI大模型的验证,在Transformer让AI算法趋于收敛的现状下,英伟达可以通过手工优化底层代码,高效调度底层硬件获得持续的性能提升,让已经流片量产的DSA不再拥有设计之初的巨大性能优势。 “算法不确定的时候,英伟达没有动力针对某个算法做手工优化。这让针对某类算法(比如CNN)的DSA可以有2倍甚至更多的性能优势。”浩然对DSA的未来有些悲观。

“现在算法和模型收敛,英伟达进行手工优化可以充分释放出硬件的性能,每一代CUDA升级都会带来10-20%的性能提升。而通过底层硬件固化实现性价比优势的DSA要持续通过软件优化提升性能的难度很大,极端的情况软件甚至没有多大的提升空间。” 德辉从他擅长的编译角度解释,Flash Attention系列工作在大模型上的惊艳效果,正是说明针对特定模型的手工融合大算子是一种典型手段,本质是通过手工将特定的模型子结构从存储受限(memory bound)转化成了计算受限(compute bound),最大程度发挥出了GPU的计算性能。 “这种方式只是做了局部的优化,手工成本比较高,也难以大规模推广。”德辉不认为DSA已死,“只有拥有一个能够自动生成融合算子的编译器,GPU才能最大程度发挥出性能优势。但自动编译CPU做了几十年也没做出来,这是一个业界难题。” 比编译器更底层的芯片架构,也决定着计算AI大模型任务的效率。

宇阳也指出了GPU架构的局限性,GPU为了保证很强的编程性,在架构上借鉴了CPU的设计,芯片上没有缓冲器(Buffer),每次操作的对象只能是寄存器,典型寄存器大小是个很短的向量,比如64字节,这是保证编程灵活性的最好设计,但数据要不断在芯片内部和外部存储之间搬运,效率不高。 “AI大模型动辄就是上百亿个参数,要提升计算效率需要尽量减少数据的搬移。DSA可以为大模型设计很大的片上缓存,一次可以操作64字节的上千倍,相比GPGPU有明显优势。”宇阳指出。 两者的差别非常明显,GPGPU计算 AI模型时计算单元的利用率一般情况下只有30%-40%,而DSA一般都能做到计算单元的利用率达到80%-90%。 “许多人没看到DSA的核心价值——数据流优化。”德辉的经验告诉他,“通过充分发挥DSA片上有的大存储器(SRAM)优势,利用编译器进行彻底优化,实现理想的图编译,每一层都把大模型计算的存储受限转化为计算受限,能够最大化DSA的优势。” 而DSA的优势没被充分挖掘出来,还是因为许多DSA芯片公司都在用英伟达的思路设计软件。

“用英伟达GPGPU的方法设计软件既是一个思维定式,也是一个经过验证成功的路,风险更低。并且,要针对DSA的优势用另外的思路设计编译器,也有技术上的挑战,比如打破算子边界带来的复杂性。”这是德辉的心得。 即便再看好DSA,宇阳和德辉都没有否认未来的趋势是混合DSA。

专用和通用融合才是大模型的最优解

“一个完美的AI大模型处理器应该是用T4 GPU的计算核心,用H100 GPU的显存。”洪杰用一个形象的说法道出大模型的真实需求。 而兼具通用性和专用性的混合DSA芯片才是满足大模型需求的理想产品,未来AI芯片公司的比拼是混合DSA。 6年前,英伟达的Volta架构首次为深度学习加入了Tensor Core,此后的每代架构都不断优化Tensor Core,增强GPU的AI性能。 2022年发布的H100 GPU,又增加了软硬结合的Transformer Engine,目的是加速AI大模型计算。 Tensor Core和Transformer引擎,都是为AI工作流设计的专用计算单元。也就是说,英伟达早就在“通用”的GPGPU上增加了“专用”的AI加速单元,这种融合设计兼顾了GPGPU的通用性,又能发挥专用加速单元的能效比优势,更像是大模型的最优解。

这里有一个会让人费解的问题,既然AI模型都稳定了,为什么不是设计一个Transformer专用的加速芯片,还需要通用性? “算法的类别虽然从几千种变成几百种,但还在不断优化,只有具备足够的通用性,才能最大化芯片的价值。”宇阳解释。 “从芯片的设计规律看,设计一个Transformer专用加速芯片,去‘赌’未来三至五年内不会有新的模型结构颠覆性的替换掉Transformer,也是一个非常疯狂的想法。”浩然补充。 那混合DSA的路线明确之后,各家芯片的差异会如何体现? “混合DSA其实就是在通用的CPU和纯粹专用的DSA之间找一个平衡点。不同的架构师选择的点会完全不一样,但到底谁的设计更好,需要时间的检验。因为架构的设计不是一个纯粹的技术问题,还与当时所处的时间,环境有很大关系。”宇阳这样认为。 其中有赌的部分,浩然说,“混合DSA的片上存储(SRAM)非常贵,因为需要占用的芯片面积非常大,所以到底设计多大的SRAM,需要赌。”

最终混合DSA芯片之间差异将会很小。 “就像如今安卓系统和iOS系统越来越像一样,最后能够留下来的混合DSA架构的AI芯片,可能也是80%相同,只有20%不同。”洪杰做出了这样的判断。 但在走到这一天之前,混合DSA还有一个巨大的难题——比GPGPU和DSA都更复杂的软件栈。这很容易理解,既然是将两种架构融合,系统就更加复杂,难度自然也更大。 当然,更明确的算法又能降低软件开发和优化的难度。 此时,就可以回到最初的问题,中国芯片公司谁能喝到大模型的汤?

谁能更快吃上大模型?

商业的成功不是单纯的技术路线“好坏”就可以决定,现在可以看到的是,跟随派转向混合DSA的技术难度相对低一些,创新派有RISC-V CPU可选,可谓各有优劣。具体到每一家公司的时候,情况又各不相同。 “GPU的众核(Many Core)设计,相比DSA的设计难度更大,所以已经设计出GPGPU的初创公司,再增加一个DSA,比DSA增加一个GPGPU的难度小一些。”浩然从众核设计的难度判断各家芯片公司面临的挑战大小。 “GPU的一致性控制确实很难。”宇阳部分认同浩然的观点,“但增加可编程性并不一定就是要做一个GPGPU,有很多路径可选。” 德辉就非常看好RISC-V CPU加上DSA的混合DSA,“RISC-V CPU可以提供向量计算,并且有足够的通用性,与DSA混合是一个不错的选择。” 这种混合DSA方式要自己建立软件生态,需要投入的资源巨大。

“芯片要落地非常关键的是要接受客户的批评和质疑,然后务实地迭代。”洪杰的想法是,“芯片公司要把客户不愿做的活都做了,比如迁移芯片的大量工作,让客户可以无感迁移,但这需要极大的人力和时间的投入。” 相比之下,DSA路径的公司想兼容CUDA生态的难度比GPGPU路径的公司难度更大。

但对于走GPGPU路径创业的公司也不是一件容易的事情,要兼容英伟达的CUDA生态,硬件设计和软件都要尽量接近英伟达,才能实现接近英伟达GPU的性能。 “AMD就是走兼容英伟达的路,国内公司走这条路的天花板就是AMD。”德辉指出,“在部分场景做到英伟达80%的体验没有问题,但超越不了英伟达。” 再大致看看各家的情况,追随派里天数智芯和登临科技具有先发优势,壁仞科技也被多位内工程师视作黑马。 创新派里的寒武纪受到美国禁令的限制前途难料;燧原科技每一代产品都采用了HBM(高带宽存储器)适合大模型,但和其它公司一样,软件是个不小的挑战。 注意一个时间点,2025年英特尔计划推出融合其GPU和DSA的新一代AI芯片,那时候AI芯片的竞争将会更加激烈。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    743

    浏览量

    36600
  • DSA
    DSA
    +关注

    关注

    0

    文章

    47

    浏览量

    14982
  • TPU
    TPU
    +关注

    关注

    0

    文章

    132

    浏览量

    20546
  • AI芯片
    +关注

    关注

    17

    文章

    1652

    浏览量

    34383
  • ChatGPT
    +关注

    关注

    27

    文章

    1408

    浏览量

    4746

原文标题:哪家中国芯片公司能「吃下」大模型?

文章出处:【微信号:ICViews,微信公众号:半导体产业纵横】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    3000家中国芯片公司归宿在哪?

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2024年03月22日 15:36:26

    制造业难题:如何解决中国芯片产业的瓶颈

    中国芯片产业需要加速研发和创新,以提高其自主设计和生产的芯片的质量和性能。中国芯片公司需要向更高级的领域发展,例如人工智能、物联网和大数据
    的头像 发表于 01-30 16:34 727次阅读

    中国芯片企业芯片完全解析

    AI 算力、低功耗等对服务器算力芯片提出新的要求,英伟达 GH200 有望加速全球 AI 服务器算力芯片市场变革,中国芯片企业在面临挑战的同时,也有望迎来发展机遇。
    的头像 发表于 01-22 15:07 1181次阅读
    <b class='flag-5'>中国芯片</b>企业<b class='flag-5'>芯片</b>完全解析

    刚刚,又一家中国传感器公司被美国拉黑!这24家国产传感器实体仍被制裁!(附全名单)

    今日(12月20日),美国商务部又将13家中国实体列入“未经核实清单”(UVL清单),本次被“拉黑”的实体大部分为电子类企业,值得一提的是包含了一家国产传感器公司。 据相关统计,截止2023年12
    的头像 发表于 12-21 08:45 2876次阅读
    刚刚,又一<b class='flag-5'>家中国</b>传感器<b class='flag-5'>公司</b>被美国拉黑!这24家国产传感器实体仍被制裁!(附全名单)

    #中国芯片 #中国制造 #芯片封装 外媒分析:中国芯片产业迎来转折点

    芯片封装
    深圳市浮思特科技有限公司
    发布于 :2023年10月23日 15:33:30

    3310亿!中国芯片公司总资产排名

    来源:芯极速、爱集微 编辑:感知芯视界 Link 总资产,是指一个企业所有资产的总和,是企业拥有的经济实力的重要指标。爱集微通过整理分析181家中国芯上市公司的公开财报信息,发布《中国芯上市
    的头像 发表于 10-10 13:58 418次阅读
    3310亿!<b class='flag-5'>中国芯片</b><b class='flag-5'>公司</b>总资产排名

    闪耀“中国芯” 华大北斗荣获2023年“中国芯”优秀技术创新产品奖

    ,载誉而归。此次华大北斗斩获“中国芯”优秀技术创新产品奖,再次体现了其在北斗GNSS卫星导航定位芯片领域收获的行业认可。未来,公司将继续通过核心产品研发创新和产业链持续布局,为推动
    发表于 09-22 14:46

    芯助力 | 诚邀您助力 “ 2023硬核中国芯 ” 评选

    一年一度 由国内领先半导体电子信息媒体芯师爷发起并主办的 “2023 硬核中国芯 ”评选活 动 火热进行中!作为中国芯片行业颇具专业性和影响力的奖项之一,“2023 硬核中国芯 ” 旨在表彰
    的头像 发表于 09-10 09:15 485次阅读
    芯助力 | 诚邀您助力 “ 2023硬核<b class='flag-5'>中国芯</b> ” 评选

    华为5g芯片哪家公司生产的?

    华为5g芯片哪家公司生产的? 华为5G芯片是由华为公司自主研发生产的,它是华为公司在5G领域付出巨大努力,取得重大成就的一个重要例证。5G
    的头像 发表于 09-01 15:11 1.4w次阅读

    中国芯片的发展前景

    随着科技的飞速发展,芯片作为信息技术的核心部件,对于现代社会的发展具有举足轻重的地位。近年来,中国政府高度重视芯片产业的发展,通过政策扶持、资金投入和人才培养等措施,推动中国芯片产业实
    的头像 发表于 08-02 11:27 6367次阅读

    中国芯片的发展前景

    随着科技的飞速发展,芯片作为信息技术的核心部件,对于现代社会的发展具有举足轻重的地位。近年来,中国政府高度重视芯片产业的发展,通过政策扶持、资金投入和人才培养等措施,推动中国芯片产业实
    的头像 发表于 07-31 16:51 2624次阅读

    中国芯片发展的曲折

    中芯国际是中国芯片行业中的领军企业之一,不过其在制程技术上已经落后了几代,一直在积极研发14nm芯片。然而,根据最新消息,中芯国际不得不宣布,公司部分芯片制造设备被美国政府列入出口管制
    的头像 发表于 07-31 16:13 1615次阅读

    龙芯、鲲鹏、海光等国产CPU厂商,联手打开中国芯片行业崛起之路

    前些日,美媒《华尔街日报》发布了一篇文章,引用数据和数名专家的论证指出:美方对中国芯片的严厉监管对中国芯片技术的发展起到了反作用,促使多家中国龙头科技公司加快研究步伐和实现创新。事实也
    的头像 发表于 06-14 09:54 1481次阅读

    美国能否撕碎中国芯的“遮羞布”?

    随后,美国最大的半导体公司英特尔正式宣布,将于今年第四季度公布本公司的新一代芯片技术“美国芯片——”,并公开表示:“将撕掉中国芯片的耻辱。”
    的头像 发表于 06-01 10:00 1908次阅读

    三成企业降薪!中国芯上市公司人均薪酬排行榜出炉

    周期、供给错配影响,不少企业为了降本增效纷纷裁员降薪,而另一方面,全球产业格局正在重塑,对人才的需求也空前旺盛,也有不少企业通过高薪吸引人才。爱集微通过整理分析173家中国芯上市公司的公开财报信息,发布中国芯上市
    的头像 发表于 05-29 09:30 416次阅读