不再焦虑GPU供应，8芯片挑战5万亿参数大模型-电子发烧友网

电子发烧友网报道（文/周凯扬）随着LLM与生成式AI热度不减，不少AI芯片初创公司都找到了新的发力点，纷纷调整设计思路，专为这一爆款应用开发出了新款芯片。且不说这些芯片的实际性能如何，但这无疑是当下推动这些公司获得投资，并在行业下行期存活下去的救命稻草。今天我们就来聊聊刚发布新品SN40L的AI芯片初创公司SambaNova。

SN40L背后的SambaNova

SambaNova成立于2017年，截至目前已经历了共计6轮融资，参与融资的公司包括谷歌、英特尔和软银等，融资总额高达11亿美元。只不过最近的D轮融资，距今已经有两年多的时间，也难怪SambaNova急于推出SN40L这一芯片，毕竟此类初创公司的开发从来都是烧钱的。

其实在SN40L推出以前，SambaNova也并非默默无闻，比如美国阿贡国家实验室早在第一代产品SN10推出时就在使用和测试SambaNova的系统了，只不过届时基于SN10的SambaNova Dataflow系统还只是用于消除数据噪声而已。

如果我们现在看阿贡国家实验室的ALCF AI测试平台，我们可以看到5大系统，分别是Cerebras的CS2、SambaNova的Dataflow、Graphcore的Bow Pod64、Grop系统以及Habana的Gaudi。而目前用于ALCF AI测试平台的SambaNova Dataflow就是基于SN40L的上一代产品SN30 RDU打造的，该芯片基于台积电的7nm工艺打造。

目前SN30用在阿贡国家实验室的这套系统主要用于一些科学研究领域的AI计算，比如中微子物理、癌症预测、气候建模以及下一代汽车引擎研发等。而我们真正关注的是刚发布的SN40L，以及它在LLM这一应用上能提供何种不同的优势。

英伟达GPU的替代方案

目前LLM的主流方案，即英伟达的A100、H100 GPU，存在一个很大的问题，那就是缺货。对于任何互联网厂商来说，在市面上找到足够多的GPU都是一件费钱费力的事。而对于云服务厂商来说也是如此，他们也要考虑出租这类服务器时，GPU的算力与容量分配问题。

SN40L芯片和CEO Rodrigo Liang / SambaNova

为了解决“数量”的问题，SambaNova推出了SN40L。相较上一代的SN30，该芯片基于台积电5nm工艺打造，每个芯片集成了1020亿个晶体管和1040个核，算力高达638TFlops。更夸张的是，SambaNova称单个SN40L系统节点（8块SN40L芯片）就能支持到最高5万亿参数的大模型。

与其他AI芯片初创公司不一样的是，他们并没有选择直接将芯片卖给其他公司这条路线，而是选择了售卖访问其定制AI技术栈的访问权，包括其自研硬件和运行超大模型的软件等。这种商业模式或许能吸引一部分互联网公司，但在云服务厂商眼中，他们应该不会觉得这是一套可盈利的方案。

此外，SambaNova与其他竞争对手一样，在AI芯片上引入了64GB HBM用于解决内存墙的问题，这也是SN40L与上一代芯片的差异之一。只不过SambaNova并没有透露SN40L用的是何种HBM，以及带宽性能如何。

写在最后

虽然SambaNova展示了提高LLM扩展性的另一条道路，但在没有经过实际验证之前，市场还是会对其持观望态度。此前也有不少AI芯片公司发表过同样大胆的声明，但事实证明这类芯片只适合用于运行那些预训练完成的模型，而训练过程仍需要靠GPU来完成。所以哪怕SambaNova的CEO Rodrigo Liang强调SN40L的训练性能足够优秀，但是否能在这套商业模式下闯出一片天，就得交由市场去验证了。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
27

文章
4417

浏览量
126705
SambaNova

SambaNova

+关注

关注
0

文章
7

浏览量
157
SN40L

SN40L

+关注

关注
0

文章
2

浏览量
30

Meta推出最强开源模型Llama 3 要挑战GPT

H100芯片的计算机集群训练Llama 3。Llama 3最大参数规模超4000亿，训练token超15万亿，训练数据规模差不多是Llama 2的七倍。而且训练效率比Ll

发表于 04-19 17:00 •456次阅读

大模型时代，国产GPU面临哪些挑战

，国产GPU在不断成长的过程中也存在诸多挑战。在大模型训练上存在差距大语言模型是基于深度学习的技术。这些模型通过在海量文本数据上

发表于 04-03 01:08 •3099次阅读

大<b class='flag-5'>模型</b>时代，国产<b class='flag-5'>GPU</b>面临哪些<b class='flag-5'>挑战</b>

FPGA在深度学习应用中或将取代GPU

现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题在过去的十年里，人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅

发表于 03-21 15:19

Groq推出大模型推理芯片超越了传统GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轰动，超越了传统GPU和谷歌TPU。

发表于 02-26 10:24 •387次阅读

Groq推出大<b class='flag-5'>模型</b>推理<b class='flag-5'>芯片</b> 超越了传统<b class='flag-5'>GPU</b>和谷歌TPU

揭秘GPU：高端GPU架构设计的挑战

在计算领域，GPU（图形处理单元）一直是性能飞跃的代表。众所周知，高端GPU的设计充满了挑战。GPU的架构创新，为软件承接大模型训练和推理场

发表于 12-21 08:28 •429次阅读

揭秘<b class='flag-5'>GPU</b>：高端<b class='flag-5'>GPU</b>架构设计的<b class='flag-5'>挑战</b>

能否在imx8 dxp芯片上使用GPU进行物体探测?

能否在 imx8dxp 芯片上使用 GPU 进行物体探测? 请告诉我如何执行。

发表于 11-13 06:15

柔性电子供应链企业的机会与挑战

制造业规模以上企业营业收入突破24万亿元。2024年，我国手机市场5G手机出货量占比超过85%，太阳能电池产量超过450吉瓦，高端产品供给能力进一步提升，新增长点不断涌现；产业结构持续优化，产业集群建设

发表于 09-15 11:37

迎产业东风，柔性电子供应链企业的机会与挑战

发表于 09-15 11:36

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练这些模型带来的硬件挑战，以及GPU和网络

发表于 09-01 17:14 •1115次阅读

训练大语言<b class='flag-5'>模型</b>带来的硬件<b class='flag-5'>挑战</b>

沐曦基于曦云C500发布国产首台GPU千亿参数大模型训推一体机

首台GPU千亿参数大模型训推一体机由数字宁夏倡议发起技术攻关，基于沐曦最新发布的曦云C500旗舰GPU芯片提供的算力支持、智谱华章的AI大

发表于 08-21 14:41 •2895次阅读

GPU上OpenVINO基准测试的推断模型的默认参数与CPU上的参数不同是为什么？

在 CPU 和 GPU 上推断出具有 OpenVINO™ 基准的相同模型： benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m

发表于 08-15 06:43

基于磁贴的GPU架构优缺点

将输出帧缓冲区渲染为几个不同的较小的子区域，称为平铺。然后，它在完成时将每个磁贴写出到内存中。在马里图形处理器上，这些瓷砖很小，每个瓷砖只有16x16像素。在本指南结束时，您将了解即时模式GPU和基于磁贴的GPU的主要优势和挑战

发表于 08-02 12:54

AI大模型的存储焦虑，如何被曙光消除？

大模型

脑极体
发布于 :2023年07月21日 22:37:10

Stability AI发布大型模型SDXL 0.9，并可以运行在消费级GPU上

据悉，SDXL 0.9是在所有开源图像模型中参数数量位居前茅，并且可以在消费级GPU上运行，还具备一个35亿参数的基础模型和一个66亿

发表于 06-26 09:41 •748次阅读

天数智芯通用GPU产品为大模型时代提供强大算力底座

第七届集微半导体峰会于6月初在厦门成功举办，上海天数智芯半导体有限公司（以下简称“天数智芯”）产品线总裁邹翾受邀参加“集微通用芯片行业应用峰会”，发表了题为“国产GPU助力大模型的实践”的主题演讲

发表于 06-08 22:55 •1029次阅读

搜索历史

不再焦虑GPU供应，8芯片挑战5万亿参数大模型

评论