0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

不再焦虑GPU供应,8芯片挑战5万亿参数大模型

E4Life 来源:电子发烧友网 作者:周凯扬 2023-09-27 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)随着LLM与生成式AI热度不减,不少AI芯片初创公司都找到了新的发力点,纷纷调整设计思路,专为这一爆款应用开发出了新款芯片。且不说这些芯片的实际性能如何,但这无疑是当下推动这些公司获得投资,并在行业下行期存活下去的救命稻草。今天我们就来聊聊刚发布新品SN40L的AI芯片初创公司SambaNova。

SN40L背后的SambaNova

SambaNova成立于2017年,截至目前已经历了共计6轮融资,参与融资的公司包括谷歌、英特尔和软银等,融资总额高达11亿美元。只不过最近的D轮融资,距今已经有两年多的时间,也难怪SambaNova急于推出SN40L这一芯片,毕竟此类初创公司的开发从来都是烧钱的。

其实在SN40L推出以前,SambaNova也并非默默无闻,比如美国阿贡国家实验室早在第一代产品SN10推出时就在使用和测试SambaNova的系统了,只不过届时基于SN10的SambaNova Dataflow系统还只是用于消除数据噪声而已。

如果我们现在看阿贡国家实验室的ALCF AI测试平台,我们可以看到5大系统,分别是Cerebras的CS2、SambaNova的Dataflow、Graphcore的Bow Pod64、Grop系统以及Habana的Gaudi。而目前用于ALCF AI测试平台的SambaNova Dataflow就是基于SN40L的上一代产品SN30 RDU打造的,该芯片基于台积电的7nm工艺打造。

目前SN30用在阿贡国家实验室的这套系统主要用于一些科学研究领域的AI计算,比如中微子物理、癌症预测、气候建模以及下一代汽车引擎研发等。而我们真正关注的是刚发布的SN40L,以及它在LLM这一应用上能提供何种不同的优势。

英伟达GPU的替代方案

目前LLM的主流方案,即英伟达的A100、H100 GPU,存在一个很大的问题,那就是缺货。对于任何互联网厂商来说,在市面上找到足够多的GPU都是一件费钱费力的事。而对于云服务厂商来说也是如此,他们也要考虑出租这类服务器时,GPU的算力与容量分配问题。

wKgaomUTgVGAKNovADO8XqFE2PU092.png
SN40L芯片和CEO Rodrigo Liang / SambaNova


为了解决“数量”的问题,SambaNova推出了SN40L。相较上一代的SN30,该芯片基于台积电5nm工艺打造,每个芯片集成了1020亿个晶体管和1040个核,算力高达638TFlops。更夸张的是,SambaNova称单个SN40L系统节点(8块SN40L芯片)就能支持到最高5万亿参数的大模型。

与其他AI芯片初创公司不一样的是,他们并没有选择直接将芯片卖给其他公司这条路线,而是选择了售卖访问其定制AI技术栈的访问权,包括其自研硬件和运行超大模型的软件等。这种商业模式或许能吸引一部分互联网公司,但在云服务厂商眼中,他们应该不会觉得这是一套可盈利的方案。

此外,SambaNova与其他竞争对手一样,在AI芯片上引入了64GB HBM用于解决内存墙的问题,这也是SN40L与上一代芯片的差异之一。只不过SambaNova并没有透露SN40L用的是何种HBM,以及带宽性能如何。

写在最后

虽然SambaNova展示了提高LLM扩展性的另一条道路,但在没有经过实际验证之前,市场还是会对其持观望态度。此前也有不少AI芯片公司发表过同样大胆的声明,但事实证明这类芯片只适合用于运行那些预训练完成的模型,而训练过程仍需要靠GPU来完成。所以哪怕SambaNova的CEO Rodrigo Liang强调SN40L的训练性能足够优秀,但是否能在这套商业模式下闯出一片天,就得交由市场去验证了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5100

    浏览量

    134478
  • SambaNova
    +关注

    关注

    0

    文章

    7

    浏览量

    361
  • SN40L
    +关注

    关注

    0

    文章

    2

    浏览量

    125
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    苹果AI革命:M5芯片10核GPU、AI处理速度翻倍,Apple Glass在路上

    三款核心设备。这一场苹果围绕M5芯片AI硬件的革新,也成为苹果迈进AI时代以端侧大模型和空间计算的又一成绩。     3nm+10核GPU革命,AI算力暴增4倍 苹果官网介绍,M
    的头像 发表于 10-19 01:13 9881次阅读
    苹果AI革命:M<b class='flag-5'>5</b><b class='flag-5'>芯片</b>10核<b class='flag-5'>GPU</b>、AI处理速度翻倍,Apple Glass在路上

    紫光国芯存储芯片国产替代方案:打破DDR5/HBM芯片供应链瓶颈

    可控。市场需求与供应链现实:DDR5及HBM的技术价值与挑战AI大模型、智能计算等应用场景的爆发,对数据处理的通量和效率提出了极为苛刻的要求,这直接推动了存储技术
    的头像 发表于 10-10 16:41 1347次阅读
    紫光国芯存储<b class='flag-5'>芯片</b>国产替代方案:打破DDR<b class='flag-5'>5</b>/HBM<b class='flag-5'>芯片</b><b class='flag-5'>供应</b>链瓶颈

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的还是知道的,FPGA属于AI芯片这个真不知道,以为它是数字
    发表于 09-12 16:07

    浪潮信息发布&quot;元脑SD200&quot;超节点,面向万亿参数模型创新设计

    扩展支持64路本土GPU芯片。元脑SD200可实现单机内运行超万亿参数模型,并支持多个领先大模型
    的头像 发表于 08-08 22:17 532次阅读
    浪潮信息发布&quot;元脑SD200&quot;超节点,面向<b class='flag-5'>万亿</b><b class='flag-5'>参数</b>大<b class='flag-5'>模型</b>创新设计

    ‌Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 倍提速背后的黑科技

    Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 倍提速背后的黑科技‌ 最近,Moonshot AI 的千亿参数模型 ‌Kimi K2‌ 在 ‌GroqCl
    的头像 发表于 08-07 10:01 657次阅读

    面向万亿参数模型,“超节点”涌现

    UniPoD系列超节点产品,旨在为万亿参数模型的训练与推理提供更强劲、更智能且更绿色的算力支持。   H3C UniPoD系列超节点产品基于领先的Scale-up南向互联技术,可实现单机柜最高64卡
    的头像 发表于 08-03 02:37 8367次阅读
    面向<b class='flag-5'>万亿</b>级<b class='flag-5'>参数</b>大<b class='flag-5'>模型</b>,“超节点”涌现

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程中,GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要挑战
    的头像 发表于 07-23 10:34 2048次阅读
    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行<b class='flag-5'>GPU</b>性能分析

    万亿参数!元脑企智一体机率先支持Kimi K2大模型

    北京2025年7月21日 /美通社/ -- 浪潮信息宣布元脑企智一体机已率先完成对Kimi K2 万亿参数模型的适配支持,并实现单用户70 tokens/s的流畅输出速度,为企业客户高效部署
    的头像 发表于 07-22 09:27 406次阅读
    <b class='flag-5'>万亿</b><b class='flag-5'>参数</b>!元脑企智一体机率先支持Kimi K2大<b class='flag-5'>模型</b>

    模型推理显存和计算量估计方法研究

    GPU、FPGA等硬件加速。通过分析硬件加速器的性能参数,可以估算模型在硬件加速下的计算量。 四、实验与分析 为了验证上述估计方法的有效性,我们选取了几个具有代表性的深度学习模型,在多
    发表于 07-03 19:43

    为什么无法在GPU上使用INT8 和 INT4量化模型获得输出?

    安装OpenVINO™ 2024.0 版本。 使用 optimum-intel 程序包将 whisper-large-v3 模型转换为 int 4 和 int8,并在 GPU 上使用 OpenVINO™ 运行推理。 没有可用的
    发表于 06-23 07:11

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知
    发表于 06-18 19:31

    请问如何在imx8mplus上部署和运行YOLOv5训练的模型

    我正在从事 imx8mplus yocto 项目。我已经在自定义数据集上的 YOLOv5 上训练了对象检测模型。它在 ubuntu 电脑上运行良好。现在我想在我的 imx8mplus
    发表于 03-25 07:23

    无法在GPU上运行ONNX模型的Benchmark_app怎么解决?

    在 CPU 和 GPU 上运行OpenVINO™ 2023.0 Benchmark_app推断的 ONNX 模型。 在 CPU 上推理成功,但在 GPU 上失败。
    发表于 03-06 08:02

    GPU是如何训练AI大模型

    在AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练AI大模型的。
    的头像 发表于 12-19 17:54 1345次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟:通过加速对话框启用,打开求解器对话框,点击“加速”按钮,打开“硬件加速”并
    发表于 12-16 14:25