0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

只能跑Transformer的AI芯片,却号称全球最快?

E4Life 来源:电子发烧友 作者:周凯扬 2024-07-01 09:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)近日,一家由哈佛辍学生成立的初创公司Etched,宣布了他们在打造的一款“专用”AI芯片Sohu。据其声称该芯片的速度将是英伟达H100的20倍,但只能跑transformer架构的模型。

Sohu,比H100快上20倍

之所以打算Sohu这一自研ASIC AI芯片,是因为Etched认为GPU在性能升级上的速度太慢了。如果以H100的单位面积算力和交期作为参考,那么从2022年到2025年,英伟达的H100迭代至B200,2.5年的时间内性能只有15%的提升。所以要想有效提高性能的方式,只有走特化的ASIC芯片一途。

现在发布的任何AI芯片,在提到性能时,无疑都会把英伟达的H100作为对比参照,Etched的Sohu也不例外。根据Etched提供的数据,单个Sohu服务器运行Llama 70B时可以做到50万Tokens每秒,这一速度是单个H100服务器的20倍以上,也是单个B200服务器的10倍以上。

在服务器的配置上,Sohu服务器和H100服务器均采用的8卡的配置,所以Etched强调一个8xSohu的服务器就可以替换掉至少160个H100,大大降低成本的同时,也不会有性能损失。

由于Sohu仅支持一种算法,所以绝大多数的控制流模块都可以被剔除,芯片可以集成更多的数学计算单元,在算力利用率上可以达到90%以上,而GPU却只能做到30%。这也是因为在GPU的电路设计上,用于矩阵乘法的晶体管数量甚至没有占到10%。不过Etched对于英伟达的设计还是相当佩服的,指出如果同时想支持CNN、LSTM、SSM等其他模型,确实很难做得比英伟达更好。

当然了,这里的测试条件也必须做一个说明,测试标准为FP8精度的Llama 70B,无稀疏,其中H100是基于最新版本的TensorRT-LLM测试的,而B200由于还未交付,所以其性能是预估的。

为何专攻Transformer模型

市面上的AI芯片和GPU产品为了覆盖更灵活的客户需求,尽管不少都采用了ASIC的设计方案,但支持的模型却不会局限在一类。Etched也在其官网列出了市面上一些竞品方案,包括英伟达的GPU、谷歌的TPU、亚马逊的Trainium、Graphcore的IPU、Tenstorrent的Grayskull和英特尔的Gaudi等等,这些方案无一不对广泛的AI模型提供了支持。

但我们从市面上头部的模型来看,几乎占据主导地位的都是transformer架构的模型,比如GPT、Sora、Gemini和Stable Diffusion。Etched很大方地表示,如果哪一天transformer被SSM、RWKV或其他新的架构替代了,他们的芯片将变得一无是处,对于千变万化的AI市场而言,绝大多数厂商都不敢没法做出这样的预测。

而Etched从2022年底,就赌transformer模型将会统治整个市场。这在当时还没有ChatGPT的年代,是一个大胆的预测,毕竟当时图像生成还有基于CNN的U-Net,不少自动驾驶的视觉处理也还在广泛使用CNN。而且对于一个规模不算大的设计团队而言,维护单一架构的软件栈明显压力更小一些,他们只需要为transformer编写驱动、内核即可。

写在最后

至于Etched的这场豪赌是否能成功,还得看芯片的成品表现如何。虽然他们尝试的这条路线没人走过,但财力和研发能力均在他们之上的厂商也没能打造出超过英伟达GPU的竞品,硅谷的VC们能否造出新神,依然不能过早下定论。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6808
  • AI芯片
    +关注

    关注

    17

    文章

    2061

    浏览量

    36558
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    爱芯元智亮相2025全球AI芯片峰会

    2025全球AI芯片峰会(GACS 2025)近日在上海召开,爱芯元智联合创始人、副总裁刘建伟出席活动,并于“大模型AI芯片专题论坛”发表主
    的头像 发表于 09-26 15:49 668次阅读

    酷芯微电子亮相2025全球AI芯片峰会

    近日,2025全球AI芯片峰会在上海圆满举办。酷芯受邀参加《AI芯片架构创新专题论坛》,创始人兼CTO沈泊发表了题为《
    的头像 发表于 09-25 17:39 844次阅读

    Achronix亮相2025全球AI芯片峰会

    在近日举行的2025全球AI芯片峰会上,Achronix Speedster7t FPGA的大模型推理平台展示获得众多业界人士的积极反响。
    的头像 发表于 09-23 18:01 984次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片的实现 1、技术需求 AI取得成功
    发表于 09-18 15:31

    墨芯亮相2025全球AI芯片峰会

    2025全球AI芯片峰会于9月17日在上海成功举办。本届峰会汇聚了来自人工智能芯片领域的42位产学研专家及创业先锋代表,围绕“大模型下半场中国AI
    的头像 发表于 09-18 11:52 1178次阅读

    云天励飞亮相2025全球AI芯片峰会

    9 月 17 日,全球 AI 芯片峰会在上海举行,云天励飞董事长兼 CEO 陈宁出席并发表演讲。
    的头像 发表于 09-17 17:56 1084次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    AI芯片不仅包括深度学细AI加速器,还有另外一个主要列别:类脑芯片。类脑芯片是模拟人脑神经网络架构的芯片
    发表于 09-17 16:43

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    连接定义了神经网络的拓扑结构。 不同神经网络的DNN: 一、基于大模型的AI芯片 1、Transformer 模型与引擎 1.1 Transformer 模型概述
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    Transformer引擎③NVLink Switch系统④机密计算⑤HBM FPGA: 架构的主要特点:可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。 ASIC: 介绍了几种ASIC AI芯片
    发表于 09-12 16:07

    Achronix邀您相约2025全球AI芯片峰会

    9月17,Achronix 将已展台形式安排专业人员参加2025全球AI芯片峰会,期待与感兴趣朋友现场交流,地点:上海浦东喜来登由由大酒店。
    的头像 发表于 09-11 09:25 827次阅读

    睿海光电800G光模块助力全球AI基建升级

    全球数字化转型加速的背景下,超高速光模块作为数据中心与AI算力网络的核心部件,正经历从400G向800G、1.6T的迭代浪潮。在这一赛道中,深圳市睿海光电科技有限公司(以下简称“睿海光电”)凭借
    发表于 08-13 19:05

    2025端侧AI芯片爆发:存算一体、非Transformer架构谁主浮沉?边缘计算如何选型?

    各位技术大牛好!最近WAIC 2025上端侧AI芯片密集发布,彻底打破传统算力困局。各位大佬在实际项目中都是如何选型的呢?
    发表于 07-28 14:40

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    创新、应用创新、系统创新五个部分,接下来一一解读。 算法创新 在深度学习AI芯片的创新上,书中围绕大模型与Transformer算法的算力需求,提出了一系列架构与方法创新,包括存内计算技术、基于开源
    发表于 07-28 13:54

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 922次阅读
    <b class='flag-5'>Transformer</b>架构概述

    transformer专用ASIC芯片Sohu说明

    的旧图像模型,也不能运行CNN、RNN或LSTM。 但对于transformer来说,Sohu是有史以来最快芯片。 借助Llama 70B每秒超过50万个token的吞吐量,Sohu可以让您构建在GPU上无法实现的产品
    的头像 发表于 01-06 09:13 1670次阅读
    <b class='flag-5'>transformer</b>专用ASIC<b class='flag-5'>芯片</b>Sohu说明