0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌全新AI架构,单芯片每秒1000万亿次运算

独爱72H 来源:机器之心Pro 作者:机器之心Pro 2019-11-18 17:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(文章来源:机器之心Pro)

2016 年底,谷歌 TPU 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 TSP 的芯片架构出现在公众视野里。

TSP 的全称是 Tensor Streaming Processor,专为机器学习等 AI 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿(10 的 15 次方)次运算,是全球首个实现该级别性能的架构,其浮点运算性能可达每秒 250 万亿次(TFLOPS)。在摩尔定律走向消亡的背景下,这一架构的问世标志着芯片之争从晶体管转向架构。

250 TFLOPS 浮点运算性能是什么概念?目前的世界第一超级计算机 Summit,其峰值算力为 200,794.9 TFLOPS,它的背后是 28,000 块英伟达 Volta GPU。如果 TSP 达到了类似的效率,仅需 803 块就可以实现同样的性能。Groq 在一份白皮书中介绍了这项全新的架构设计。此外,他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。

我们为这一行业和我们的客户感到兴奋,Groq 的联合创始人和 CEO Jonathan Ross 表示。顶级 GPU 公司都在宣称他们有望在未来几年向用户交付一款每秒百万亿次运算性能的产品,但 Groq 现在就做到了,而且建立了一个新的性能标准。就低延迟和推理速度而言,Groq 的架构比其他任何用于推理的架构都要快许多倍。我们与用户的互动证明了这一点。

Groq 的 TSP 架构是专为计算机视觉、机器学习和其他 AI 相关工作负载的性能要求设计的。对于一大批需要深度学习推理运算的应用来说,Groq 的解决方案是非常理想的选择,Groq 的首席架构师 Dennis Abts 表示,但除此之外,Groq 的架构还能用于广泛的工作负载。它的性能和简洁性使其成为所有高性能即数据和计算密集型工作复杂的理想平台。

Groq 的这款架构受到软件优先(software first)理念的启发。它在 Groq 开发的 TSP 中实现,为实现计算灵活性和大规模并行计算提供了一种新的范式,但没有传统 GPU 和 CPU 架构的限制和沟通开销。在 Groq 的架构中,Groq 编译器负责编码所有内容:数据流入芯片,并在正确的时间和正确的地点插入,以确保计算实时进行,没有停顿。执行规划由软件负责,这样就可以释放出原本要用于动态指令执行的宝贵硬件资源。

在传统的体系架构中,将数据从 DRAM 移动到处理器需要大量的算力和时间,而且相同工作负载上的处理性能也是可变的。在典型的工作流中,开发人员通过反复运行工作负载或程序来对其进行配置和测试,以验证和度量其平均处理性能。由于处理器接收和发送数据的方式不同,这种处理可能会得到略有差别的结果,而开发人员的工作就是手动调整程序以达到预定的可靠性级别。

但有了 Groq 的硬件和软件,编译器就可以准确地知道芯片的工作方式以及执行每个计算所需的时间。编译器在正确的时间将数据和指令移动到正确的位置,这样就不会有延迟。到达硬件的指令流是完全编排好的,使得处理速度更快,而且可预测。

为了满足深度学习等计算密集型任务的需求,芯片的设计似乎正在变得越来越复杂。但 Groq 认为,这种趋势从根本上就是错误的。他们在白皮书中指出,当前处理器架构的复杂性已经成为阻碍开发者生产和 AI 应用部署的主要障碍。当前处理器的复杂性降低了开发者工作效率,再加上摩尔定律逐渐变慢,实现更高的计算性能变得越来越困难。

Groq 的芯片设计降低了传统硬件开发的复杂度,因此开发者可以更加专注于算法(或解决其他问题),而不是为了硬件调整自己的解决方案。有了这种更加简单的硬件设计,开发者无需进行剖析研究(profiling),因此可以节省资源,更容易大规模部署 AI 应用。与基于 CPU、GPU 和 FPGA 的传统复杂架构相比,Groq 的芯片还简化了认证和部署,使客户能够简单而快速地实现可扩展、单瓦高性能的系统。

Groq 的张量流架构可以在任何需要的地方提供算力。与当前领先的 GPU、CPU 相比,Groq 处理器的每个晶体管可以实现 3-6 倍的性能提升。这一改进意味着交付性能的提升、延迟的下降以及成本的降低。结果是,Groq 的架构使用起来更加简单,而且性能高于传统计算平台。

(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53535

    浏览量

    459139
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110261
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    看点:全球首颗!中国研发全新架构闪存芯片 OpenAI拉上巨头豪赌AI基建

    给大家带来一些业界消息: 全球首颗!中国研发全新架构闪存芯片 日前,复旦大学团队在《自然》发表成果,成功研制全球首颗二维—硅基混合架构闪存芯片
    的头像 发表于 10-10 18:20 1547次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    建立的基础: ①算力支柱②数据支柱③计算支柱 1)算力 与AI算力有关的因素: ①晶体管数量②晶体管速度③芯片架构芯片面积⑤制造工艺⑥芯片
    发表于 09-18 15:31

    适应边缘AI全新时代的GPU架构

    电子发烧友网站提供《适应边缘AI全新时代的GPU架构.pdf》资料免费下载
    发表于 09-15 16:42 36次下载

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    、Transformer 模型的后继者 二、用创新方法实现深度学习AI芯片 1、基于开源RISC-V的AI加速器 RISC-V是一种开源、模块化的指令集架构(ISA)。优势如下: ①模
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    ②Transformer引擎③NVLink Switch系统④机密计算⑤HBM FPGA: 架构的主要特点:可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。 ASIC: 介绍了几种ASIC AI芯片
    发表于 09-12 16:07

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    ,其中第一章是概论,主要介绍大模型浪潮下AI芯片的需求与挑战。第二章和第三章分别介绍实现深度学习AI芯片的创新方法和架构。以及一些新型的算法
    发表于 09-05 15:10

    AI 芯片浪潮下,职场晋升新契机?

    依曼架构下数据搬运瓶颈问题,降低功耗,提升运算效率,这种创新性成果在职称评审中会备受青睐。 用项目经验为职称申报添彩 实际项目经验是职称评审中最有力的证明材料。在参与 AI 芯片研发项
    发表于 08-19 08:58

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    创新、应用创新、系统创新五个部分,接下来一一解读。 算法创新 在深度学习AI芯片的创新上,书中围绕大模型与Transformer算法的算力需求,提出了一系列架构与方法创新,包括存内计算技术、基于开源
    发表于 07-28 13:54

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    套件2.0,打造了一整套围绕AI开发效率与落地路径展开的“系统性解法”,为开发者提供了AI应用开发工具全家桶。同时,全新升级的旗舰5G智能体AI芯片
    发表于 04-13 19:52

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    电子发烧友网报道(文 / 李弯弯)日前,谷歌在 Cloud Next 大会上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。据悉,该芯片预计于今年晚些时候面向 Go
    的头像 发表于 04-12 00:57 3208次阅读

    、多次对话与RTC对话AI交互模式,如何各显神通?

    在这个充满无限可能的AI时代,这些奇妙场景正逐步走进我们的生活。你可曾想象过,有一天家里的智能设备会化身相声演员,和你幽默对答?或者,你的玩具能像知心好友一样,陪你畅聊心事?对话、多次对话
    的头像 发表于 04-02 18:18 1927次阅读
    <b class='flag-5'>单</b><b class='flag-5'>次</b>、多次对话与RTC对话<b class='flag-5'>AI</b>交互模式,如何各显神通?

    曙光存储全新升级AI存储方案

    近日,曙光存储全新升级AI存储方案,秉持“AI加速”理念,面向AI训练、AI推理和AI成本等需求
    的头像 发表于 03-31 11:27 1045次阅读

    宝马发布全新一代智能电子电气架构

    "超级大脑"赋能宝马新世代车型智能驾驶乐趣 全新一代电子电气架构搭载新世代车型,覆盖全动力系统和全细分车型 全新一代电子电气架构集成算力提升20倍,支持
    的头像 发表于 03-13 15:42 548次阅读

    驱动 AI 边缘计算新时代!高性能 i.MX 95 应用平台引领未来

    TOPS (每秒万亿运算) 的运算能力。这使得推理计算的时间大幅缩短,例如,在运行常见的物体检测模型 YOLOv5 时,处理单张图片仅需
    的头像 发表于 03-11 08:59 846次阅读
    驱动 <b class='flag-5'>AI</b> 边缘计算新时代!高性能 i.MX 95 应用平台引领未来

    谷歌加速AI部门整合:AI Studio团队并入DeepMind

    近日,谷歌正紧锣密鼓地推进其人工智能(AI)部门的整合工作。据谷歌AI Studio主管Logan Kilpatrick在领英页面上的透露,谷歌
    的头像 发表于 01-13 14:40 1139次阅读