0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

二代IPU性能超过GPU且全面支持PyTorch

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2020-12-30 15:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

“不管是在今天 GPU 能够做的事情上,还是 GPU 不能做的事情上,IPU 都有它的价值点和价值定位。” 日前,在英国 AI 芯片初创公司 Graphcore 中国区的媒体沟通会上,Graphcore 高级副总经理兼中国区总经理卢涛和 Graphcore 中国工程总负责人、AI 算法科学家金琛,就 Graphcore 的新产品性能以及该公司在中国的落地策略向 DeepTech 等媒体进行了同步。

沟通会上,Graphcore 解读了其于本月公布的大规模系统级产品 IPU-M2000 的应用测试数据。公布数据显示,在典型 CV 模型 ResNet、基于分组卷积的 ResNeXt、EfficientNet、语音模型、BERT-Large 等自然语言处理模型以及 MCMC 等传统机器学习模型中,IPU-M2000 在吞吐量、训练时间和学习结果生成时间方面都有较好表现。比如,在 IPU-M2000 上 EfficientNet 的吞吐量达到 A100 的 18 倍。

bf6a28a2-4a2e-11eb-8b86-12bb97331649.jpg

图 | IPU-M2000 与 GPU 的吞吐量、训练及结果生成时间对比(来源:Graphcore)

此前,IPU-M2000 与 Graphcore 第二代 IPU 处理器 GC200 已于今年 7 月 15 日发布。据介绍,GC200 芯片基于台积电的 7nm 工艺制造,集成 250 TFlops AI-Float 算力和 900MB 处理器内存,相较第一代产品性能提升 8 倍。而对于第三代 IPU,卢涛在此次沟通会上并未透露发布的具体时间表,不过他表示下一代产品正在研发中,将依旧重点解决存储问题。

支持 PyTorch、TensorFlow,在 IPU 与 GPU 间无缝衔接

另外,Graphcore 还发布了 Poplar SDK 1.4 版本和 PyTorch 的 IPU 版本。

Graphcore 对 Poplar SDK 1.4 版本在易用性和速度上进行了优化,能够支持模型和数据并行,同时能够实现模型的横向扩展 —— 从 1 个 IPU 横向扩展到 64 个 IPU。金琛表示,下一版本的 Poplar SDK 有望实现横向扩展到 128 个 IPU。

值得关注的是,除支持 Graphcore 的自研框架 PopART 外,Poplar SDK 1.4 还支持 Facebook 的 PyTorch 框架、以及 Google 的 TensorFlow 框架。

据金琛介绍,Graphcore 在 PyTorch 代码中引入了 PopTorch 轻量级接口,通过这一接口,用户可基于当前的 PyTorch 模型进行封装,以实现 IPU 和 CPU 之间的无障碍衔接。

对于实现这一功能的核心技术,金琛做进一步解释说,Graphcore 采用 PyTorch 里的 jit.trace 机制对计算图进行编译,转化为 IPU 和 PyTorch 兼容的表达格式,最后用 Graphcore 自研框架 PopART 后端的 audiff 功能自动生成反向图,便可以实现同一个模型在不同平台的无差别运行。

目前,PyTorch 因其直观易懂、灵活易用等优势受到开发者的广泛喜爱和应用。Poplar SDK 1.4 增加了对 PyTorch 的支持,策略上是希望用户在 IPU 上也能体验 PyTorch,让用户多一个转战 IPU 的理由。不过目前英伟达的 GPU 已经在 AI 计算领域占据大部分市场,此时 IPU 能够提供的价值、转场到 IPU 的成本等,都是用户所要考虑的问题。

在迁移成本上,卢涛表示,经过几年来对 Poplar SDK 的打磨,现在从 GPU 到 IPU 的软硬件迁移难度已经比大家认为的小得多。

金琛补充道,在训练上,针对一个不太复杂的模型,一般一周可以迁移完成,对于复杂的模型大概需要两周;在推理上,基本上是 1-2 天的工作量。

谈及性能,卢涛表示:“IPU 在训练推理、语音、图像模型处理上基本全面超越 GPU。” 不过他也坦言:“不能说 100% 超越了 GPU,因为算法模型确实非常多,比如说语音有不同的语音模型、图像也是有不同的图像模型。”

未来:持续优化性能,进一步压缩迁移成本

IPU 在机器学习性能上的明显优势是不可否认的,但前有身强体壮且努力奔跑的巨头英伟达,Graphcore 更是一刻也不容懈怠。卢涛在沟通会上也多次提到,“目前 Graphcore 面对的压力最主要还是来自英伟达”。

“重压” 之下,Graphcore 短期内的计划是聚焦在数据中心高性能训练和推理市场上,持续打磨 IPU 和软件平台,持续优化性能和提高可用性。卢涛说,“只有在我们聚焦的领域跑得更快,Graphcore 和英伟达之间的距离才会越来越短,甚至在某些领域超过英伟达”。

他还表示,Graphcore 希望未来数年内,能在数据中心的 AI 训练、推理批量部署、以及发货和体量上做到除英伟达以外的另一个头部地位。

为实现该目标,Graphcore 也将从增加 AI 框架支持、以及模型覆盖两个维度着手,以期进一步减少用户的迁移成本。此外,除目前 AI 应用最广泛的互联网和云计算两个场景外,卢涛表示公司明年还将在金融、汽车、智慧医疗、智慧教育、智慧城市和政府服务等领域,至少突破一到两个比较主流的领域。

原文标题:二代IPU性能超过GPU、全面支持PyTorch,Graphcore接下来将聚焦数据中心的AI训练和推理部署

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5321

    浏览量

    136206
  • AI
    AI
    +关注

    关注

    91

    文章

    41972

    浏览量

    303061
  • IPU
    IPU
    +关注

    关注

    0

    文章

    35

    浏览量

    16010
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14953

原文标题:二代IPU性能超过GPU、全面支持PyTorch,Graphcore接下来将聚焦数据中心的AI训练和推理部署

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小鹏发布 X-World 世界模型:已全面应用第二代VLA

    二代 VLA 自动驾驶系统的研发、仿真与验证,标志着自动驾驶从 路测驱动 迈入 世界模型驱动 的新阶段。 何为 X-World? X-World 是基于视频扩散生成技术构建的多视角生成式世界模型,可理解为自动驾驶系统的 大脑预演模拟器。它以车辆 7 路环视摄像头历史
    的头像 发表于 04-14 10:11 6220次阅读

    RZ/G 系列第二代产品:性能强劲的多功能芯片解决方案

    RZ/G 系列第二代产品:性能强劲的多功能芯片解决方案 在当今科技飞速发展的时代,电子设备对于高性能、多功能芯片的需求愈发迫切。Renesas 的 RZ/G 系列第二代产品,包括 RZ
    的头像 发表于 04-01 11:35 520次阅读

    二代AMD VERSAL AI EDGE系列全面赋能汽车ADAS系统

    选择 AMD 自适应 SoC 和 FPGA 第二代 AMD Versal AI Edge 系列自适应 SoC 带来一种高性能单芯片解决方案,为自动驾驶赋能助力。该系列器件配备用于 ISP 等功能
    的头像 发表于 03-27 16:30 1066次阅读
    第<b class='flag-5'>二代</b>AMD VERSAL AI EDGE系列<b class='flag-5'>全面</b>赋能汽车ADAS系统

    信号干扰、轨迹漂移成过去式?第二代UWB技术在复杂工况下的硬核突围

    四相科技第二代UWB通过物理层协议和信号频段的优化,实现了测距、功耗与安全性的全面升级,致力于为复杂工业环境提供更精准稳定、更具“确定性”价值的解决方案。随着技术生态的持续完善与应用场景的不断拓展,第二代UWB的
    的头像 发表于 03-13 16:55 1441次阅读
    信号干扰、轨迹漂移成过去式?第<b class='flag-5'>二代</b>UWB技术在复杂工况下的硬核突围

    AMD VEK385评估套件助力快速启动第二代Versal AI Edge系列设计

    AMD VEK385 评估套件为评估第二代 AMD Versal AI Edge 系列 XC2VE3858 器件提供了一条快速、功能丰富可扩展的途径。借助异构计算、高性能 I/O、全面
    的头像 发表于 03-06 09:09 775次阅读

    PyTorch 中RuntimeError分析

    ://download.pytorch.org/whl/cu118 方案3:使用替代上采样模式 如果你的任务允许,可以将 mode=\'nearest\' 替换为其他已支持 BFloat16 的模式,例如 mode
    发表于 03-06 06:02

    AMD 推出第二代 Kintex UltraScale+ 中端FPGA,助力智能高性能系统

    二代AMD Kintex UltraScale+ FPGA 系列 , 对于依赖中端FPGA 为性能关键型系统提供支持的设计人员而言,可谓一项重大进步。 这一全新系列构建在业经验证的Kintex FPGA 产品组合基础之上,对
    的头像 发表于 02-04 16:11 6.3w次阅读
    AMD 推出第<b class='flag-5'>二代</b> Kintex UltraScale+ 中端FPGA,助力智能高<b class='flag-5'>性能</b>系统

    新品 | CoolSiC™ MOSFET 650V第二代产品,新增75mΩ型号

    新品CoolSiCMOSFET650V第二代产品,新增75mΩ型号CoolSiCMOSFET650V第二代器件基于性能卓越的第一沟槽SiCMOSFET技术打造,通过提升
    的头像 发表于 01-12 17:03 616次阅读
    新品 | CoolSiC™ MOSFET 650V第<b class='flag-5'>二代</b>产品,新增75mΩ型号

    TeledyneLeCroy发布第二代DisplayPort 2.1 PHY合规测试与调试解决方案

    TeledyneLeCoy(Teledyne子公司)宣布第二代QualiPHY 2自动化合规测试框架现已支持DisplayPort 2.1物理层(PHY)合规性测试。
    的头像 发表于 12-26 11:04 1892次阅读

    新品 | 采用.XT扩散焊和第二代1200V SiC MOSFET的Easy C系列

    新品采用.XT扩散焊和第二代1200VSiCMOSFET的EasyC系列EasyPACK2C1200V8mΩ三电平模块、EasyPACK2C1200V8mΩ四单元模块以及
    的头像 发表于 11-24 17:05 1770次阅读
    新品 | 采用.XT扩散焊和第<b class='flag-5'>二代</b>1200V SiC MOSFET的Easy C系列

    新品 | 第二代CoolSiC™ MOSFET G2 1400V,TO-247PLUS-4回流焊封装

    系统、工业变频器等大功率输出应用的理想选择。第二代1400VCoolSiCMOSFET前沿技术具有前沿性,可显著提升热管理性能、功率密度及系统可靠性。其封装支持回流
    的头像 发表于 11-17 17:02 1566次阅读
    新品 | 第<b class='flag-5'>二代</b>CoolSiC™ MOSFET G2 1400V,TO-247PLUS-4回流焊封装

    Imagination GPU 全面支持 Vulkan 1.4 和 Android 16

    是Imagination开发者社区中广受欢迎的图形API,因其提供了低开销、跨平台访问现代GPU的能力,帮助开发者在多种设备上最大化性能与效率。其对GPU操作的显式控制,以及对
    的头像 发表于 08-14 11:18 2560次阅读
    Imagination <b class='flag-5'>GPU</b> <b class='flag-5'>全面</b><b class='flag-5'>支持</b> Vulkan 1.4 和 Android 16

    最高256细分,支持集成式热管理系统!纳芯微发布第二代步进电机驱动NSD8389-Q1

    纳芯微推出第二代车规级高性能步进电机驱动器NSD8389-Q1,具备宽电压、低内阻、高细分等特性,支持多种配置与保护功能。该产品助力汽车制造商实现高精度电机控制,适用于热管理、头灯控制、HUD等场景,推动汽车电气化和智能化升级。
    的头像 发表于 06-27 16:32 1237次阅读
    最高256细分,<b class='flag-5'>支持</b>集成式热管理系统!纳芯微发布第<b class='flag-5'>二代</b>步进电机驱动NSD8389-Q1

    AMD第二代Versal AI Edge和Versal Prime系列加速量产 为嵌入式系统实现单芯片智能

    我们推出了 AMD 第二代 Versal AI Edge 系列和第二代 Versal Prime 系列,这两款产品是对 Versal 产品组合的扩展,可为嵌入式系统实现单芯片智能。
    的头像 发表于 06-11 09:59 2182次阅读

    恩智浦推出第二代OrangeBox车规级开发平台

    二代OrangeBox开发平台集成AI功能、后量子加密技术及内置软件定义网络的能力,应对快速演变的信息安全威胁。
    的头像 发表于 05-27 14:25 1786次阅读