0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

二代IPU性能超过GPU且全面支持PyTorch

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2020-12-30 15:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

“不管是在今天 GPU 能够做的事情上,还是 GPU 不能做的事情上,IPU 都有它的价值点和价值定位。” 日前,在英国 AI 芯片初创公司 Graphcore 中国区的媒体沟通会上,Graphcore 高级副总经理兼中国区总经理卢涛和 Graphcore 中国工程总负责人、AI 算法科学家金琛,就 Graphcore 的新产品性能以及该公司在中国的落地策略向 DeepTech 等媒体进行了同步。

沟通会上,Graphcore 解读了其于本月公布的大规模系统级产品 IPU-M2000 的应用测试数据。公布数据显示,在典型 CV 模型 ResNet、基于分组卷积的 ResNeXt、EfficientNet、语音模型、BERT-Large 等自然语言处理模型以及 MCMC 等传统机器学习模型中,IPU-M2000 在吞吐量、训练时间和学习结果生成时间方面都有较好表现。比如,在 IPU-M2000 上 EfficientNet 的吞吐量达到 A100 的 18 倍。

bf6a28a2-4a2e-11eb-8b86-12bb97331649.jpg

图 | IPU-M2000 与 GPU 的吞吐量、训练及结果生成时间对比(来源:Graphcore)

此前,IPU-M2000 与 Graphcore 第二代 IPU 处理器 GC200 已于今年 7 月 15 日发布。据介绍,GC200 芯片基于台积电的 7nm 工艺制造,集成 250 TFlops AI-Float 算力和 900MB 处理器内存,相较第一代产品性能提升 8 倍。而对于第三代 IPU,卢涛在此次沟通会上并未透露发布的具体时间表,不过他表示下一代产品正在研发中,将依旧重点解决存储问题。

支持 PyTorch、TensorFlow,在 IPU 与 GPU 间无缝衔接

另外,Graphcore 还发布了 Poplar SDK 1.4 版本和 PyTorch 的 IPU 版本。

Graphcore 对 Poplar SDK 1.4 版本在易用性和速度上进行了优化,能够支持模型和数据并行,同时能够实现模型的横向扩展 —— 从 1 个 IPU 横向扩展到 64 个 IPU。金琛表示,下一版本的 Poplar SDK 有望实现横向扩展到 128 个 IPU。

值得关注的是,除支持 Graphcore 的自研框架 PopART 外,Poplar SDK 1.4 还支持 Facebook 的 PyTorch 框架、以及 Google 的 TensorFlow 框架。

据金琛介绍,Graphcore 在 PyTorch 代码中引入了 PopTorch 轻量级接口,通过这一接口,用户可基于当前的 PyTorch 模型进行封装,以实现 IPU 和 CPU 之间的无障碍衔接。

对于实现这一功能的核心技术,金琛做进一步解释说,Graphcore 采用 PyTorch 里的 jit.trace 机制对计算图进行编译,转化为 IPU 和 PyTorch 兼容的表达格式,最后用 Graphcore 自研框架 PopART 后端的 audiff 功能自动生成反向图,便可以实现同一个模型在不同平台的无差别运行。

目前,PyTorch 因其直观易懂、灵活易用等优势受到开发者的广泛喜爱和应用。Poplar SDK 1.4 增加了对 PyTorch 的支持,策略上是希望用户在 IPU 上也能体验 PyTorch,让用户多一个转战 IPU 的理由。不过目前英伟达的 GPU 已经在 AI 计算领域占据大部分市场,此时 IPU 能够提供的价值、转场到 IPU 的成本等,都是用户所要考虑的问题。

在迁移成本上,卢涛表示,经过几年来对 Poplar SDK 的打磨,现在从 GPU 到 IPU 的软硬件迁移难度已经比大家认为的小得多。

金琛补充道,在训练上,针对一个不太复杂的模型,一般一周可以迁移完成,对于复杂的模型大概需要两周;在推理上,基本上是 1-2 天的工作量。

谈及性能,卢涛表示:“IPU 在训练推理、语音、图像模型处理上基本全面超越 GPU。” 不过他也坦言:“不能说 100% 超越了 GPU,因为算法模型确实非常多,比如说语音有不同的语音模型、图像也是有不同的图像模型。”

未来:持续优化性能,进一步压缩迁移成本

IPU 在机器学习性能上的明显优势是不可否认的,但前有身强体壮且努力奔跑的巨头英伟达,Graphcore 更是一刻也不容懈怠。卢涛在沟通会上也多次提到,“目前 Graphcore 面对的压力最主要还是来自英伟达”。

“重压” 之下,Graphcore 短期内的计划是聚焦在数据中心高性能训练和推理市场上,持续打磨 IPU 和软件平台,持续优化性能和提高可用性。卢涛说,“只有在我们聚焦的领域跑得更快,Graphcore 和英伟达之间的距离才会越来越短,甚至在某些领域超过英伟达”。

他还表示,Graphcore 希望未来数年内,能在数据中心的 AI 训练、推理批量部署、以及发货和体量上做到除英伟达以外的另一个头部地位。

为实现该目标,Graphcore 也将从增加 AI 框架支持、以及模型覆盖两个维度着手,以期进一步减少用户的迁移成本。此外,除目前 AI 应用最广泛的互联网和云计算两个场景外,卢涛表示公司明年还将在金融、汽车、智慧医疗、智慧教育、智慧城市和政府服务等领域,至少突破一到两个比较主流的领域。

原文标题:二代IPU性能超过GPU、全面支持PyTorch,Graphcore接下来将聚焦数据中心的AI训练和推理部署

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134458
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296595
  • IPU
    IPU
    +关注

    关注

    0

    文章

    35

    浏览量

    15921
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14699

原文标题:二代IPU性能超过GPU、全面支持PyTorch,Graphcore接下来将聚焦数据中心的AI训练和推理部署

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新品 | 第二代CoolSiC™ MOSFET G2 1400V,TO-247PLUS-4回流焊封装

    系统、工业变频器等大功率输出应用的理想选择。第二代1400VCoolSiCMOSFET前沿技术具有前沿性,可显著提升热管理性能、功率密度及系统可靠性。其封装支持回流
    的头像 发表于 11-17 17:02 1055次阅读
    新品 | 第<b class='flag-5'>二代</b>CoolSiC™ MOSFET G2 1400V,TO-247PLUS-4回流焊封装

    Imagination GPU 全面支持 Vulkan 1.4 和 Android 16

    是Imagination开发者社区中广受欢迎的图形API,因其提供了低开销、跨平台访问现代GPU的能力,帮助开发者在多种设备上最大化性能与效率。其对GPU操作的显式控制,以及对
    的头像 发表于 08-14 11:18 1840次阅读
    Imagination <b class='flag-5'>GPU</b> <b class='flag-5'>全面</b><b class='flag-5'>支持</b> Vulkan 1.4 和 Android 16

    最高256细分,支持集成式热管理系统!纳芯微发布第二代步进电机驱动NSD8389-Q1

    纳芯微推出第二代车规级高性能步进电机驱动器NSD8389-Q1,具备宽电压、低内阻、高细分等特性,支持多种配置与保护功能。该产品助力汽车制造商实现高精度电机控制,适用于热管理、头灯控制、HUD等场景,推动汽车电气化和智能化升级。
    的头像 发表于 06-27 16:32 655次阅读
    最高256细分,<b class='flag-5'>支持</b>集成式热管理系统!纳芯微发布第<b class='flag-5'>二代</b>步进电机驱动NSD8389-Q1

    AMD第二代Versal AI Edge和Versal Prime系列加速量产 为嵌入式系统实现单芯片智能

    我们推出了 AMD 第二代 Versal AI Edge 系列和第二代 Versal Prime 系列,这两款产品是对 Versal 产品组合的扩展,可为嵌入式系统实现单芯片智能。
    的头像 发表于 06-11 09:59 1535次阅读

    恩智浦推出第二代OrangeBox车规级开发平台

    二代OrangeBox开发平台集成AI功能、后量子加密技术及内置软件定义网络的能力,应对快速演变的信息安全威胁。
    的头像 发表于 05-27 14:25 1093次阅读

    二代AMD Versal Premium系列SoC满足各种CXL应用需求

    二代 AMD Versal Premium 系列自适应 SoC 是一款多功能可配置的平台,提供全面的 CXL 3.1 子系统。该系列自适应 SoC 旨在满足从简单到复杂的各种 CXL 应用需求
    的头像 发表于 04-24 14:52 966次阅读
    第<b class='flag-5'>二代</b>AMD Versal Premium系列SoC满足各种CXL应用需求

    方正微电子推出第二代车规主驱SiC MOS产品

    2025年4月16日,在上海举行的三电关键技术高峰论坛上,方正微电子副总裁彭建华先生正式发布了第二代车规主驱SiC MOS 1200V 13mΩ产品,性能达到国际头部领先水平。
    的头像 发表于 04-17 17:06 1323次阅读

    比亚迪二代刀片电池或3月17日发布

    据媒体报道,比亚迪公司将在3月17日召开一场发布会,预计此次的重磅发布会的主题,或将会是外界期待已久的二代刀片电池,比亚迪二代刀片电池或将带来一系列技术进化。而且这或是比亚迪在打出“全民智驾”这张牌
    的头像 发表于 03-13 18:16 2768次阅读

    RT-Thread ART-Pi二代正式发布

    挑战的日益复杂,ART-Pi迎来了全新的迭代——基于STM32H7R的ART-Pi二代,现已正式发布! ART-Pi二代在继承一优秀基因的基础上,进行了全面的技术升级和优化。它采用了
    的头像 发表于 02-18 14:31 1134次阅读

    新品 | 第二代 CoolSiC™ MOSFET G2分立器件 1200 V TO-247-4HC高爬电距离

    第一技术的优势为基础,加快了系统设计的成本优化,实现高效率、紧凑设计和可靠性。第二代产品在硬开关工况和软开关拓扑的关键性能指标上都有显著改进,适用于所有常见的交
    的头像 发表于 02-08 08:34 915次阅读
    新品 | 第<b class='flag-5'>二代</b> CoolSiC™ MOSFET G2分立器件 1200 V TO-247-4HC高爬电距离

    简单认识第二代高通3D Sonic传感器

    目前,已有多款搭载骁龙8至尊版移动平台的新机陆续发布,其中不少机型采用第二代高通3D Sonic超声波指纹解锁,为用户带来了更为便捷、高效的解锁体验。作为高通新一超声波指纹解锁解决方案,第二代
    的头像 发表于 01-21 10:05 1405次阅读

    二代AMD Versal Premium系列器件的主要应用

    随着数据中心工作负载持续呈指数级增长,存储层也需要同等的性能提升才能跟上步伐。第二代 AMD Versal Premium 系列器件为各种存储应用提供了巨大优势,包括企业级 SSD、加密/压缩加速器
    的头像 发表于 01-15 14:03 1012次阅读

    瑞芯微第二代8nm高性能AIOT平台,看这款板卡怎么样?

    瑞芯微近期推出了第二代8nm高性能AIOT平台——RK3576。RK3576应用方向指向工业控制及网关,云终端,人脸识别设备,车载中控,商显等等。参数方面,内置了四核Cortex-A72+四核
    的头像 发表于 01-09 08:03 2043次阅读
    瑞芯微第<b class='flag-5'>二代</b>8nm高<b class='flag-5'>性能</b>AIOT平台,看这款板卡怎么样?

    简单认识高通第二代骁龙XR2+平台

    在全新的数字浪潮中,虚拟现实(VR)和混合现实(MR)技术不断刷新着人们的感官体验。作为这些技术的核心驱动力,平台的性能升级也变得尤为重要。高通打造的第二代骁龙XR2+平台,能够带来更加清晰沉浸的MR和VR体验,为开启沉浸式未来提供更多可能。
    的头像 发表于 01-07 10:28 1746次阅读

    Windows端USB读二代身份证C#样例程序

    本开发包支持USB免驱型、串口型这2种类型的读卡器,支持读取二代居民身份证、M1和CPU卡等。提供动态连接库dll,提供C++(MFC)和C#下的演示程序执行文件和示例源码。动态库文件说明
    发表于 12-21 14:47