0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

相比在硬件性能上超越英伟达,软件生态的赶超难度显然更大

工程师邓生 来源:雷锋网 作者:包永刚 2020-12-29 10:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

英伟达在云端AI训练芯片市场超九成的市占率让新入局的竞争者们都将枪口指向这家当红AI公司。声称AI性能比英伟达GPU的新产品不少,但真正突破英伟达护城河的现在仍未看到。

相比在硬件性能上超越英伟达,软件生态的赶超难度显然更大。不过,微软亚洲研究院的NNFusion项目以及阿里云的HALO开源项目,正努力降低从GPU迁移到新的硬件平台的难度和成本,再加上在多个重要AI模型上性能超英伟达最新A100 GPU的IPU,云端AI芯片市场的格局未来几年可能会发生变化。

微软、阿里云开源项目

降低迁移出GPU的难度

目前AI的落地,仍以互联网和云计算为主。因此,科技巨头们很快发现迁移到新平台不能只看峰值算力。Graphcore高级副总裁兼中国区总经理卢涛表示:“客户考虑为一个新的软硬件平台买单时,首先考虑的是能够获得多少收益。其次考虑的是需要多少成本,这涉及软硬件的迁移成本。”

对于科技巨头们而言,GPU确实是一个好选择,但考虑到成本、功耗以及自身业务的特点,仍然有自研或者迁移到其它高性能芯片的动力。此时,软件成为能否快速、低成本迁移的关键。

将已有的AI模型迁移到新的AI加速器时,现在普遍的做法是在TensorFlow写一些后端集成新硬件,这给社区和AI芯片公司都带来了负担,也增加了迁移的难度和成本。

微软亚洲研究院的NNFusion以及阿里云的HALO开源项目,都是希望从AI编译的角度,避免重复性的工作,让用户能够在GPU和其它AI加速器之间尽量平滑迁移,特别是GPU和IPU之间的迁移。

也就是说,NNFusion和HALO向上跨AI框架,既可以集成TensorFlow生成的模型,也可以集成PyTorch或其他框架生成的模型。向下用户只要通过NNFusion或者HALO的接口就可以在不同的AI芯片上做训练或者推理。

这种调度框架在降低迁移难度和成本的同时,还能提升性能。根据2020 OSDI(计算机学界最顶级学术会议之一)发布的研究结果,研究者在英伟达和AMD的GPU,还有Graphcore IPU上做了各种测试后得出结果,在IPU上LSTM的训练模型得到了3倍的提升。

当然,这样的收益还是需要开源社区与硬件提供方的紧密合作,比如Graphcore与微软亚洲研究院以及阿里云的合作。

增加迁入IPU的便捷性

“我们与阿里云HALO和微软NNFusion紧密合作,这两个项目支持的最主要的平台是GPU和IPU。”卢涛表示,“目前在阿里云HALO的GitHub里已经有IPU的完整支持代码odla_PopArt,下载开源代码就已经可以在IPU上使用。”

能够便捷地使用IPU也离不开主流机器学习框架的支持。Graphcore本月最新发布了面向IPU的PyTorch产品级版本与Poplar SDK 1.4。PyTorch是AI研究者社区炙手可热的机器学习框架,与TensorFlow两分天下。

PyTorch支持IPU引起了机器学习大神Yann LeCun的关注。之所以引发广泛关注,是因为这个支持对于IPU的广泛应用有着积极意义。

Graphcore中国工程总负责人,AI算法科学家金琛介绍,“在PyTorch的代码里,我们引入了一个叫PopTorch的轻量级接口。通过这个接口,用户可以基于他们当前的PyTorch的模型做轻量级封装,之后就可以无缝的在IPU和CPU上运行这个模型。”

这也能更好地与HALO和NNFusion开源社区合作。金琛告诉雷锋网,“不同的框架会有不同中间表示格式,也就是IR(Intermediate Representation)。我们希望将不同的IR格式转换到我们通用的PopART计算图上,这也是兼容性中最关键的一点。”

据悉,IPU对TensorFlow的支持,是像TPU一样,通过TensorFlow XLA backend接入到TensorFlow的框架,相当于把一个TensorFlow计算图转换成为一个XLA的计算图,然后再通过接入XLA的计算图下沉到PopART的计算图,通过编译,就可以生成可以在IPU上执行的二进制文件。

金琛认为,“各个层级图的转换是一个非常关键的因素,也需要一些定制化工作,因为里面的一些通用算子也是基于IPU进行开发的,这是我们比较特殊的工作。”

除了需要增加对不同AI框架以及AI框架里自定义算子的支持,增强对模型的覆盖度的支持,也能够降低迁移成本。

金琛介绍,对于训练模型的迁移,如果是迁移一个不太复杂的模型,一般一个开发者一周就可以完成,比较复杂的模型则需要两周时间。如果是迁移推理模型,一般只需要1-2天就可以完成。

IPU正面挑战GPU,

云端芯片市场或改变

AI时代,软硬件一体化的重要性更加突显。卢涛说:“AI处理器公司大致可以分为三类,一类公司是正在讲PPT的公司,一类公司是有了芯片的公司,一类公司是真正接近或者是有了软件的公司。”

已经在软件方面有进展的Graphcore,硬件的表现能否也让用户有足够的切换动力?本月,Graphcore发布了基于MK2 IPU的IPU-M2000的多个模型的训练Benchmark,包括典型的CV模型ResNet、基于分组卷积的ResNeXt、EfficientNet、语音模型、BERT-Large等自然语言处理模型,MCMC等传统机器学习模型。

其中有一些比较大的提升,比如与A100 GPU相比,IPU-M2000的ResNet50的吞吐量大概能实现2.6倍的性能提升,ResNeXt101的吞吐量提升了3.6倍,EfficientNet的吞吐量达到了18倍,Deep Voice 3达到了13倍。

值得一提的还有IPU-POD64训练BERT-Large的时间比1台DGX-A100快5.3倍,比3台DGX-A100快1.8倍。1个IPU-POD64和3个DGX-A100的功率和价格基本相同。

强调IPU训练BERT-Large的成绩不仅因为这是英伟达GPU和谷歌TPU之后第三个发布能够训练这一模型的AI芯片,还因为BERT-Large模型对现在芯片落地的意义。

卢涛说:“在今天,BERT-Large模型不管是对于工业界,还是对研究界都是一个比较好的基准,它在未来至少一年内是一个上线的模型水准。”

不过,这一成绩目前并非MLPerf发布的结果,正式结果需要等待Graphcore在明年上半年正式参与MLPerf性能测试。近期,Graphcore宣布加入MLPerf管理机构MLCommons。

“我觉得我们加入MLCommons和提交MLPerf表明,IPU即将在GPU的核心领域里面和GPU正面PK,表明了IPU除了能做GPU不能做的事情,在GPU最擅长的领域,IPU也能以更好TCO实现相等,甚至更优的表现。”卢涛表示。

微软亚洲研究院、阿里云、Graphcore都在共同推动GPU转向IPU,什么时候会迎来破局时刻?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 软件
    +关注

    关注

    69

    文章

    5392

    浏览量

    92104
  • 英伟达
    +关注

    关注

    23

    文章

    4129

    浏览量

    99812
  • 智能硬件
    +关注

    关注

    205

    文章

    2450

    浏览量

    111738
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    套现413亿!软银清仓英伟,AI硬件泡沫破裂?

    电子发烧友网报道(文/黄山明)前几天,全球知名的科技投资公司日本软银集团(SBG)突然宣布,公司已经今年10月出售了所持有的全部英伟股票,共计3210万股,套现58亿美元(约合人民币413亿元
    的头像 发表于 11-13 09:19 6521次阅读

    阿里神秘AI芯片曝光:多项参数超越英伟A800

    ,并交由中国大陆代工厂生产,已经进入测试阶段。   然而在9月16日晚,央视《新闻联播》节目中,阿里平头哥AI算力卡PPU新闻背景画面里被曝光,“国产卡与NV卡重要参数对比”表格中显示,PPU显存、片间带宽等多项
    的头像 发表于 09-18 09:46 9161次阅读
    阿里神秘AI芯片曝光:多项参数<b class='flag-5'>超越</b><b class='flag-5'>英伟</b><b class='flag-5'>达</b>A800

    RV生态又一里程碑:英伟达官宣CUDA将兼容RISC-V架构!

    时间里,RISC-V生态不断壮大,RISC-V CPU产品性能持续提高,开始往高性能的服务器CPU发展,形成向Arm服务器CPU挑战的趋势。   而在最近的 第五届 RISC-V中
    的头像 发表于 07-19 00:04 6941次阅读
    RV<b class='flag-5'>生态</b>又一里程碑:<b class='flag-5'>英伟</b>达官宣CUDA将兼容RISC-V架构!

    英伟算力中心电源架构的变革性演进与国产生态应用研究报告

    英伟算力中心电源架构的变革性演进与国产生态应用研究报告:基于Q1业绩与基本半导体、青铜剑产品的技术协同剖析 一、 英伟财务业绩深度分析与
    的头像 发表于 05-21 07:40 186次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>算力中心电源架构的变革性演进与国产<b class='flag-5'>生态</b>应用研究报告

    硅光成AI胜负手?英伟20亿美元战略投资Marvell

    纳入英伟 AI 生态体系,并在硅光子技术领域展开深度合作,旨在帮助客户更高效地搭建 AI 算力基础设施。   构建 “异构计算” 新范式 根据双方签署的战略协议,此次合作的核心围绕NVLink Fusion——
    的头像 发表于 04-06 07:02 1.2w次阅读

    新思科技与英伟多项硬核科技成果亮相GTC 2026

    新思科技(Synopsys, Inc.,纳斯达克股票代码:SNPS)英伟 GTC 2026 大会(NVIDIA GTC 2026)上,展示了其与英伟
    的头像 发表于 03-18 17:36 1167次阅读

    英伟财报看隐藏供应危机,数据洪流奔涌,自主可控是中国唯一底牌

    %,同样超越了分析师普遍预测的662亿美元。这份堪称惊艳的成绩单,不仅巩固了英伟全球人工智能算力领域的霸主地位,更如同一面棱镜,折射出当前AI与高
    的头像 发表于 03-04 09:49 479次阅读

    麦格纳宣布扩大与英伟的战略合作

    麦格纳宣布扩大与英伟的战略合作,为整车厂基于英伟DRIVE Hyperion平台的项目落地提供支持。
    的头像 发表于 01-09 12:59 611次阅读

    算力与生态双赋能!文远知行与英伟共拓Robotaxi全球市场

    1月6日,“全球Robotaxi第一股”文远知行WeRide(NASDAQ: WRD,HKEX: 0800)CES2026(国际消费电子展)期间宣布:作为英伟NVIDIA全球L4级
    的头像 发表于 01-07 09:03 405次阅读
    算力与<b class='flag-5'>生态</b>双赋能!文远知行与<b class='flag-5'>英伟</b><b class='flag-5'>达</b>共拓Robotaxi全球市场

    英伟重磅出手!AI 推理存储全面觉醒

    电子发烧友网报道(文/黄晶晶)近日,有消息称,英伟将以大约200亿美元收购人工智能芯片初创公司Groq,这将是英伟迄今为止规模最大的一笔收购。但
    的头像 发表于 12-26 08:44 1.2w次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>重磅出手!AI 推理存储全面觉醒

    黄仁勋:英伟AI芯片订单排到2026年 英伟上季营收加速增长62%再超预期

    预计本财季的营收将保持60%以上的增速。 从业务层面来看,数据中心业务仍然是英伟最核心的增长引擎。该季度,数据中心业务实现销售额 512 亿美元,同比增长 66%,超越分析师 490.9 亿美元的预期。其中,以 GPU 为主的
    的头像 发表于 11-20 11:36 1598次阅读

    英伟最新B30A芯片曝光:算力角逐中的新变数

    全球AI芯片市场风云变幻之际,英伟再次成为焦点。据路透社8月19日报道,两位知情人士透露,英伟正在为中国市场开发一款基于其最新Blac
    的头像 发表于 08-22 16:41 1873次阅读

    英伟自研HBM基础裸片

    "后的下一代AI GPU "Feynman"。   有分析指出,英伟此举或是将部分GPU功能集成到基础裸片中,旨在提高HBM和GPU的整体性能英伟
    的头像 发表于 08-21 08:16 3123次阅读

    英伟一夜大涨1.2万亿元,市值重回全球第一!

    ABSTRACT摘要英伟股票一夜大涨1.2万亿元,市值超越微软,重新回到全球第一位置。JAEALOT2025年6月26日截至2025年6月25日美股收盘,英伟
    的头像 发表于 06-26 17:35 3990次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>一夜大涨1.2万亿元,市值重回全球第一!