0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI发展迎来第三次浪潮,为您起底百万倍算力挑战

DPVg_AI_era 来源:lq 2019-01-29 09:32 次阅读

AI第三次浪潮革命是在算力激增的推动下发生的。Jeff Dean说我们需要超过现在100万倍的算力,成为企业面临的重大挑战。本文通过硬件基础、软件基础以及优化框架和应用加速4个方面,为您起底百万倍算力挑战。

AI这个词,从第一次被创造出来至今,已经经历了两次浪潮。如今在算法、大数据、算力三大因素的驱动下,AI发展迎来第三次浪潮。

谷歌AI负责人Jeff Dean说:“事实证明,我们真正需要的是超过现在100万倍的计算能力,而不仅仅是几十倍的增长。”

算力为王的年代,企业需要满足4个层次的需求:

硬件,一些计算平台比如服务器、加速卡等。这是算力的物理根基,是满足算力的第一步

软件,构建在硬件之上的开发管理套件,提供整体解决方案,可以让用户无需掌握高深的AI知识,直接根据需要进行开发

优化主流框架,针对硬件和管理套件进行定制化,使得算力能够更加快速稳定

应用加速,AI端到端的解决方案,将算力落地

这就给传统企业带来了前所未有的挑战。一方面,越来越多的传统企业需要尽快转型AI;另一方面,传统企业已经无法应对AI时代的算力挑战。

提高整个AI计算系统的性能与效率迫在眉睫,而首当其冲的,就是服务器和加速卡。

解决算力需求的硬件基础:服务器和加速卡

企业的规模越大,数据的集中度就越高,对AI计算力的需求也就越高,对AI服务器的需求也就约旺盛。

根据国际调研公司IDC)全球季度服务器跟踪报告,2018年第三季度全球服务器市场,供应商收入达234亿美元(约1581亿人民币),同比增长37.7%。全球服务器出货量320万台,同比增长18.3%。

在全球服务器市场,排名前五的分别是:DELL EMC第一、HPE/New H3C Group第二、Inspur/Inspur Power第三、Lenovo第四、 IBM,Huawei和Cisco并列第五。

具体数据如下图:

可以看到,在服务器市场TOP 5的7家厂商中,浪潮表现的最为亮眼,出货量同比增长90.2%,营收增长达增长156.5%。

而根据IDC《2018上半年中国AI基础架构市场报告》,2018上半年浪潮AI服务器销售额2.79亿美元,销售量11,713台,继续保持中国市场第一,销售额份额为51.4%。

杭州的阿里,北京的京东、字节跳动(今日头条)、百度,深圳的腾讯,都对当地AI计算力产生巨大的需求。

能够胜任BAT算力要求的企业不多。在AI算力供应商的问题上,BAT纷纷选择了浪潮。

浪潮能够连续多年成为BAT最主要的AI服务器供应商,靠的是不断提升计算能力的AI服务器:

AI超级服务器AGX-5,单机配置16颗NVIDIA Tesla® V100 Tensor Core 32GB GPUs,AI计算性能高达每秒2千万亿次,可支持4倍超大规模深度神经网络模型,并将训练速度提高10倍。

AGX-2服务器,采用P100的Linpack浮点运算性能达29.33TFLOPS,在2U空间内支持部署8块NVLink或PCI-E。在AI深度学习模型训练上,采用TensorFlow框架和GoogLeNet模型,AGX-2处理速度为每秒1165幅图片。

智能视频分析服务器NF5280M5-V,在2U空间内配置8片NVIDIA TESLA P4 GPU,单台服务器即可完成96路高清摄像头视频数据的解码及结构化实时处理需求。同时最大可提供96TB本地存储空间,可将视频处理数据的保存周期最高延长至6个月。

弹性GPU服务器NF5468M5,专注于AI云。可同时处理300路以上1080p高清视频结构化,支持288TB大容量存储或32TB固态存储,实现高达400Gbps通信带宽和1us的超低延迟。

这些服务器,同时也在为科大讯飞、商汤、旷视、字节跳动、滴滴等AI领先公司,在语音、图像、视频、搜索、网络等方面提供了算力支持。

除了AI服务器,浪潮还发布了全球首款集成HBM2高速缓存FPGA AI加速卡F37X,可在不到75W典型应用功耗提供28.1TOPS的INT8计算性能和460GB/s的超高数据带宽,实现高性能、高带宽、低延迟、低功耗的AI计算加速。

有了AI服务器和加速卡,仅仅是解决了算力需求的第一步:硬件基础设施。接下来,就需要管理套件的跟进,实现软件平台基础。

解决算力需求的软件基础:AI开发平台

解决了算力的硬件基础,企业还需要解决快速构建AI开发平台,进行人工智能产业布局的难题。

这个时候,一套能够实现对计算、存储、网络等基础资源的管理和调度的完整解决方案就非常必要了。

浪潮升级了AI高效开发管理平台AIStation,致力于提供高效、易用的人工智能开发平台。

同时AIStation还集成了主流的AI开源框架和深度学习模型,提供完整的AI开发工作流服务。

除了AIStation外,浪潮还发布了OpenStack AI云平台。

根据工信部华信研究院提供的数据显示,2018年OpenStack占据私有云60%的市场。

OpenStack AI云平台可帮助行业AI用户快速便捷的构建CPU+GPU的弹性异构云环境,并实现对异构计算资源池的动态调度与分配,支撑数据管理、模型训练、模型部署等各类AI应用场景。

通过对GPU虚拟机的支持,浪潮OpenStack AI云平台能够以多租户的形式,按需分配异构计算资源,从而实现AI敏捷开发。

同时,多租户任务排队策略、资源分组优化策略、租户资源配额集均衡策略以及GPU共享策略等精细化调度策略,也进一步提高了GPU资源的利用率。

有了管理套件后,接下来就应该深入到更细节的框架优化中了。

进一步提升算力方法:框架优化

要满足算力的不断提升,旧有的计算框架已经无法满足新的性能需求,需要不断的进行优化。

目前使用比较广的框架包括TensorFlow、PyTorch和Caffe。

TensorFlow是一款强大而成熟的深度学习框架,有强大的可视化性能,以及用于高水平模型开发的多个选项。它具备生产就绪的部署选项,支持移动平台。

Caffe用来做计算机视觉,HPC和数值优化的研究,加上产品线里的高效部署。

PyTorch用来做非常dynamic的研究加上对速度要求不高的产品

对于企业来说,由于TF和Caffe的高效部署选项,基于TF和Caffe的框架优化就显得更有意义。

浪潮针对TF和Caffe推出了Caffe-MPI, TensorFlow-Opt, FPGA计算加速引擎TF2等优化方案。

Caffe-MPI

Caffe-MPI是全球首个集群并行版的Caffe深度学习计算开源框架,针对高性能计算系统设计使之具备良好的并行扩展性。

新版本在4节点16块GPU卡集群系统上训练性能较单卡提升13倍,其每秒处理图片数量是同配置集群运行的TensorFlow 1.0的近2倍。

Caffe-MPI设计了两层通信模式,非常适合现在的高密度GPU服务器。同时Caffe-MPI还设计实现了计算和通信的重叠,提供了更好的cuDNN兼容性,用户可以无缝调用最新的cuDNN版本实现更大的性能提升。

TensorFlow-Opt

TensorFlow-Opt已完成了ResNet-50、ResNet-101和VGG16(batch size=128 & 256)等多个网络模型的测试。

其中,在ResNet-50网络模型下(单卡batchsize=256),512块GPU每秒可训练128336张图片,即训练完成一个完整的ImageNet数据集(128万张图片)只需要约10秒时间,打破了AI训练性能世界纪录。

FPGA计算加速引擎TF2

FPGA计算加速引擎TF2支持TensorFlow,可帮助AI客户快速实现基于主流AI训练软件和深度神经网络模型DNN的FPGA线上推理,并通过全球首创的FPGA上DNN的移位运算技术获得AI应用的高性能和低延迟。

TF2计算加速引擎提高了FPGA上AI计算性能,降低了FPGA的AI软件实现门槛,将支持FPGA广泛应用于AI生态推动更多AI应用落地。

经过AI服务器提供算力的硬件基础,管理套件提供软件平台基础,优化框架保证紧跟算力不断增长的需求,最后就是为应用提供加速。

实现算力需求的落地应用:案例解析

目前,浪潮在智能视频分析、医疗影像、电力设备巡检、金融汇率预测、语音识别、AI云等应用中,已经有了很多成功案例。

成功案例一:智能安防

视频科技领域AI应用的场景化非常分散,需要提炼应用场景,根据应用规模,在解决方案中按需灵活组合各种产品。

浪潮人工智能专家团队与大华合作建立了超强计算力为核心的计算平台和计算集群单元。

在硬件上,使用AGX-2集群来处理视频相关业务计算。在管理套件上,针对智能安防的应用场景,定制开发了AIstation管理平台。

优化后的AIStation平台,可以秒级构建AI环境,实现GPU资源智能调度,整体效率大幅提升,降低运维成本。

目前大华股份与浪潮已经在智慧城市、雪亮工程、平安城市等多个领域共同打造信息化联合解决方案,共同促进智能物联网行业智能化、信息化转型升级和跨域发展。

成功案例二:首钢园落地项目

北京首钢自动化信息技术有限公司,采用了浪潮和百度联合推出的ABC一体机3.0的钢包质检解决方案后,10000张钢材照片的整体缺陷识别分类准确率达到99%以上,比人工专业检测的准确率更高。

成功案例三:语音识别一体机

浪潮与科大讯飞联合发布了面向于语音识别、翻译等AI应用的16卡计算集群“AI Booster”,单套系统能够实现单精度240TFlops/s或Int8 752TFlops/s的计算性能。

双方公布的实测数据显示,在智能翻译模型训练任务中,采用相同计算卡的“AI Booster”与传统4卡服务器组成的16卡集群相比,AI计算加速比提升18%。

解决算力需求的长期战略:人才培养

除了技术问题,传统行业AI转型还面临AI人才的短缺。在培养人才问题上,浪潮也在积极提供解决方案。

去年在AICC人工智能计算大会上开办集训营,提供了现场动手实践的课程。

打比赛也是一个很好的吸引大学生投入AI学习中的方式。世界三大超算竞赛之一的ASC,就是一个很好的例子。

目前ASC已经吸引了超过7000名来自世界各地的选手,送出了近百万的奖金。

说到ASC,就不得不提到今年ASC已经进入初赛阶段,来自世界各地的高手们正在全力比赛中!关于ASC详细情况,扫描下方二维码进入官网查看。

AIStation也可以应用在AI人才培养方面。在AIStation上集成课件、实验题目、网络模型、框架和数据集,老师可以给学生开通帐号,做题目,看课件,快速完成AI能力的掌握。

除此以外,浪潮还在做教材的开发,预计今年会有正式出版的版本。

依靠算力推动AI生态发展

通过发布AI子品牌TensorServer、推出AI计算生态计划Plan T,浪潮在不断的推动AI应用落地。

在整个AI生态中,需要强大计算力来连接芯片提供商、应用提供商、服务提供商和算法提供商,计算力是一切AI产业发展的核心,是AI产业发展的基石。

浪潮为AI生态提供强大的计算力支撑,并携手百度、科大讯飞、宽邦、第四范式等伙伴伙伴,推出联合解决方案,共同推动AI生态,赋能传统行业智慧转型。

我们有理由相信在未来,将会让更多行业真正享受到AI技术的好处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4562

    浏览量

    98646
  • 服务器
    +关注

    关注

    12

    文章

    8088

    浏览量

    82433
  • AI
    AI
    +关注

    关注

    87

    文章

    26363

    浏览量

    263957

原文标题:第三次AI浪潮革命,百万倍算力挑战大起底

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    用cubeMX + STM32L0HAL库1.12.1生成的自定义HID设备,接收后发送数据第三次开始会失败卡死的原因?

    用cubeMX + STM32L0HAL库1.12.1生成的自定义HID设备,在接收后发送数据,第三次开始会失败卡死,单独接收和发送没问题,用HAL库1.12.0生成的没问题
    发表于 03-21 08:05

    SpaceX星舰将第三次试飞

    SpaceX公司近日宣布,其巨型火箭星舰即将迎来第三次试飞,旨在进一步测试其性能极限。据悉,这次试飞计划最早于3月14日进行,相比前两次,其任务目标更加宏大且复杂。
    的头像 发表于 03-08 13:52 243次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    请问SPI DMA描述符列表如何单触发?

    第一 按照描述符元素0的配置信息进行触发; 手动第二 按照描述符元素1的配置信息进行触发; 手动第三次 按照描述符元素2的配置信息进行触发; 手动第四 按照描述符元素0的配置信
    发表于 01-12 08:07

    SpaceX计划2月份进行星际飞船系统第三次飞行测试

    SpaceX公司的高管近日宣布,美国联邦航空局(FAA)计划在今年2月份批准星际飞船系统进行第三次飞行测试。这意味着,星际飞船有望再次升空,继续其太空探索之旅。
    的头像 发表于 01-11 14:35 214次阅读

    SpaceX 星舰计划下月进行第三次试飞

    周二下午,NASA举办的电话会议中,SpaceX客户运营及整合副总裁杰西卡·詹森(Jessica Jensen)透露,公司正积极争取Starship第三次飞行审批,预计最快能在2月拿到许可。
    的头像 发表于 01-11 13:43 204次阅读

    使用ARM对ADIS16480进行SPI数据读取时,需要发送三次读取指令才能读取到数据是为什么?

    使用ARM对ADIS16480进行SPI数据读取时,需要发送三次读取指令,第三次才能读到第一发送读取数据指令所读到的数据,请问有人知道这个是什么地方配置出错还是什么别的原因
    发表于 12-28 07:26

    中微公司第三次荣登福布斯中国“中国创新力企业50强”榜单

    中微公司第三次荣登福布斯中国“中国创新力企业50强”榜单,企业综合实力与创新能力再获行业嘉奖与专业认可。
    的头像 发表于 11-10 09:16 319次阅读

    请问单片机按键一键多功能程序如何实现?

    如何实现用一个按键,第一短按开机上电,第二短按打开LED,第三次短按关闭LED。最后长按断电关机。
    发表于 09-26 07:45

    英码科技精彩亮相火爆的IOTE 2023,多面赋能AIoT产业发展

    地结合业务需求生成算法,并结合国产AI边缘计算算设备进行移植优化,是解决AI产品国产化,并推动AI
    发表于 09-25 10:03

    RISC-V强势崛起芯片架构第三

    ,RISC-V能覆盖到对要求更高的领域,比如AI,而参与到RISC-V生态中来的企业也越来越多。 首先是操作系统厂商,包括Google开展Android系统拥抱RISC-V架构等。其次是A
    发表于 08-30 13:53

    三次浪潮(2)#应用开发

    应用开发
    学习硬声知识
    发布于 :2023年05月31日 17:55:03

    三次浪潮(1)#应用开发

    应用开发
    学习硬声知识
    发布于 :2023年05月31日 17:54:32

    磁性元器件行业协会第三第三次会员大会圆满落幕

    5月19日,广东省磁性元器件行业协会第三第三次会员大会在东莞嘉辉会酒店顺利召开。 2023年5月19日,广东省磁性元器件行业协会第三第三次会员大会在东莞嘉辉会酒店召开,会长单位顺络
    的头像 发表于 05-31 16:22 395次阅读
    磁性元器件行业协会<b class='flag-5'>第三</b>届<b class='flag-5'>第三次</b>会员大会圆满落幕

    中国开源未来发展峰会“问道 AI 分论坛”即将开幕!

    的模式出现。许多业内专家更是认为,开源是未来的 AI 领域技术工具产品存活于市场的必要条件。 然而,在备受追捧的现状背后,也隐藏着众多风险与挑战,比如数据安全和隐私保护的问题,我们该如何适合 AI
    发表于 05-09 09:49