0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI能否真正落地?云上异构计算助力AI下半场

454398 来源: QbitAI 作者:量子位 2020-12-29 17:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今年都在说AI技术落地。AI到底有没有真正落地?可能得真实数字说了才算。

IDC今年7月发布的一份报告显示,2018至2024年,中国AI云服务市场年复合增长率将达到93.6%。

当然,高增速也不一定是真正的行业繁荣,行业的结构变化更能说明天平倾斜的方向。

阿里云最近有一组数字值得玩味:四年前,云上的训练任务占比超过80%;而如今,推理任务所占算力比重已经基本过半。

阿里云透露,这背后主要是因为4年以来,AI行业悄然发生的变化:云端进行推理的需求,比训练需求的增长要快得多。占比过半标志推理将是未来更为主流的云上AI计算需求,也说明AI行业已经从创业和从研发和创业为主,真正走向落地。

为什么这么说?

阿里云异构计算研发总监龙欣解释, 训练是更偏后端研发的阶段。而推理更多是把成熟的产品推广到市场上规模化应用,从这个角度来看,算力是处于训练还是处于推理,其实就能判断这个产品在AI上的技术是否开始了大规模落地。

而阿里云还透露了一组数字,最初云端GPU上线时,只有少数几家互联网企业和人工智能技术创业公司,租用算力来验证自己的商业模式和业务探索;现在AI用户已覆盖智能智造、医疗、教育等数十个行业。

例如,今年的疫情让在线教育等行业迅速增长。阿里云透露,在线教育是过去一年里对异构计算需求增长最迅速的行业,已经增长了近200%。这也侧面反映了这个行业AI应用的快速落地。

“实际上,AI已经进入到了下半场。推理业务的多样化也带来了异构场景和器件的多样化,云游戏、5G都是现在非常受关注的赛道。”龙欣表示,云上异构计算也在支撑更多的新兴赛道。

AI技术已经到了不是少数人少数企业的“自嗨”,开始走向传统行业,全面开花。

总而言之,AI已经从重训练的研发阶段,进入训练推理并重的落地阶段,而且应用面越来越广。

算法到“算法+算力”

深度学习为代表的AI技术飞速发展,对于算力的需求也在暴增。OpenAI的年度报告显示,从AlexNet到AlphaGo Zero,短短6年时间里,最先进AI模型算力需求增长了30万倍。

算法固然是提升AI技术的核心,但是想要AI快速落地,最“简单粗暴”的办法就是叠加算力。今年出现的超大自然语言模型GPT-3就是典型的例子。

另一方面,更偏研发行为的训练阶段,对算力的需求是有天花板的,与具体业务规模不直接关联。而如今AI产品的落地,意味着随着前端用户规模的扩大,对应推理业务模型对算力的需求是会呈现线性甚至爆发式增长的。比如,阿里云曾经在数天内为一款爆款AI产品“弹出”了数万片云上GPU,抓住了涌入的用户。

“巧妇难为无米之炊”,掌握算力资源的AI基础设施成为AI从概念到落地的重要支撑。

AI已经从以单一的算法为核心逐渐演变为算法、算力双核心。

云,无疑是获取算力最便捷与灵活的方式。通过云,企业可以随时获得充足的云端AI算力。

作为基础设施提供商的云计算,为满足行业发展,堆硬件是必经之路,但提供AI算力并不等同于单纯堆硬件,如果没有全面的软硬件技术,只会得到1+1<2的效果。

如何调度这些资源,解决用户在使用时的性能损失,是云计算厂商必须考虑的问题。

云异构计算的三个阶段

这就要从云上AI基础设施的发展阶段说起。

云上异构计算作为最能发挥AI效率的计算方式,其发展可以分为三个阶段:

第一个阶段,是异构计算需求的从0到1。

在2013年AlexNet依靠GPU达到80%准确率,展现了GPU在AI算力提供上的能力这给业界开辟了一条新路。淘宝拍立淘、新浪微博等等,就开始尝试利用GPU来开发机器学习产品。2016年,阿里云迈出了第一步:启动异构计算业务,主要是服务了第一批寻求AI创新的客户的需求。在这个阶段,主要解决了企业对异构算力的从有到无。

第二个阶段,是规模化。

在2016年AlphaGo大放异彩之后,深度学习等AI技术开始从实验室走向工业界。随着大量互联网企业开始对人工智能算法研发进行重点投入,AI算力的瓶颈也日益凸显。

大量模型训练的需求,以及对大算力需求的不断增长,推动了规模化、强弹性、高性能的云上计算基础设施的落地。阿里云也开始规模化部署云上异构算力。

短短3年时间,阿里云已经拥有超大规模的云上异构计算集群,每秒能支撑100亿亿次的异构运算,相当于在1秒内看懂超过5.3亿张图片、翻译4千万句话、识别9.2万小时长的语音。

而正如前文所说,2020年,人工智能行业的拐点已经到来,AI真正从研发和创业,走向了落地实践。这也就驱动着异构计算产品进入了第三阶段。

第三阶段的特征,是精细化和多样化。

当AI从研发走向落地,训练场景就将面临更为复杂多样的业务,对于企业客户而言,上云的需求也就从大算力,聚焦到了降低推理成本和极速部署等方面,同时场景也更为多样。

不难看出,这三个阶段的变化,是技术进步和行业发展共同促进的结果。

而第二阶段构建面向大计算的基础设施,可以说是所有云厂商的必经之路,也仍然是目前许多厂商的竞争重点。

但在基础设施之上,如何让客户能进一步快速调用资源,在AI落地的过程中进一步降本增效?

作为中国云计算市场份额最高的云服务商,阿里云已经率先迈出了这一步,给出的答案是——

软硬一体

软硬一体,在2017年就已成为头部云服务厂商的共识。

为了云计算的一大顽疾——通过虚拟机搭建云的过程中,虚拟化带来的性能损耗问题,2017年9月,阿里云推出第一代神龙架构,在整个行业中首次以软硬结合的设计方式实现了性能的0损耗。而大洋彼岸的AWS也同样在2017年底推出了类似产品AWS Nitro架构。

在此基础之上,现在,阿里云异构计算针对垂直行业,进一步提供了让云上资源变得更高效、更易用的软件工具。

比如针对人工智能行业的神龙AI加速引擎(AIACC)。

在大规模深度学习场景中,大规模GPU资源不仅导致了高运维成本,随着机器数的增加,不同机器GPU之间的配合难度也会变大,导致单张GPU卡的利用率反而下降。AIACC则可以通过对通讯、带宽等进行深度优化,提升资源协作效率和利用率

在AIACC的加持之下,今年3月,阿里云获得了斯坦福大学DAWNBench ImageNet四个榜单的世界第一。

根据已经落地的实际案例,AIACC可以帮助客户在云上训练场景下,提升2倍到14倍的性能;在推理场景下,提升2倍到6倍的性能。

AI芯片领域的独角兽地平线,与阿里云AIACC团队紧密合作,将基于阿里云异构计算的分布式训练性能提升4倍,让地平线算法研发效率得以显著的提升,成本得以大幅下降。

阿里内部,以阿里云IoT的图像分类业务为例。AIACC团队和IoT智能业务研发团队合作,将大规模图像分类分布式训练性能提升5倍。

另一阿里异构独有的软件产品,便是分片cGPU容器技术,能让客户通过容器来调度底层GPU资源,以更细颗粒度调度使用GPU,提高GPU资源利用率,达到降本增效的目的。

阿里云异构计算产品负责人潘岳也进一步对量子位解释了“软硬一体”的必要性:

单纯从算力的角度来说,硬件相当修路时用到的水泥、石块这样的基础。但仅仅是基础的堆叠显然是不足以解决问题的。

硬件资源为底层的基础设施之上,需要将虚拟化这样的技术通过软件产品的形式迭代出来,去充分发挥底层硬件的能力,把相应的技术红利释放给客户。

算力池化

除了软硬一体,阿里云异构计算产品展现出来的另一个发展趋势,是算力池化,带来了对算力更加灵活的调度能力。

一直以来,用户在云上选择GPU算力的时候,都是受规格配比限制的,比如内存和GPU之间只有特定几个比例。可是每个AI推理模型之间需要的资源配比是千差万别的。

阿里云异构计算今年推出弹性加速计算实例EAIS,通过软件池化的方式,在国内云厂商中首次实现GPU、FPGA、NPU等异构加速器与CPU/内存的解耦。

EAIS为客户提供了一个异构算力池,用户可以将需要的GPU资源量搭配到任何一款阿里云ECS服务器中,根据不同应用需求灵活优化CPU/内存与GPU之间的比例,匹配适合的资源组合,在提升AI推理效率的同时大幅降低成本。

全面布局

AI下半场,它的基础设施需要更丰富和多样。

龙欣表示,推理面临的是非常复杂的业务场景,涉及到的技术很可能不只有AI。C端用户用到的一个功能,可能融合了音视频编解码和深度学习等多种技术。异构计算作为底层的基础设施,也需要覆盖多样化的需求。

阿里云异构计算虽然发轫于AI,但它面对的,早已不只AI。

阿里云异构计算产品加持的经典案例,早已不仅仅局限于AI领域。

阿里云异构GPU/FPGA服务器就重点支持了天猫双11晚会直播的实时视频转码,服务了4k、1080p、720p等各个分辨率的转码。

业内规模最大的单业务FPGA计算集群,为淘宝提供超过数百万QPS的图片转码处理能力。FPGA云服务器今年首次100%承担双十一淘宝图片流量,预计节省计算成本数亿元。

……

云异构计算的下一步

回顾国内云异构计算产品的发展历程,阿里云无疑是最早布局的云服务商。

据阿里巴巴集团研究员、阿里云弹性计算负责人张献涛介绍,阿里巴巴内部有丰富的业务,这些内部业务为阿里云的技术输出提供了最直观的行业洞察。而反过来,阿里云的技术积累又反哺了集团业务。

这就形成了一个良性的闭环,使得阿里云能够坚定地在云计算业务上进行前瞻性的布局。

那么,在第三阶段之后,云异构计算将向何处去,阿里云又是如何判断的呢?

阿里云异构计算产品负责人潘岳谈到,从产品的角度而言,未来云异构计算的发展,一定是一个生态化的过程。

一方面,是阿里云这样的底层基础设施,被行业ISV(独立软件开发商)、解决方案公司集成,赋能AI等领域的创新实践。

另一方面,是与英伟达这样的加速器厂商加强合作,进一步丰富加速器的硬件生态。

而站在技术角度,阿里云异构计算研发总监龙欣表示,接下来,单一加速器将不再能满足AI、视频编解码等诸多领域的业务需求,加速器硬件融合的趋势已经显现。

未来,异构计算在技术上有可能出现这样一次新的变革:通过软件池化解耦和硬件池化解耦,把多种加速器融合在一起,去满足AI等行业中业务落地阶段更广泛的加速需求。

这也将是阿里云下一阶段的重点探索方向。

并且,随着5G的布局,随着视频等可视化计算需求的增长,云异构计算不仅仅是在AI领域,也将在视频、云游戏等更多行业中扮演更加重要的角色。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    8003

    浏览量

    143100
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261515
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123905
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    金属之躯,AI之心:萤石智能锁如何卷出新高度

    智能锁卷到尽头,萤石用AI开启下半场
    的头像 发表于 10-11 16:18 5296次阅读
    金属之躯,<b class='flag-5'>AI</b>之心:萤石智能锁如何卷出新高度

    睿海光电800G光模块助力全球AI基建升级

    测试。 四、合作案例:赋能全球头部客户AI计算升级 睿海光电的解决方案已深入多个行业标杆场景: 数据中心互联:为东南亚某顶级IDC服务商部署800G SR8硅光模块,单机架带宽提升4倍,功耗降低
    发表于 08-13 19:05

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    器件敏捷调配。 定制化服务:支持OEM/ODM/JDM模式,满足客户从标准品到液冷模块的多元化需求。 这一优势已助力多家头部服务商在AI平台部署中抢占市场窗口期。 三、广泛兼容性:
    发表于 08-13 19:01

    全能底座 | SNM980赋能端侧AI技术应用的全新阶段

    随着AI应用进入下半场AI技术的投入更多地从通用大语言模型研发攻坚转向垂直赛道的应用,更加聚焦实用性和可落地。同时AI技术的应用模式正从用
    的头像 发表于 08-06 17:05 1171次阅读
    全能底座 | SNM980赋能端侧<b class='flag-5'>AI</b>技术应用的全新阶段

    人工智能重塑电子产业链未来

    AI大模型下半场,应用端的想象力爆炸,有望真正改变一个时代的用户行为的“杀手级应用”初现江湖。
    的头像 发表于 06-23 11:37 912次阅读

    NVIDIA AI如何助力艺术创意落地

    本次 GTC 将在欧洲著名艺术之都巴黎举办,特别策划的艺术画廊将展示 AI 如何助力创意落地,实现技术与灵感碰撞的愿景。
    的头像 发表于 06-12 15:26 797次阅读

    能效提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、能效和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 3453次阅读

    RAKsmart智能算力架构:异构计算+低时延网络驱动企业AI训练范式升级

    AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临算力效率与成本的双重挑战。RAKsmart推出的智能算力架构,以异构计算资源池化与超低时延网络为核心,重构AI训练基
    的头像 发表于 04-17 09:29 597次阅读

    RK3588核心板在边缘AI计算中的颠覆性优势与场景落地

    框架部署需大量手动优化,延误项目交付。 明远智睿RK3588核心板的核心优势 异构计算架构: 采用4×Cortex-A76(2.4GHz)+4×Cortex-A55(1.8GHz)设计,兼顾高性能
    发表于 04-15 10:48

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    RZ/V2N——近期在嵌入式世界2025新发布,为 AI 计算、嵌入式系统及工自动化提供强大支持。这款全新的计算平台旨在满足开发者和企业用户对高性能、低功耗和灵活扩展的需求。 [](
    发表于 03-19 17:54

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    制程、异构计算、高带宽内存和可重构架构展开,应用领域涵盖 AI、5G、数据中心、自动驾驶和工业物联网。通过优化生态系统、制定有效市场策略、应对挑战,FPGA 将在多个领域继续发挥关键作用。
    发表于 03-03 11:21

    科技荣获亚马逊科技生成式AI能力认证

    助力企业加速生成式AI应用落地 北京2025年2月14日 /美通社/ -- 管理服务提供商聚科技获得亚马逊
    的头像 发表于 02-14 16:07 700次阅读

    科技荣获亚马逊科技生成式AI能力认证 助力企业加速生成式AI应用落地

    、数据处理、模型调优到应用集成与部署等方面,助力企业加速生成式AI应用落地。此外,聚科技还基于亚马逊科技打造RAGPro企业知识库、
    发表于 02-14 13:41 323次阅读

    高阶智驾下半场,谁主沉浮?

    时间进入2025年,自动驾驶行业已然走入了下半场。以高阶智能驾驶技术为代表的前沿创新,正逐渐取代高级辅助驾驶系统,成为各车企角逐的核心战场。从特斯拉以FSD为标志的端到端大模型,到国内华为、小鹏等品
    的头像 发表于 02-06 09:39 4891次阅读

    异构计算的概念、核心、优势、挑战及考虑因素

    异构计算就像是一支由“多才多艺”处理器组成的团队,每个成员都有自己的强项和责任。   什么是异构计算‍‍‍‍‍ “异构计算”指的是在同一个计算平台中,部署多种不同类型的处理单元(比如
    的头像 发表于 01-13 11:43 1656次阅读