AI能否真正落地？云上异构计算助力AI下半场-电子发烧友网

今年都在说AI技术落地。AI到底有没有真正落地？可能得真实数字说了才算。

IDC今年7月发布的一份报告显示，2018至2024年，中国AI云服务市场年复合增长率将达到93.6%。

当然，高增速也不一定是真正的行业繁荣，行业的结构变化更能说明天平倾斜的方向。

阿里云最近有一组数字值得玩味：四年前，云上的训练任务占比超过80%；而如今，推理任务所占算力比重已经基本过半。

阿里云透露，这背后主要是因为4年以来，AI行业悄然发生的变化：云端进行推理的需求，比训练需求的增长要快得多。占比过半标志推理将是未来更为主流的云上AI计算需求，也说明AI行业已经从创业和从研发和创业为主，真正走向落地。

为什么这么说？

阿里云异构计算研发总监龙欣解释，训练是更偏后端研发的阶段。而推理更多是把成熟的产品推广到市场上规模化应用，从这个角度来看，算力是处于训练还是处于推理，其实就能判断这个产品在AI上的技术是否开始了大规模落地。

而阿里云还透露了一组数字，最初云端GPU上线时，只有少数几家互联网企业和人工智能技术创业公司，租用算力来验证自己的商业模式和业务探索；现在AI用户已覆盖智能智造、医疗、教育等数十个行业。

例如，今年的疫情让在线教育等行业迅速增长。阿里云透露，在线教育是过去一年里对异构计算需求增长最迅速的行业，已经增长了近200%。这也侧面反映了这个行业AI应用的快速落地。

“实际上，AI已经进入到了下半场。推理业务的多样化也带来了异构场景和器件的多样化，云游戏、5G都是现在非常受关注的赛道。”龙欣表示，云上异构计算也在支撑更多的新兴赛道。

AI技术已经到了不是少数人少数企业的“自嗨”，开始走向传统行业，全面开花。

总而言之，AI已经从重训练的研发阶段，进入训练推理并重的落地阶段，而且应用面越来越广。

从算法到“算法+算力”

以深度学习为代表的AI技术飞速发展，对于算力的需求也在暴增。OpenAI的年度报告显示，从AlexNet到AlphaGo Zero，短短6年时间里，最先进AI模型算力需求增长了30万倍。

算法固然是提升AI技术的核心，但是想要AI快速落地，最“简单粗暴”的办法就是叠加算力。今年出现的超大自然语言模型GPT-3就是典型的例子。

另一方面，更偏研发行为的训练阶段，对算力的需求是有天花板的，与具体业务规模不直接关联。而如今AI产品的落地，意味着随着前端用户规模的扩大，对应推理业务模型对算力的需求是会呈现线性甚至爆发式增长的。比如，阿里云曾经在数天内为一款爆款AI产品“弹出”了数万片云上GPU，抓住了涌入的用户。

“巧妇难为无米之炊”，掌握算力资源的AI基础设施成为AI从概念到落地的重要支撑。

AI已经从以单一的算法为核心逐渐演变为算法、算力双核心。

云，无疑是获取算力最便捷与灵活的方式。通过云，企业可以随时获得充足的云端AI算力。

作为基础设施提供商的云计算，为满足行业发展，堆硬件是必经之路，但提供AI算力并不等同于单纯堆硬件，如果没有全面的软硬件技术，只会得到1+1<2的效果。

如何调度这些资源，解决用户在使用时的性能损失，是云计算厂商必须考虑的问题。

云异构计算的三个阶段

这就要从云上AI基础设施的发展阶段说起。

云上异构计算作为最能发挥AI效率的计算方式，其发展可以分为三个阶段：

第一个阶段，是异构计算需求的从0到1。

在2013年AlexNet依靠GPU达到80%准确率，展现了GPU在AI算力提供上的能力这给业界开辟了一条新路。淘宝拍立淘、新浪微博等等，就开始尝试利用GPU来开发机器学习产品。2016年，阿里云迈出了第一步：启动异构计算业务，主要是服务了第一批寻求AI创新的客户的需求。在这个阶段，主要解决了企业对异构算力的从有到无。

第二个阶段，是规模化。

在2016年AlphaGo大放异彩之后，深度学习等AI技术开始从实验室走向工业界。随着大量互联网企业开始对人工智能算法研发进行重点投入，AI算力的瓶颈也日益凸显。

大量模型训练的需求，以及对大算力需求的不断增长，推动了规模化、强弹性、高性能的云上计算基础设施的落地。阿里云也开始规模化部署云上异构算力。

短短3年时间，阿里云已经拥有超大规模的云上异构计算集群，每秒能支撑100亿亿次的异构运算，相当于在1秒内看懂超过5.3亿张图片、翻译4千万句话、识别9.2万小时长的语音。

而正如前文所说，2020年，人工智能行业的拐点已经到来，AI真正从研发和创业，走向了落地实践。这也就驱动着异构计算产品进入了第三阶段。

第三阶段的特征，是精细化和多样化。

当AI从研发走向落地，训练场景就将面临更为复杂多样的业务，对于企业客户而言，上云的需求也就从大算力，聚焦到了降低推理成本和极速部署等方面，同时场景也更为多样。

不难看出，这三个阶段的变化，是技术进步和行业发展共同促进的结果。

而第二阶段构建面向大计算的基础设施，可以说是所有云厂商的必经之路，也仍然是目前许多厂商的竞争重点。

但在基础设施之上，如何让客户能进一步快速调用资源，在AI落地的过程中进一步降本增效？

作为中国云计算市场份额最高的云服务商，阿里云已经率先迈出了这一步，给出的答案是——

软硬一体

软硬一体，在2017年就已成为头部云服务厂商的共识。

为了云计算的一大顽疾——通过虚拟机搭建云的过程中，虚拟化带来的性能损耗问题，2017年9月，阿里云推出第一代神龙架构，在整个行业中首次以软硬结合的设计方式实现了性能的0损耗。而大洋彼岸的AWS也同样在2017年底推出了类似产品AWS Nitro架构。

在此基础之上，现在，阿里云异构计算针对垂直行业，进一步提供了让云上资源变得更高效、更易用的软件工具。

比如针对人工智能行业的神龙AI加速引擎（AIACC）。

在大规模深度学习场景中，大规模GPU资源不仅导致了高运维成本，随着机器数的增加，不同机器GPU之间的配合难度也会变大，导致单张GPU卡的利用率反而下降。AIACC则可以通过对通讯、带宽等进行深度优化，提升资源协作效率和利用率

在AIACC的加持之下，今年3月，阿里云获得了斯坦福大学DAWNBench ImageNet四个榜单的世界第一。

根据已经落地的实际案例，AIACC可以帮助客户在云上训练场景下，提升2倍到14倍的性能；在推理场景下，提升2倍到6倍的性能。

AI芯片领域的独角兽地平线，与阿里云AIACC团队紧密合作，将基于阿里云异构计算的分布式训练性能提升4倍，让地平线算法研发效率得以显著的提升，成本得以大幅下降。

阿里内部，以阿里云IoT的图像分类业务为例。AIACC团队和IoT智能业务研发团队合作，将大规模图像分类分布式训练性能提升5倍。

另一阿里异构独有的软件产品，便是分片cGPU容器技术，能让客户通过容器来调度底层GPU资源，以更细颗粒度调度使用GPU，提高GPU资源利用率，达到降本增效的目的。

阿里云异构计算产品负责人潘岳也进一步对量子位解释了“软硬一体”的必要性：

单纯从算力的角度来说，硬件相当修路时用到的水泥、石块这样的基础。但仅仅是基础的堆叠显然是不足以解决问题的。

硬件资源为底层的基础设施之上，需要将虚拟化这样的技术通过软件产品的形式迭代出来，去充分发挥底层硬件的能力，把相应的技术红利释放给客户。

算力池化

除了软硬一体，阿里云异构计算产品展现出来的另一个发展趋势，是算力池化，带来了对算力更加灵活的调度能力。

一直以来，用户在云上选择GPU算力的时候，都是受规格配比限制的，比如内存和GPU之间只有特定几个比例。可是每个AI推理模型之间需要的资源配比是千差万别的。

阿里云异构计算今年推出弹性加速计算实例EAIS，通过软件池化的方式，在国内云厂商中首次实现GPU、FPGA、NPU等异构加速器与CPU/内存的解耦。

EAIS为客户提供了一个异构算力池，用户可以将需要的GPU资源量搭配到任何一款阿里云ECS服务器中，根据不同应用需求灵活优化CPU/内存与GPU之间的比例，匹配适合的资源组合，在提升AI推理效率的同时大幅降低成本。

全面布局

AI下半场，它的基础设施需要更丰富和多样。

龙欣表示，推理面临的是非常复杂的业务场景，涉及到的技术很可能不只有AI。C端用户用到的一个功能，可能融合了音视频编解码和深度学习等多种技术。异构计算作为底层的基础设施，也需要覆盖多样化的需求。

阿里云异构计算虽然发轫于AI，但它面对的，早已不只AI。

阿里云异构计算产品加持的经典案例，早已不仅仅局限于AI领域。

阿里云异构GPU/FPGA服务器就重点支持了天猫双11晚会直播的实时视频转码，服务了4k、1080p、720p等各个分辨率的转码。

业内规模最大的单业务FPGA计算集群，为淘宝提供超过数百万QPS的图片转码处理能力。FPGA云服务器今年首次100%承担双十一淘宝图片流量，预计节省计算成本数亿元。

……

云异构计算的下一步

回顾国内云异构计算产品的发展历程，阿里云无疑是最早布局的云服务商。

据阿里巴巴集团研究员、阿里云弹性计算负责人张献涛介绍，阿里巴巴内部有丰富的业务，这些内部业务为阿里云的技术输出提供了最直观的行业洞察。而反过来，阿里云的技术积累又反哺了集团业务。

这就形成了一个良性的闭环，使得阿里云能够坚定地在云计算业务上进行前瞻性的布局。

那么，在第三阶段之后，云异构计算将向何处去，阿里云又是如何判断的呢？

阿里云异构计算产品负责人潘岳谈到，从产品的角度而言，未来云异构计算的发展，一定是一个生态化的过程。

一方面，是阿里云这样的底层基础设施，被行业ISV（独立软件开发商）、解决方案公司集成，赋能AI等领域的创新实践。

另一方面，是与英伟达这样的加速器厂商加强合作，进一步丰富加速器的硬件生态。

而站在技术角度，阿里云异构计算研发总监龙欣表示，接下来，单一加速器将不再能满足AI、视频编解码等诸多领域的业务需求，加速器硬件融合的趋势已经显现。

未来，异构计算在技术上有可能出现这样一次新的变革：通过软件池化解耦和硬件池化解耦，把多种加速器融合在一起，去满足AI等行业中业务落地阶段更广泛的加速需求。

这也将是阿里云下一阶段的重点探索方向。

并且，随着5G的布局，随着视频等可视化计算需求的增长，云异构计算不仅仅是在AI领域，也将在视频、云游戏等更多行业中扮演更加重要的角色。
编辑：hfy

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

云计算

云计算

+关注

关注
38

文章
7354

浏览量
135731
人工智能

人工智能

+关注

关注
1776

文章
43899

浏览量
230646
深度学习

深度学习

+关注

关注
73

文章
5239

浏览量
119927

risc-v多核芯片在AI方面的应用

应用中的成本。最后，RISC-V多核芯片不仅可以应用于AI边缘计算领域，还可以扩展到其他领域，如数据中心、云计算、自动驾驶、机器人等，为这些领域提供高效、灵活和安全的解决方案。总的

发表于 04-28 09:20

高通NPU和异构计算提升生成式AI性能

异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担，需要配备不同的处理器，如专注于AI工作负载的定制设计的NPU、CPU和GPU。

发表于 03-06 14:15 •225次阅读

科友提前布局：SiC行业下半场是8吋时代

2023年业内有多家企业陆续推出8英寸碳化硅衬底，成为市场热点，呈现出加速替代6英寸衬底的势头。我们认为，碳化硅行业的下半场就是8英寸的时代，谁的8英寸衬底先出货，谁就能更好地把握住时代机遇。

发表于 01-25 13:48 •143次阅读

自动驾驶下半场竞争的关键技术

随着人工智能技术的不断发展，自动驾驶技术逐渐成为汽车产业的热门话题。在这个领域中，许多公司都在争相研究和开发自动驾驶技术，以期望能够在未来的市场中占据一席之地。然而，随着技术的不断进步和市场竞争的加剧，自动驾驶技术的下半场竞争也愈加激烈。本文将探讨自动驾驶下半场竞争的关键

发表于 12-13 11:10 •539次阅读

燧原科技与青云科技达成战略合作，创新异构算力调度

，AIGC内容生成类模型正在重构互联网商业模式，催生数字经济新突破。随着计算任务的多样化和复杂化，更为高效和灵活的异构计算是未来的发展方向。燧原的“云燧智算集群”与青云AI算力平台的深度适配，可以更好支持

发表于 12-11 12:20 •265次阅读

科学计算与Julia技术研讨会 | 张先轶：从OpenBLAS到异构计算软件栈

蓬勃发展，新兴科学计算语言不断涌现，Julia以其高性能、动态性成为其中的佼佼者。 12月9日上午1020 ，澎峰科技创始人张先轶博士将在主论坛：Julia与数字化和AI 上作 “ 从OpenBLAS到异构计算软件栈”

发表于 11-30 19:35 •411次阅读

科学<b class='flag-5'>计算</b>与Julia技术研讨会 | 张先轶：从OpenBLAS到<b class='flag-5'>异构计算</b>软件栈

昇腾AI框架全栈深度介绍

澎湃算力，同步推出针对AI场景的异构计算架构CANN（Compute Architecture for Neural Networks）

发表于 10-22 16:19 •1777次阅读

请问模型推理只用到了kpu吗？可以cpu，kpu，fft异构计算吗？

发表于 09-14 08:13

新一代计算架构超异构计算技术是什么异构走向超异构案例分析

超异构计算架构是一种将不同类型和规模的硬件资源，包括CPU、GPU、FPGA等，进行异构集成的方法。它通过独特的软件和硬件协同设计，实现了计算资源的灵活调度和优化利用，从而大大提高了计算

发表于 08-23 09:57 •456次阅读

云计算下半场，公有云市场生变，私有云风景独好

下半场突围靠什么？

发表于 08-22 14:27 •211次阅读

异构计算场景下构建可信执行环境

异构计算场景下，如何构建可信执行环境呢？分布式机密计算是一种思路，将CPU上的技术应用到其他的XPU上是另一种思路，但最关键的问题是怎么用。该问题在

发表于 08-15 17:35

占领垂直场景：国产AI大模型的下半场赛事

年初以来，由ChatGPT掀起的人工智能浪潮，再一次催发了中国科技企业拥抱新兴技术的热情。不到半年时间里，百度“文心一言”、阿里“通义千问”、华为云“盘古”等国产自研AI大模型悉数登场。当科技巨头

发表于 07-31 22:56 •306次阅读

复盘SNEC，光伏不是主角？新能源下半场在储能

，我们深切感受到与光伏平分秋色，便是储能。现场更有从业者直言，新能源的下半场就是“储能”。光储时代来临，大厂已开卷为什么是储能？光伏发电易受天气等因素影响，具有间

发表于 06-08 15:05 •306次阅读

KPMG毕马威圆桌论坛丨四维图新成员企业四维智联CEO杨赖土：聚焦电动化下半场

· · · · · · · · · · 6 月 1 日， KPMG 毕马威以 “ 聚焦电动化下半场 — 智能座舱 ” 为主题的圆桌论坛活动在京举行。四维图新成员企业四维智联 CEO 杨赖土作为

发表于 06-04 18:10 •980次阅读

AI边缘计算盒子是如何推动边缘AI应用落地的

AI边缘计算盒子（AI Edge Computing Box）是一种集成了边缘计算和AI算法处理能力的设备，可以用于推动边缘

发表于 05-26 14:08 •702次阅读

搜索历史

AI能否真正落地？云上异构计算助力AI下半场

评论

risc-v多核芯片在AI方面的应用

高通NPU和异构计算提升生成式AI性能

科友提前布局：SiC行业下半场是8吋时代

自动驾驶下半场竞争的关键技术

燧原科技与青云科技达成战略合作，创新异构算力调度

科学计算与Julia技术研讨会 | 张先轶：从OpenBLAS到异构计算软件栈

昇腾AI框架全栈深度介绍

请问模型推理只用到了kpu吗？可以cpu，kpu，fft异构计算吗？

新一代计算架构超异构计算技术是什么异构走向超异构案例分析

云计算下半场，公有云市场生变，私有云风景独好

异构计算场景下构建可信执行环境

占领垂直场景：国产AI大模型的下半场赛事

复盘SNEC，光伏不是主角？新能源下半场在储能

KPMG毕马威圆桌论坛丨四维图新成员企业四维智联CEO杨赖土：聚焦电动化下半场

AI边缘计算盒子是如何推动边缘AI应用落地的