0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI算力调度平台,大模型时代云计算的新生意

甲子光年 来源:甲子光年 2023-09-28 16:57 次阅读

提供AI算力的另一种方式。

大模型时代,云计算厂商如何赚钱?

最常见的方式是提供算力。大模型需要大算力,因此,对算力尤其是英伟达GPU的巨额投入是不可或缺的。英伟达曾透露,2023财年数据中心业务有40%的收入来自超大规模数据中心与云服务商。

但现在,云计算厂商又多了一门新生意。

近期,有“混合云第一股”之称的云厂商青云科技推出了两款新的云产品——AI算力调度平台与AI算力云。AI算力调度平台是一款软件产品,它介于底层的资源层与上层的模型层之间,通过整合不同来源、类型和架构的算力资源,实现统一调度与运营,为用户提供按需获取和调度的服务;AI算力云,就是以青云为主来运营的AI算力服务。

这两款AI算力产品与服务针对的是算力中心的短期建设与中长期运营的需求。青云科技总裁林源表示,今天中国云计算市场处在算力建设阶段,大量的数据中心如雨后春笋般出现,这些建设者有地方政府、国资央企、地方AI集成商等。对于建设者而言,成本与技术的挑战都很大,比如一台最新的一台英伟达服务器高达200万元。如此大的投资,怎么建?建成之后如何运营,如何赚钱?这些问题都需要有人来解决。

青云科技的AI算力调度平台已经成功服务于国家超算济南中心。济南超算中心是一个多元计算中心,对外提供1000P算力、300PB存储,算力类型包括HPC超算,主要服务于山东省的高校;以CPU为主的通用算力,主要服务于传统的政务云、企业数字化应用;以GPU为主的智算,主要服务于智慧城市,以及正在爆发的AI需求。

济南超算中心的建设覆盖了几乎所有产业链上下游公司,但青云科技为其独家提供了算力调度平台,至今已经运营了3年。济南超算中心目前已经盈利。

对于AI算力云服务,不同于大厂选择重金投入GPU来获取稀缺的算力资源,青云科技采用了“轻资产”运营,以生态合作的方式共同运营AI算力。

以济南超算中心为例,建成之后不仅服务于当地企业,也会服务于全国其他地区的企业。当青云科技的客户有算力需求,青云科技可以通过直接调度济南超算的算力向客户提供AI算力资源。因此,青云科技既是济南超算的供应商,也是其渠道商。

这样的案例不在少数。青云科技已经与北京、宁夏、河南、湖北、四川等地区的算力中心建立起合作关系。

在2023年半年报中,青云科技披露AI算力服务的收入超2000万元。林源表示,未来AI算力产品与服务将会成为青云科技营收的主力。

过去十年,中国的云计算市场一共经历了三次比较大的机会。第一次是数字化,移动数字化催生了公有云,产业数字化催生了私有云;第二次是信创与国产替代。而当前爆发的生成式AI,就是第三次大机会。

林源认为,2023年由GPU驱动的智算,正如十年前的2013年由CPU驱动的通用云计算。而这一次的市场规模,要比过去大10倍、甚至100倍。

近期,「甲子光年」等媒体采访了青云科技总裁林源,青云科技产品经理苗慧。以下是专访实录,略经删改:

1.与大厂定位不同

问:青云的算力调度产品有哪些特色?

苗慧:简单举几个例子。第一,青云针对上百台机器的大集群,研发了更加优化的调度算法。比如在调度的链路标签上,尽可能做到调度同一个交换机,减少数据的损耗。第二,在应用环境上,青云应用了K8s和Slurm两种调度平台同时为客户服务,是完全集成好的。在颗粒度和运维传统机器方面,也会有更多的优化。

19bf9d24-5dd6-11ee-939d-92fbcf53809c.jpg

图片来源:青云科技

问:大厂、运营商、私有云厂商也有软件能力,为什么说青云的AI算力调度运营是青云科技的优势?

林源:首先,私有云厂商想做,需要补齐十几年公有云运营的经验。第二,大厂的定位一定是发展自己的云,而不是支持别人去做云,或者说支持第三方做云只是他的一个项目而已,主力还在自己的云产品与服务。

苗慧:比如对于国家超算的人员配置,根本没有研发这个岗位,全都是运维人员。用户通过青云AI算力调度平台,申请10台机器,5分钟内就能得到。否则,运维人员需要两个人部署三天,这就是更多的投入。

问:英伟达今年发布了AI云产品DGX Cloud,青云的产品和英伟达DGX Cloud在定位上有没有相似?

苗慧:DGX-Cloud还是基于硬件。英伟达在今年发布了24台机器的整机,巨大的机器上云一定会有优势。但DGX Cloud不在中国区运营,从资源层和运营层都是其自身的。青云的算力调度产品不仅自己的公有云能用,还能给到任何一家算力中心。

林源:英伟达DGX Cloud还是单一算力,肯定以GPU为主。站在英伟达的角度,他服务于大模型的训练、推理,定位就是面对AI的场景,以及卖GPU卡。而青云科技根据中国市场国情,需要向下兼容,不同的客户需要的芯片算力种类不同,既有GPU,也有CPU、超算。比如我们跟英特尔9系列做适配,一个芯片2T内存,在推理场景比英伟达还要好一些。青云的算力调度平台,针对的是多元算力。

2.“轻资产”提供AI算力

问:青云自身在算力上的投入是怎样的?

林源:GPU不太一样,青云不会跟云大厂拼投资,而是以相对“轻资产”的方式与别人一起运营AI算力云。青云是联合运营方,投资的是技术与产品,但不会花1个亿买几百张卡、几百台服务器。重资产不是青云的价值所在。

问:那谁来做算力层面的投入?

林源:目前来看,算力层面上的投资建设者主要有以下几种:第一种是地方国企和地方央企,例如能源公司,他们有强烈的兴趣将电力转变成算力。第二种是地方政府,他们需要新的工具来促进产业聚集,提升GDP,有些直接进行投资,有些与央企或银行合作。第三种是大模型公司、AI芯片公司等,他们在各地都参与建立了算力中心,但缺乏标准平台,他们也想销售硬件或整合解决方案,通常更愿意与独立的供应商合作。我们之间互为渠道伙伴,青云协助他们进行计算资源调度,并一起提供AI计算资源云服务。

以济南超算为例,济南超算会基于他投资的算力直接卖给他的客户,青云也会出售给青云的客户,青云既是他的供应商,也是他的渠道商。未来所有的本地数据中心建设都会面临这个问题,当地企业会消费一部分,剩余部分他会希望有人帮他消耗。AI算力云与算力调度中心是青云的同构产品,可以进行系统级的产品对接。

19e1e33e-5dd6-11ee-939d-92fbcf53809c.jpg

图片来源:青云科技

问:除了和济南超算有合作外,还有其他的合作方吗?

林源:跟北京、宁夏、河南、湖北、四川等地区有合作。北京是以高校为主,宁夏是地域性的算力投资建设者,四川、湖北是能源公司,河南是地方政府。还有一些小城市,主要是一些AI合作伙伴,对接当地的算力中心后,用青云的调度平台做赋能。

问:青云自己提供云服务和青云给甲方提供算力调度服务,会成为一种竞合的关系吗?

林源:我们先看下市场现状,为什么会有那么多供应商和地区云、国资云、地方私有云平台呢?这是中国的市场形态决定的,每个人都有所属的客户和资源。AI来了之后,市场会不一样吗?我觉得不会那么快改变。

问:很多大模型厂商会选择自己买卡,这类厂商对于青云科技的AI算力云还有需求吗?

林源:大模型厂商自己的规划中,有相对固定的部分,他会更愿意买卡,因为现金充裕,会更加可控,这部分跟青云确实没太大关系。但在模型训练阶段、项目落地阶段,有很多弹性需求,比如他需要训练行业模型,同时希望跟一场算力云厂商合作提供MaaS的服务。大模型公司一定会买一部分,自建一部分。

问:目前市场上算力资源不够,怎么办?

林源:算力不够的核心是GPU的供货问题,不在于我们。用户一般是签完合同后等着我们的算力供应,所有厂商都面临相同的问题。但是不同厂商的解法不一样,大厂是靠钱买,青云的方式是与合作伙伴一起。青云的核心是调度平台,但不妨碍青云一起给客户提供AI算力云。

问:在青云开放同盟中,有哪些厂商?青云处于什么地位?

林源:可以分为技术生态和商业生态。技术生态的第一层是GPU、CPU等异构芯片;第二层是模型生态(MaaS),包括主流的商业大模型、开源大模型。在芯片层跟模型层之间,就是算力调度层。算力调度层不仅靠青云,也有很多厂商在做模型的加速和模型的驱动。技术生态还有一环,就是行业ISV。

商业生态,包括我们说的智算中心建设方,以及天然就能帮你售卖的合作伙伴。

问:在AI时代,大家合作的意愿会比以前更强吗?在巨大的市场红利面前,为什么会愿意收益共享?

林源:先谈主观看法,我认为有必要这么做,大家就应该各司其职、合作共赢。现在持这种想法的不只青云一家。哪怕是客户,也不希望一家独大,不希望被一家厂商绑定。他希望在每一个细分领域找到最优秀的人,为他提供整体解决方案。这是一个正常的、合理的商业模式。

第二点是客观。一家企业很难从底层资源到上层应用,自己把做有事情做好,AI时代这会比过去更难。现在的经济环境,要核算投入产出比,需要成为所有行业的专家,才能“单打独斗”,这是一个客观的挑战。

问:AI会给现有的云厂商格局带来一些什么样的变化?青云如何定位自己未来的位置?

林源:AI一定会对于现在的云厂商带来变化。第一,对于底层技术的需求,以及对于合作的模式,都在发生变化。

第二,现在所有人都在同一起跑线上。我判断会有一些新晋做AI Cloud的公司进入市场。传统的IDC已经不适合GPU运行,因为能耗、设计都不一样,传统IDC面临改造升级。

第三,有些云厂商自己也做大模型,青云科技不做,而是深耕AI算力调度平台。面对新的AI应用需求,大家需要很多技术积累、技术迭代,这特别像2013年的云时代。

在资本侧,确实可以自己投资建设,但现在AI不缺投资者与建设者,缺的是运营平台。资本会有影响,但不会像以前那么大。

总结来说,大厂在技术与资本层面并没有明显的优势。我们为什么拥抱AI,因为AI是唯一的增长市场。2017年之前,大家不会考虑增量市场的问题,但之后客户应用在饱和,越来越多的云厂商冒出来,这时候大厂靠自己的品牌以及价格优势在公有云市场上来抢夺机会。现在大家忙的不是竞争,而是在AI时代如何为客户更好地服务,解决算力问题。

3.AI会成为未来营收主力

问:青云科技的半年报显示,今年上半年AI算力服务的收入有2000多万元。青云的算力产品与服务,未来可以带来多大的营收?有哪些期待?

林源:营收数字以公开的财报口径为准。但基本上有这样一个趋势:AI算力现在更多以训练为主,之后我们希望它进入推理阶段。训练的增速是可以期待的,2023年以GPU为主的算力云,就跟2013年以CPU为主的云一模一样。2013-2017这几年,所有云厂商都是100%的增长。

问:AI算力是一个很大的市场,但AI算力调度是否只是其中一小部分市场?

林源:我们看的是两块,第一块AI算力调度本身,这有点像原来传统交付模式的生意。第二块是AI算力云,它既有产品的部分,也有服务的部分。这一部分未来十年的市场空间更大,我觉得是10倍、100倍的增长,而青云科技至少会比上一阶段做到的规模更大。

问:青云现在的营收主力还是私有云,未来AI算力调度会成为营收的主力吗?

林源:我觉得它一定会成为主要的营收,但是它需要点时间。过去青云最早做数字化、做信创业务,尤其过去两年信创占私有云很大一部分,这不是青云决定的,而是市场决定的。之后所有的客户都会往AI迁移,不管是传统客户还是互联网客户,生意模式与运营模式都会由AI驱动。如果不做AI,真的会落后。所以,它一定会成为主营的业务。

问:在AI算力服务这一块,客户需求比较旺盛的主要集中在哪几个领域?

苗慧:主要就是训练。现在大模型作为技术基础,在上层面向不同的行业。只要能标准化的,都在大规模地做模型的训练,然后生产出自己的小模型。在理解人类意图的时候,意图模型也随之更新。所以,如果我要做一个行业,大概要训练3~5个小模型,为这个行业提供服务。

问:青云算力调度平台是一个标准化平台吗?在行业的应用上有没有差别?

林源:青云对算力调度平台的定位就是“产品”,产品就是标准化的。在济南超算这一客户中,会有客制化的部分,但那是他要做的事情,不是青云要做的事情。青云的定位始终是一家软件产品公司,而不是一家项目公司。

问:青云现阶段更希望吸引什么样的行业,或者什么样的行业有更大的意愿采用这一产品?

苗慧:青云AI算力调度平台主要服务于超算中心、区域算力中心、区域电信、区域的一些合作伙伴,我们共同建设起那朵云,共同运营。

第二是青云公有云的AI算力云,主要服务于大模型的开发商。因为大模型开发商也在面向客户提供一些像金融领域的模型、交通领域的模型,它需要大规模的机器进行训练,青云还是面向于这种模型提供商比较多。

第三是青云计划今年年底或者明年,大规模的推理就会上云,因为大规模的训练研发工作会有一个阶段性的成果,推理服务会是之后相对重点的工作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    38

    文章

    7354

    浏览量

    135729
  • AI
    AI
    +关注

    关注

    87

    文章

    26471

    浏览量

    264098
  • 算力
    +关注

    关注

    1

    文章

    659

    浏览量

    14364
  • 大模型
    +关注

    关注

    2

    文章

    1543

    浏览量

    1139

原文标题:AI算力调度平台,大模型时代云计算的新生意|甲子光年

文章出处:【微信号:jazzyear,微信公众号:甲子光年】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浪潮信息发布企业大模型开发平台"元脑企智"EPAI,加速AI创新落地

    of AI),为企业AI模型落地应用提供高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持
    的头像 发表于 04-18 21:21 147次阅读
    浪潮信息发布企业大<b class='flag-5'>模型</b>开发<b class='flag-5'>平台</b>&quot;元脑企智&quot;EPAI,加速<b class='flag-5'>AI</b>创新落地

    浪潮信息发布企业大模型开发平台“元脑企智”EPAI

    应用提供高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持调度多元算力和多模算法,帮助企业高效开发部署生成式AI应用、打造智能生产力。
    的头像 发表于 04-18 10:12 116次阅读
    浪潮信息发布企业大<b class='flag-5'>模型</b>开发<b class='flag-5'>平台</b>“元脑企智”EPAI

    AI时代怎么样不被淘汰?讯飞AI鼠标助力你在AI时代成长

    功能的智能鼠标,将成为你跻身AI时代的利器。 下面来聊聊讯飞AI鼠标都有哪些令人惊艳的AI功能吧 1.星火认知大模型
    的头像 发表于 03-23 11:41 395次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>时代</b>怎么样不被淘汰?讯飞<b class='flag-5'>AI</b>鼠标助力你在<b class='flag-5'>AI</b><b class='flag-5'>时代</b>成长

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型开发效率提升10倍

    北京2024年2月29日 /美通社/ -- 近日,潞晨科技Colossal-AI模型开发工具与浪潮信息AIStation智能业务创新生平台完成兼容性互认证。基于AIStation
    的头像 发表于 03-01 09:43 239次阅读
    潞晨科技Colossal-<b class='flag-5'>AI</b> + 浪潮信息AIStation,大<b class='flag-5'>模型</b>开发效率提升10倍

    小米14 Ultra将搭载首个AI模型计算摄影平台

    近日,小米官方发布消息,其即将推出的旗舰手机小米14 Ultra将搭载业界首个AI模型计算摄影平台——Xiaomi AISP。这一创新技术平台
    的头像 发表于 02-25 17:20 659次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    AI模型怎么解决芯片过剩?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:42:05

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29

    强劲的AI边缘计算盒子# 边缘计算

    AI边缘计算
    成都华江信息
    发布于 :2023年11月24日 16:31:06

    【KV260视觉入门套件试用体验】Vitis AI 构建开发环境,并使用inspector检查模型

    、低成本的 AI 解决方案。 Vitis AI 可以做什么? Vitis AI 可以做很多事情,例如: 优化和编译深度学习模型,使其适应赛灵思硬件
    发表于 10-14 15:34

    英码科技精彩亮相火爆的IOTE 2023,多面赋能AIoT产业发展!

    产品,包括覆盖多层次的智能工作站(边缘计算盒子)、AI加速卡等;同时向大家展示自研的AI技术服务——“深元”0代码移植工具链和创新性的行
    发表于 09-25 10:03

    算力为基,共筑AI新生

    ,打造开放、易用平台,使能百模千态,共赢数智未来。 华为计算产品线总裁张熙伟 以下是演讲全文 尊敬的伙伴、开发者朋友们,大家上午好! 很高兴与大家再次相聚在华为全联接大会2023,分享计算产业的生态进展与规划,畅想
    的头像 发表于 09-22 23:00 481次阅读
    算力为基,共筑<b class='flag-5'>AI</b><b class='flag-5'>新生</b>态

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    平台通过软硬件深度协同,较经典方案提升超 8 成性能,支持运行 170 余个主流 AI 模型,推动 RISC-V 进入高性能 AI 应用时代
    发表于 08-26 14:14

    华为发布大模型时代AI存储新品

    7月14日,华为发布大模型时代AI存储新品, 为基础模型训练、行业模型训练,细分场景模型训练推理
    的头像 发表于 07-14 15:20 545次阅读
    华为发布大<b class='flag-5'>模型</b><b class='flag-5'>时代</b><b class='flag-5'>AI</b>存储新品

    AIStaiton,有效提升大模型算力平台效率

    作为专为人工智能开发和部署提供全流程支持的端到端平台,AIStation能够以强大的资源调度和管理能力助力客户加速AI模型开发与部署,通过对计算
    的头像 发表于 06-30 15:06 363次阅读