0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云原生是大模型“降本增效”的解药吗?

科技云报到 来源:jf_60444065 作者:jf_60444065 2024-02-20 09:31 次阅读

科技云报道原创

在过去一两年里,以GPT和Diffusion model为代表的大语言模型和生成式AI,将人们对AI的期待推向了一个新高峰,并吸引了千行百业尝试在业务中利用大模型。

国内各家大厂在大模型领域展开了激烈的军备竞赛,如:文心大模型、通义千问、混元大模型、盘古大模型等等,这些超大规模的模型训练参数都在千亿以上,有的甚至超过万亿级。

即便训练一次千亿参数量模型的成本可能就高达数百万美元,但大厂们依然拼尽全力,除此之外也有很多行业企业希望拥有自己的专属大模型。

对于企业来说,要想在大模型的竞争中胜出,就必须充分利用算力,并且构建高效稳定的服务运行环境,这就对IT基础设施能力提出了更高的要求。

而云原生正是比拼的重要一环。云原生技术的自动化部署和管理、弹性伸缩等功能,能够有效提高大模型应用效率并降低成本。

据Gartner预测,2023年70%的AI应用会基于容器和Serverless技术开发。在实际生产中,越来越多的AI业务,比如自动驾驶、NLP等,也正在转向容器化部署。

那么,云原生是如何帮助大模型降本增效,在这个过程中又遇到了哪些挑战?

云原生成为大模型的标配

近年来,容器和Kubernetes已经成为越来越多AI应用首选的运行环境和平台。

一方面,Kubernetes帮助用户标准化异构资源和运行时环境、简化运维流程;另一方面,AI这种重度依赖GPU的场景可以利用K8s的弹性优势节省资源成本。

随着大模型浪潮的到来,以云原生环境运行AI应用正在变成一种事实标准。

弹性伸缩与资源管理

大模型训练往往需要大量的计算资源,而云原生环境通过容器化和编排工具可以实现资源的弹性调度与自动扩缩容。

这意味着在大模型训练过程中可以迅速获取所需资源,并在任务完成后释放资源,降低闲置成本。

分布式计算支持

云原生架构天然支持分布式系统,大模型训练过程中的并行计算需求可以通过云上的分布式集群轻松实现,从而加速模型收敛速度。

微服务架构与模块化设计

大模型推理服务可以被分解为多个微服务,比如预处理服务、模型加载服务和后处理服务等,这些服务能够在云原生环境中独立部署、升级和扩展,提高系统的可维护性和迭代效率。

持续集成/持续部署(CI/CD)

云原生理念强调快速迭代和自动化运维,借助CI/CD流程,大模型的研发团队能够以更高效的方式构建、测试和部署模型版本,确保模型更新的敏捷性。

存储与数据处理

云原生提供了多种数据持久化和临时存储解决方案,有助于解决大模型所需的大量数据读取和写入问题。

同时,利用云上大数据处理和流式计算能力可以对大规模数据进行有效预处理和后处理。

可观测性和故障恢复

在云原生环境下,监控、日志和追踪功能完善,使得大模型服务的状态更加透明,遇到问题时能更快地定位和修复,保证服务高可用性。

总体而言,云原生架构的诸多优势契合了大模型在计算密集、数据驱动、迭代频繁等方面的需求,能够为大模型带来成本、性能、效率等多方面的价值,因而成为大模型发展的标配。

大模型对云原生能力提出新挑战

尽管云原生对于大模型有着天然的优势,但是面对LLM、AIGC这样的新领域,依然对云原生能力提出了更多挑战。

在训练阶段,大模型对计算、存储、网络等基础架构的要求都更高。

规模上,要训练出具有广泛知识和专业领域理解及推理能力的大语言模型,往往需要高达万卡级别的GPU集群和PB级的数据存储以及TB级的数据吞吐。

此外,高性能网络也将达到单机800Gbps甚至3.2Tbps的RDMA互联。

性能方面,随着模型体积和参数量的增长,单张显卡已无法承载完整的模型。因此需要使用多张显卡进行分布式训练,并采用各种混合并行策略进行加速。

这些策略包括数据并行、模型并行、流水线并行以及针对语言模型的序列并行等,以及各种复杂的组合策略。

在推理阶段,大模型需要提供高效且稳定的推理服务,这需要不断优化其性能,并确保服务质量(QoS)得到保证。

在此基础上,最重要的目标是提高资源效率和工程效率。一方面,持续提高资源利用效率,并通过弹性扩展资源规模,以应对突发的计算需求。

另一方面,要最优化算法人员的工作效率,提高模型迭代速度和质量。

由此可见,大模型对云原生技术提出了新的能力要求:

一是,统一管理异构资源,提升资源利用率。

从异构资源管理的角度,对IaaS云服务或者IDC内的各种异构计算(如 CPU,GPU,NPU,VPU,FPGAASIC)、存储(OSS,NAS, CPFS,HDFS)、网络(TCP, RDMA)资源进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。

在运维过程中,需要多维度的异构资源可观测性,包括监控、健康检查、告警、自愈等自动化运维能力。

对于宝贵的计算资源,如GPU和NPU等加速器,需要通过各种调度、隔离和共享的方法,最大限度地提高其利用率。

在此过程中,还需要持续利用云资源的弹性特征,持续提高资源的交付和使用效率。

二是,通过统一工作流和调度,实现 AI、大数据等多类复杂任务的高效管理。

对于大规模分布式AI任务,需要提供丰富的任务调度策略,如Gang scheduling、Capacity scheduling、Topology aware scheduling、优先级队列等,并使用工作流或数据流的方式串联起整个任务流水线。

同时,需兼容Tensorflow,Pytorch,Horovod,ONNX,Spark,Flink等各种计算引擎和运行时,统一运行各类异构工作负载流程,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。

一方面不断提升运行任务的性价比,另一方面持续改善开发运维体验和工程效率。

此外,在计算框架与算法层面适配资源弹性能力,提供弹性训练和弹性推理服务,优化任务整体运行成本。

除了计算任务优化,还应关注数据使用效率的优化。为此,需要统一的数据集管理、模型管理和访问性能优化等功能,并通过标准API和开放式架构使其易于被业务应用程序集成。

对于大模型还有一个主要能力,就是能够在分钟级内准备好开发环境和集群测试环境,帮助算法工程师开始执行深度学习任务。

把端到端的 AI 生产过程通过相同的编程模型、运维方式进行交付。

结语

随着大模型等AI技术的不断发展,云原生技术将面临一些新的挑战和需求。例如,如何快速适应新的开源大模型训练方法,以及如何提高大模型推理性能并确保其质量和稳定性。

同时,也需要关注一些前沿技术和创新能力,通过标准化和可编程的方式来集成,不断迭代业务应用,形成 AI+ 或 LLM+ 的新应用开发模式和编程模型。

但无论技术如何发展,为大模型提供快速、准确、稳定且成本可控的服务,保证大模型训练和推理的成本、性能和效率,都将成为企业为其价值买单的根本。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能区块链等领域。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264044
  • 云原生
    +关注

    关注

    0

    文章

    222

    浏览量

    7843
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1101
收藏 人收藏

    评论

    相关推荐

    智能电表使用国产SF25C20晶圆合封MCU助力企业降本增效

    智能电表使用国产SF25C20晶圆合封MCU助力企业降本增效
    的头像 发表于 04-15 09:24 90次阅读
    智能电表使用国产SF25C20晶圆合封MCU助力企业<b class='flag-5'>降本增效</b>

    N型光伏电池降本增效:铜电镀技术驱动行业发展

    铜电镀技术是近年来异质结电池实现降本增效的重要技术路线之一,其优势在于比传统银浆的导电性能强,且低接触电阻,使用铜电镀技术可提升转换效率。在银价不断波动的市场行情下,铜电镀技术受到诸多生产商关注
    的头像 发表于 03-21 08:32 597次阅读
    N型光伏电池<b class='flag-5'>降本增效</b>:铜电镀技术驱动行业发展

    米哈游大数据云原生实践

    近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,在云上运行
    的头像 发表于 01-09 10:41 263次阅读
    米哈游大数据<b class='flag-5'>云原生</b>实践

    云原生技术前沿落地实践分论坛圆满举办

    12 月 16 日,2023 开放原子开发者大会【云原生技术前沿落地实践】分论坛在无锡成功举办。论坛将聚焦云原生的泛在化、Serverless 化以及智能化等前沿发展趋势,与一线技术专家及最终用户
    的头像 发表于 12-22 09:20 564次阅读
    <b class='flag-5'>云原生</b>技术前沿落地实践分论坛圆满举办

    智佳能:锂电智造升级与降本增效

    要拿到新能源新赛段的入场券,对于装备企业而言,一是要装备本身降本,二是产线投资降本,三是赋能电池在生产运营中长期降本
    的头像 发表于 12-13 10:54 522次阅读

    让产业智能化触手可及,思必驰推出大模型应用平台

    目前,国内大部分厂商主要针对To C方向研发大模型,集中在聊天、写作、问答等C端场景,对产业的渗透仍有很大空间。如何把大模型的能力释放至千行百业中,为企业降本增效,是未来大模型发展的重
    的头像 发表于 12-01 16:41 461次阅读

    聚焦降本增效 拉普拉斯IPO加码行业布局

    降本增效是光伏行业持续发展的目标,过去十余年,光伏行业在降本增效层面取得了巨大的进步和成就。随着设备工艺、技术等逐渐成熟,行业内领先企业开始在新型高效光伏电池片领域进行布局,TOPCon、XBC
    的头像 发表于 10-10 17:16 320次阅读

    降本增效时代,锂电正极材料如何“智造”升级?

    目前来看,行业内数字化、智能化转型正从观念、目标、口号过渡至具体方案落地、逐步向锂电全域工厂渗透。以数字化、智能化技术为媒,助力工厂优化生产模式,真正实现由制造到“智造”,达到极致“降本增效”。
    的头像 发表于 09-18 15:38 460次阅读

    软硬件免费提供,360安全云助力企业降本增效

    360全面发力安全托管运营服务,颠覆传统商业模式,软硬件均免费,客户只需要根据需求为服务付费,固定成本收入大幅降低,真正实现降本增效
    的头像 发表于 09-01 14:39 402次阅读
    软硬件免费提供,360安全云助力企业<b class='flag-5'>降本增效</b>

    制造业降本增效的关键策略与实践

    在当前竞争激烈的制造业市场,降本增效成为企业追求盈利和持续发展的核心目标。通过有效的管理和创新实践,制造业企业可以取得降低成本、提高效率的显著成果。本文将着重探讨几个关键策略与实践,帮助制造业企业
    的头像 发表于 08-30 21:18 669次阅读
    制造业<b class='flag-5'>降本增效</b>的关键策略与实践

    中国移动网络云原生演进技术白皮书

    云原生是近几年云计算领域炙手可热的话题。目前,无论互联网企业还是传统企业,都在拥抱云原生云原生是包含系列技术体系、系统设计理念、组织管理方法的全面系统变革,其核心要素包含基础设施云原生
    发表于 08-30 12:15 433次阅读
    中国移动网络<b class='flag-5'>云原生</b>演进技术白皮书

    解锁“降本增效”新技能 纵行科技IoT技术赋能汽车供应链物流可视化

    在汽车供应链物流领域,ZETA等物联网技术的应用,提升了供应链物流数据的抓取效率和数据源质量,能够很好地帮助企业提升数字化转型的完成度和落地效果。纵行科技ZETag汽车供应链物流可视化方案,帮助客户实现降本增效的同时,也为汽车行业发展带来了增量价值和全新的技术方案选择。
    的头像 发表于 08-01 11:06 692次阅读
    解锁“<b class='flag-5'>降本增效</b>”新技能 纵行科技IoT技术赋能汽车供应链物流可视化

    纵行科技以IoT技术助力汽车供应链物流可视化,实现降本增效

    在供应链物流领域,纵行科技为客户提供基于ZETA LPWAN的“仓网+路网”的物联网基础设施,服务供应链物流行业实现资产盘点、出入库签到、货物在途追踪可视化,为客户决策提供数据支撑,实现运营管理降本增效
    的头像 发表于 06-07 16:16 474次阅读
    纵行科技以IoT技术助力汽车供应链物流可视化,实现<b class='flag-5'>降本增效</b>

    探索云原生技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

    随着开源成为软件技术创新和协同发展的重要模式,企业对云原生的认知日益强化,越来越多的企业应用云原生技术与产品解决实际问题,云原生进入落地爆发的关键期。IDC报告显示,2023年企业云原生
    的头像 发表于 06-01 14:48 315次阅读
    探索<b class='flag-5'>云原生</b>技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会<b class='flag-5'>云原生</b>分论坛即将启幕

    探索云原生技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

    随着开源成为软件技术创新和协同发展的重要模式,企业对云原生的认知日益强化,越来越多的企业应用云原生技术与产品解决实际问题,云原生进入落地爆发的关键期。IDC报告显示,2023年企业云原生
    的头像 发表于 05-30 01:40 375次阅读
    探索<b class='flag-5'>云原生</b>技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会<b class='flag-5'>云原生</b>分论坛即将启幕