电子发烧友网综合报道 在当前人工智能(AI)领域,算力资源的高效利用已成为各大科技公司争相追逐的目标。近日,阿里云提出的创新计算池化解决方案“Aegaeon”成功入选顶级学术会议SOSP2025。

SOSP(操作系统原理研讨会)是由ACM SIGOPS主办的计算机系统领域顶级学术会议,每年仅收录数十篇论文,被誉为计算机操作系统领域的“奥斯卡”。
在过去的几个月里,阿里云对Aegaeon系统进行了为期超过三个月的Beta测试,结果显示,该系统在服务参数量高达720亿的大型AI模型时,所需的英伟达H20 GPU数量从1192个减少至213个,削减比例高达82%。
这一显著的减少不仅意味着阿里云可以大幅降低硬件采购成本,更是为那些依赖成千上万张GPU进行模型服务的大型企业提供了宝贵的经验与借鉴。以服务数十个720亿参数大模型为例,原本需要1192张GPU才能完成的任务,现在仅需213张即可胜任,硬件成本锐减超80%。
通过数据分析,阿里云发现,现有模型市场中,少数热门模型(例如阿里的Qwen)承载了绝大多数用户请求,而大量不常被调用的“长尾”模型却各自占用大量GPU资源。数据显示,曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置现象相当严重。
Aegaeon系统通过GPU资源池化的方式,打破了传统“一个模型绑定一个GPU”的低效模式,实现了更高效的资源配置。具体而言,Aegaeon将多个GPU的计算、内存等抽象成一个资源池,按需分配给不同的任务,避免了单个任务独占资源导致的闲置。
Aegaeon系统的核心创新点在于Token级调度。该系统的多模型混合服务功能能够在每次生成下一个token时动态决定是否切换模型,从而实现精细化管理。通过组件复用、显存精细化管理以及KV缓存同步优化等全栈技术,Aegaeon将模型切换的开销降低了97%。
这一技术确保了token级调度的实时性,使得模型切换响应时间可支持亚秒级的快速反应。据介绍,Aegaeon系统支持单个GPU同时服务多达7个不同模型,相比于现有主流方案,其有效吞吐量提升了1.5至9倍,处理能力提高了2至2.5倍。
Aegaeon的落地将推动算力租赁行业从“按卡计费”转向“按实际使用量计费”,企业可通过弹性调度降低闲置成本。据测算,采用该技术的云服务商可将算力租赁价格降低40%-60%,加速AI普惠化。
随着AI技术的不断进步,对算力的需求将持续增长。GPU资源的高效利用,是实现AI规模化应用的关键。阿里云的Aegaeon方案,为AI算力效率提升提供了新的思路和解决方案,未来有望在更多云计算平台和AI应用场景中得到推广和应用。

SOSP(操作系统原理研讨会)是由ACM SIGOPS主办的计算机系统领域顶级学术会议,每年仅收录数十篇论文,被誉为计算机操作系统领域的“奥斯卡”。
在过去的几个月里,阿里云对Aegaeon系统进行了为期超过三个月的Beta测试,结果显示,该系统在服务参数量高达720亿的大型AI模型时,所需的英伟达H20 GPU数量从1192个减少至213个,削减比例高达82%。
这一显著的减少不仅意味着阿里云可以大幅降低硬件采购成本,更是为那些依赖成千上万张GPU进行模型服务的大型企业提供了宝贵的经验与借鉴。以服务数十个720亿参数大模型为例,原本需要1192张GPU才能完成的任务,现在仅需213张即可胜任,硬件成本锐减超80%。
通过数据分析,阿里云发现,现有模型市场中,少数热门模型(例如阿里的Qwen)承载了绝大多数用户请求,而大量不常被调用的“长尾”模型却各自占用大量GPU资源。数据显示,曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置现象相当严重。
Aegaeon系统通过GPU资源池化的方式,打破了传统“一个模型绑定一个GPU”的低效模式,实现了更高效的资源配置。具体而言,Aegaeon将多个GPU的计算、内存等抽象成一个资源池,按需分配给不同的任务,避免了单个任务独占资源导致的闲置。
Aegaeon系统的核心创新点在于Token级调度。该系统的多模型混合服务功能能够在每次生成下一个token时动态决定是否切换模型,从而实现精细化管理。通过组件复用、显存精细化管理以及KV缓存同步优化等全栈技术,Aegaeon将模型切换的开销降低了97%。
这一技术确保了token级调度的实时性,使得模型切换响应时间可支持亚秒级的快速反应。据介绍,Aegaeon系统支持单个GPU同时服务多达7个不同模型,相比于现有主流方案,其有效吞吐量提升了1.5至9倍,处理能力提高了2至2.5倍。
Aegaeon的落地将推动算力租赁行业从“按卡计费”转向“按实际使用量计费”,企业可通过弹性调度降低闲置成本。据测算,采用该技术的云服务商可将算力租赁价格降低40%-60%,加速AI普惠化。
随着AI技术的不断进步,对算力的需求将持续增长。GPU资源的高效利用,是实现AI规模化应用的关键。阿里云的Aegaeon方案,为AI算力效率提升提供了新的思路和解决方案,未来有望在更多云计算平台和AI应用场景中得到推广和应用。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
gpu
+关注
关注
28文章
5272浏览量
136071 -
阿里云
+关注
关注
3文章
1046浏览量
45870
发布评论请先 登录
相关推荐
热点推荐
突发!特朗普批准英伟达H200芯片对华出口,抽成25%
一种“妥协”。此前,英伟达一直希望向中国销售其更先进的Blackwell系列芯片,但美政府目前仍明确表示不赞成。H200芯片性能虽低于Blackwell,但强于此前已获准对华出口的H20
英伟达被传暂停生产H20芯片 外交部回应
据外媒《the Information》在当地时间的8月21日下午爆料称,英伟达可能已经暂停生产H20芯片。据称,英伟达已正式下达指示给到供
今日看点丨传英伟达暂停为中国市场定制H20;估值10亿美元的Character.AI公司或将出售
英伟达 暂停为中国市场定制 H20 据《The Information》周四援引两位直接了解情况的人士的话报道称,英伟达已告知其部分零部件供
发表于 08-22 10:08
•2697次阅读
今日看点丨央媒刊文:H20既不环保,也不先进、更不安全;HBM将以每年30%的速度增长
中加入后门。文章认为,无论从哪个角度讲,H20对于中国来说,都算不上是一款安全的芯片。数据显示,相比H100,H20的整体算力只有约20%,GPU
发表于 08-11 10:47
•2660次阅读
今日看点丨英伟达向台积电订购30万片H20芯片;苹果回应首次在中国关停直营店
改变了仅依赖现有库存的策略。 特朗普政府本月允许英伟达恢复向中国销售H20图形处理器(GPU),推翻了4月份因国家安全担忧而实施的一项有效禁令,该禁令旨在阻止中国获得先进的人工
发表于 07-30 10:02
•2143次阅读
360周鸿祎回应H20解封:近期采购全是国产AI芯片
据第一财经,360 集团创始人周鸿祎在回答 “是否会重启采购英伟达 H20 芯片” 问题时表示,目前 360 对于芯片的采购正往国产芯片方向转变,最近采购的(芯片)都是华为的产品。 关于原因,他
发表于 07-24 09:20
•5163次阅读
英伟达获美批准恢复H20在华销售,同步推出全新兼容GPU
7月15日上午,央广财经记者从英伟达方面确认,英伟达已经获得美国批准,将恢复 H20 在中国的销售,并推出面向中国市场的全新且完全兼容的
中方回应英伟达将对华销售H20芯片 反对将科技和经贸问题政治化
一般不对企业的行为作出具体的评论。我要指出的是,中方反对将科技和经贸问题政治化、工具化、武器化,对中国进行恶意封锁打压的立场是一贯的、明确的。这种做法扰乱全球产供链的稳定,也不符合任何一方的利益。
英伟达黄仁勋:将向中国市场销售H20芯片 中国市场至关重要
,英伟达CEO黄仁勋在北京访问期间发表声明称,将恢复在中国销售其H20 GPU芯片,并根据美国出口限制为中国市场推出一款新的GPU。
英伟达预计向中国客户交付 “第三代” 阉割芯片
电子发烧友网综合报道,消息人士称,英伟达计划于 7 月推出第三代 “阉割芯片”。此次推出的 B20 和 B40/B30 芯片将替代 H20 芯片,试图重新夺回市场份额。 B
今日看点丨英伟达将为中国市场推出新AI芯片 售价大幅低于H20;中科曙光与海光信息宣布战略重组
1. 英伟达将为中国市场推出新AI 芯片 售价大幅低于H20 近日,外媒报道称,美国芯片巨头英伟达据报将为中国市场推出一款基于Black
发表于 05-26 11:06
•1700次阅读
阿里云计算池化方案:英伟达H20 GPU用量削减82%
评论