0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

神州鲲泰推出全新智算架构及硅光+液冷整机柜,破解多云异构绿色智算难题

科技数码 来源:科技数码 作者:科技数码 2024-05-15 16:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在数字经济时代,算力资源已经成为新的“能源”,为人工智能云计算等等科技界前沿领域持续供能。5月9日,数云原力大会2024在神州数码国际创新中心(IIC)盛大召开。在开幕式上,神州数码副总裁、神州数码信创控股董事长韩智敏重磅发布新一代神州鲲泰绿色异构智算中心全液冷整机柜新品,在异构智算的时代,通过软硬件协同创新,为客户提供性能强、能效高、节能环保的新选择。

异构智算时代,企业智算落地如何兼顾效率与成本?

我们迎来了一个全新的异构智算时代。在当前的算力环境下,多云异构智算基础设施已成为必然。异构算力资源如何得到充分利用?在混合云部署下,如何应对算力构建选型、部署、运维复杂度和难度的挑战?这个独特的“智算攒机时代”,正在呼唤全新的智算架构。

与此同时,随着大模型和生成式AI加速落地,大量的模型训练和推理任务,在唤醒底层算力海量需求的同时,也对资源利用率提出了巨大挑战。有关资料显示,OpenAI训练GPT-4的MFU(Model Flops Utility)在32%到36%之间。而目前行业MFU利用率的平均水平仅为30%~40%,智算资源利用率尚有很大的提升空间,利用率提升也将为企业节省大量成本。

能耗是另一个大的挑战,算力本身会成为主要的能耗和二氧化碳排放来源。明显可预见的就是,GPU的能耗本身是CPU能耗的2倍以上。根据MIT研究表明,未来人类需要为人工智能相关应用新增10%的能源需求。也就是说,“炼”大模型会比炼钢还费电。对于一个企业来说,每新增一个用于智算的机架,其运行一年约等于增加15w度电,约等于100个家庭的年用电量,约等于1.5吨二氧化碳排放,能耗和碳排放十分巨大。

尽精微,神州鲲泰异“双管齐下”提升算力资源利用率

神州鲲泰推出HISO异构智算调度运营平台、HICA异构智算加速平台,有效解决智算集群间以及集群内面临的复杂异构兼容问题,并显著提升算力资源的利用率。

HISO异构智算调度运营平台,基于云原生技术,整合GPU硬分片和虚拟分片技术,能实现GPU资源虚拟化或池化,完成跨集群之间的算力调度。根据用户业务需求,该平台可以在整个异构智算资源池中匹配优选算力组合,提升GPU服务器集群的资源使用率。HISO异构智算调度运营平台拥有将国内外GPU资源混合组网、混搭调度,算力精细隔离等关键能力,可以“像管理一台GPU主机一样,管理和调度多个集群的GPU资源”。通过GPU容器直通、IaaS卸载,该平台加速了模型加载时间,相比传统方式,模型加载速度提升3倍。同时还能实时收集智算中心全栈、全链路指标,发现和定位软硬件故障,实现算力可观测性。

HICA异构智算加速平台则着重解决集群内部的算力调度优化问题,通过屏蔽集群内底层算力生态差异,突破关键计算效率瓶颈,有效提升算力利用率与可用性。HICA异构智算加速平台通过自研的服务层、中间适配层以及调度编排算法,采用数据并行、模型并行等方式,把并行计算任务进行有效分解,匹配相应的软件栈和算力资源来承接。当GPU资源变化,该平台可以实时动态调度计算子任务并调整模型拓扑和架构,以充分聚合各种算力资源。

HICA异构智算加速平台具有一云多芯特性,支持国内外主流AI芯片,可实现训练推理任务在不同品牌、不同型号芯片组成的智算集群中的混合训练推理,预计可降低20%闲置算力。

此外,根据不同模型、不同算子之间集合通信流特点,该平台还可自适应选择最合适的通信参数,达到更高的通信效率。同时,在不同模型运行过程中,充分考虑存算比要求的不同,HICA异构智算加速平台还可从宏观到微观多个尺度选择最合适的存算比资源加载模型,加速吞吐,降低时延,使MFU提升10~20%,MBU提升5%。

硅光+液冷,一体化交付冷却跳动的电表

随着生成式AI落地对算力需求的暴涨、带宽的狂飙提速,智算中心节点的高能耗痛点日益加剧。而以一个万卡智算中心为例,采用200G接口互联,需要约80000个光模块,其互联所需的能耗则占到总体的5%。节点间互联的高能耗问题也日益凸显。

针对节点间互联的能耗问题,神州鲲泰采用硅光技术,通过单光源多调制器,降低调制器电压,同时采用分布式反馈激光器等一系列技术,有效降低25%的互联能耗。

同时,针对节点的能耗问题,神州鲲泰推出液冷服务器,通过一体化冷板,智能流量调节来提升系统的散热效率,采用负压管线系统,漏液近端探测技术,并联动服务管控系统提升冷却系统的可靠性,有效降低30%的节点能耗。

而为了帮助客户规避接口多、接头复杂、现场实施部署难度大、实施周期长等难题,数云原力大会2024开幕式上,神州鲲泰正式发布“KunTai Pod2000全液冷整机柜”方案产品。采用一体化交付方式,有效降低部署和运维的复杂度的同时,整机柜还能实现100%全液冷及高性价比液冷方案,助力数据中心PUE迈向1.15,并且凭借60KW+的最大单柜功率,实现1.5倍于行业平均水平的能效比,在为客户提供强打算力的同时有效控制能耗成本。

随着2022年底ChatGPT的问世,AI正成为推动创新的核心引擎。现在的IT基础架构已经到了一个由模型和算力相互促进,螺旋上升的新发展阶段。面对新的发展机遇,神州鲲泰从智算中心系统整体性能提升出发,提出了走新智算架构之路的策略,建立了高通量、高并行、高效率,低能耗的多样化智算架构。新的智算架构能够快部署、低投入地突破算力瓶颈,构建出性能更优、成本更低、能效更高的智算中心。未来每个智算中心,每台计算机都将是这样一种新的智算架构,从而实现算力的普惠。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 硅光
    +关注

    关注

    0

    文章

    52

    浏览量

    9255
  • AI
    AI
    +关注

    关注

    89

    文章

    38092

    浏览量

    296617
  • 架构
    +关注

    关注

    1

    文章

    533

    浏览量

    26506
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16566
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    力湘军,让力变成生产力?

    脑极体
    发布于 :2025年11月25日 22:56:58

    芯科技:AI力突破,新型堆叠EDA工具持续进化

    电子发烧友网报道(文/黄晶晶)先进封装是突破力危机的核心路径。2.5D/3D Chiplet异构集成可破解内存墙、功耗墙与面积墙,但面临多物理场分析、测试容错等EDA设计挑战。现有EDA工具已经
    的头像 发表于 10-31 09:16 1.2w次阅读
    <b class='flag-5'>硅</b>芯科技:AI<b class='flag-5'>算</b>力突破,新型堆叠EDA工具持续进化

    睿海光电领航AI模块:超快交付与全场景兼容赋能智时代——以创新实力助力全球客户构建高效力底座

    1.6T模块研发项目,基于集成和相干调制技术,计划2026年推出支持10km传输的商用产品。此创新将进一步巩固睿海光电在全球高速光通信市场的技术领导地位。 结语:睿海光电与您共创
    发表于 08-13 19:03

    新品 | 破局散热困境!捷智5090 浸没式液冷服务器全新来袭!

    力需求呈爆发式增长的当下,服务器硬件适配困难与散热不畅这两大难题,一直困扰着许多用户。不过,曙光已现!捷智全新推出的5090
    的头像 发表于 08-06 17:12 1614次阅读
    新品 | 破局散热困境!捷智<b class='flag-5'>算</b>5090 浸没式<b class='flag-5'>液冷</b>服务器<b class='flag-5'>全新</b>来袭!

    易飞扬浸没液冷延长器与液冷光模块主题研究 ——液冷光互连技术的数据中心革命

    1.02-1.05,适用于超高密度力集群。 • 冷板式液冷:适用于部分液冷改造场景,但散热效率低于浸没式。 • 技术+
    的头像 发表于 07-20 12:19 600次阅读
    易飞扬浸没<b class='flag-5'>液冷</b>延长器与<b class='flag-5'>硅</b><b class='flag-5'>光</b><b class='flag-5'>液冷</b>光模块主题研究  ——<b class='flag-5'>液冷</b>光互连技术的数据中心革命

    壁仞科技担任智集群异构混训工作组组长

    参与了本次交流,分享智集群异构混训的关键技术进展、成功落地案例,为突破大模型异构力孤岛难题指明了方向。
    的头像 发表于 05-27 16:55 922次阅读

    梯度科技助力客户破解力调度难题

    在数字经济与人工智能深度融合的新阶段,力已成为支撑人工智能发展的核心生产力。梯度科技基于云原生技术架构研发的力调度平台,以“力弹性调度、异构
    的头像 发表于 04-27 16:32 1000次阅读

    RAKsmart智能架构异构计算+低时延网络驱动企业AI训练范式升级

    在AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临力效率与成本的双重挑战。RAKsmart推出的智能架构,以异构计算
    的头像 发表于 04-17 09:29 597次阅读

    弘信电子旗下燧弘华创与联想发布多元异构力调度平台

    近日,燧弘华创庆阳绿色中心迎来里程碑时刻——由燧弘华创与联想合作共建的多元异构力调度平台正式发布。
    的头像 发表于 03-31 11:41 872次阅读

    DeepSeek推动AI力需求:800G模块的关键作用

    数据传输速率,减少带宽瓶颈,成为数据中心和AI集群架构优化的重点。模块速率的跃升不仅提升了传输效率,也为大规模并行计算任务提供了必要的带宽保障。 800G模块如何解决DeepSeek大规模
    发表于 03-25 12:00

    横空出世!容芯致远创新“智整机架构”融合DeepSeek应用

    ,全面激活了各行业部署大模型应用的需求。长期受先进制程工艺制约的国产GPU阵营正在迎来新的发展机遇。 2月27日,在北京2025中国RISC-V生态大会上,容芯致远,一家2024年刚成立,致力于创新计算机体系结构的初创企业,推出全新的AGC智
    的头像 发表于 02-28 13:48 706次阅读
    横空出世!容芯致远创新“智<b class='flag-5'>算</b><b class='flag-5'>整机架构</b>”融合DeepSeek应用

    信而CCL仿真:解锁AI力极限,智中心网络性能跃升之道

    引言 随着AI大模型训练和推理需求的爆发式增长,智中心网络的高效性与稳定性成为决定AI产业发展的核心要素。信而凭借自主研发的 CCL(集合通信库)评估工具 与 DarYu-X系列测试仪 ,为智
    的头像 发表于 02-24 17:34 985次阅读
    信而<b class='flag-5'>泰</b>CCL仿真:解锁AI<b class='flag-5'>算</b>力极限,智<b class='flag-5'>算</b>中心网络性能跃升之道

    融合 南京信易达发布全新“智能力融合平台”

    四大系统模块,为力集群提供全面的运营运维管理服务与用户自助服务。 通过资源监控、作业调度、应用中心、数据中心等功能,一站式解决多元力的管理复杂性、资源异构性、安全性以及可靠性等难题
    的头像 发表于 01-08 10:56 1266次阅读
    超<b class='flag-5'>算</b>智<b class='flag-5'>算</b>融合 南京信易达发布<b class='flag-5'>全新</b>“智能<b class='flag-5'>算</b>力融合平台”

    首个液冷整机柜服务器行业标准发布,兰洋科技核心参编!

    近日,在工信部发布的2024年第28号文件中,由中国信通院牵头制定,超聚变、中国电信、中国联通、中国移动、兰洋科技等单位核心参编的《冷板式液冷整机柜服务器技术要求和测试方法》(标准编号YD
    的头像 发表于 12-16 14:30 898次阅读
    首个<b class='flag-5'>液冷</b><b class='flag-5'>整机柜</b>服务器行业标准发布,兰洋科技核心参编!