0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

鲲泰新闻|神州鲲泰创新智算之旅北京站开幕,发布全新智算架构和液冷整机柜产品应对 “多云、异构、绿色

科技数码 来源:科技数码 作者:科技数码 2024-05-22 10:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群


5月17日,神州鲲泰智算中国行北京站盛大召开。在本次活动上,神州鲲泰针对用户对大模型训练、大算力需求的痛点,重磅发布多云异构环境下智算中心绿色着陆的产品及方案,包含异构智算调度运营平台HISO、异构智算加速平台HICA以及一体化交付的神州鲲泰全液冷整机柜产品。帮助企业客户在整个异构智算资源池中匹配更优算力组合、有效提升GPU服务器集群的资源使用效率、有效解决节点和节点间互联的能耗问题,助力企业构建性能更优、成本更低、能效更高、能耗更低的智算基础设施底座。

wKgaomZNXuiAEJUyAALQaTEyk9E739.png

神州数码信创业务集团副总裁、研发中心总经理周川

异构智算时代,企业智算落地如何降本增效?

在全新的异构智算时代,多云异构智算基础设施已成为必然,一个独特的“智算攒机时代”,正在呼唤全新的智算架构。与此同时,随着大模型和生成式AI加速落地,大量的模型训练和推理任务,在唤醒底层算力海量需求的同时,也对资源利用率提出了巨大挑战。有关资料显示,OpenAI训练GPT-4的MFU(Model Flops Utility)在32%到36%之间。而目前行业MFU利用率的平均水平仅为30%~40%,智算资源利用率的提升将为企业节省大量成本。

能耗是另一个大的挑战,算力本身会成为主要的能耗和二氧化碳排放来源,更不用说GPU的能耗本身是CPU能耗的2倍以上。根据MIT研究表明,未来人类需要为人工智能相关应用新增10%的能源需求,形象的说,“炼”大模型会比炼钢还费电。对于一个企业来说,每新增一个用于智算的机架,其运行一年约等于增加15w度电,够100个家庭生活用电一年,约排放1.5吨二氧化碳,能耗和碳排放都十分巨大。

尽精微,神州鲲泰“双管齐下”提升算力资源利用率

神州鲲泰推出异构智算调度运营平台HISO、异构智算加速平台HICA,有效解决智算集群间以及集群内面临的复杂异构兼容问题,显著提升算力资源的利用率。

神州鲲泰异构智算调度运营平台HISO基于云原生技术,整合GPU硬分片和虚拟分片技术,能实现GPU资源虚拟化或池化,完成跨集群之间的算力调度。根据用户业务需求,该平台可以在整个异构智算资源池中匹配优选算力组合,提升GPU服务器集群的资源使用率。神州鲲泰异构智算调度运营平台HISO拥有将国内外GPU资源混合组网、混搭调度,算力精细隔离等关键能力,可以“像管理一台GPU主机一样,管理和调度多个集群的GPU资源”。通过GPU容器直通、IaaS卸载,该平台加速了模型加载时间,相比传统方式,模型加载速度提升3倍。同时还能实时收集智算中心全栈、全链路指标,发现和定位软硬件故障,实现算力可观测性。

神州鲲泰异构智算加速平台HICA则着重解决集群内部的算力调度优化问题,通过屏蔽集群内底层算力生态差异,突破关键计算效率瓶颈,有效提升算力利用率与可用性。神州鲲泰异构智算加速平台HICA通过自研的服务层、中间适配层以及调度编排算法,采用数据并行、模型并行等方式,把并行计算任务进行有效分解,匹配相应的软件栈和算力资源来承接。当GPU资源变化,该平台可以实时动态调度计算子任务并调整模型拓扑和架构,以充分聚合各种算力资源。

神州鲲泰异构智算加速平台HICA具有一云多芯特性,支持国内外主流AI芯片,可实现训练推理任务在不同品牌、不同型号芯片组成的智算集群中的混合训练推理,预计可降低20%闲置算力。

此外,根据不同模型、不同算子之间集合通信流特点,该平台还可自适应选择最合适的通信参数,达到更高的通信效率。同时,在不同模型运行过程中,充分考虑存算比要求的不同,异构智算加速平台HICA还可从宏观到微观多个尺度选择最合适的存算比资源加载模型,加速吞吐,降低时延,使MFU提升10~20%,MBU提升5%。

硅光+液冷冷却跳动的电表,一体化交付让客户省时省力

随着生成式AI落地对算力需求的暴涨、带宽的狂飙提速,智算中心节点的高能耗痛点日益加剧。而以一个万卡智算中心为例,采用200G接口互联,需要约80000个光模块,其互联所需的能耗则占到总体的5%。节点间互联的高能耗问题也日益凸显。

针对节点间互联的能耗问题,神州鲲泰采用硅光技术,通过单光源多调制器,降低调制器电压,同时采用分布式反馈激光器等一系列技术,有效降低25%的互联能耗。

同时,针对节点的能耗问题,神州鲲泰推出液冷服务器,通过一体化冷板,智能流量调节来提升系统的散热效率,采用负压管线系统,漏液近端探测技术,并联动服务管控系统提升冷却系统的可靠性,有效降低30%的节点能耗。

而为了帮助客户规避接口多、接头复杂、现场实施部署难度大、实施周期长等难题,数云原力大会2024开幕式上,神州鲲泰正式发布“KunTai Pod2000全液冷整机柜”方案产品。采用一体化交付方式,有效降低部署和运维的复杂度的同时,整机柜还能实现100%全液冷及高性价比液冷方案,助力数据中心PUE迈向1.15,并且凭借60KW+的最大单柜功率,实现1.5倍于行业平均水平的能效比,在为客户提供强大算力的同时有效控制能耗成本。

神州鲲泰整机柜产品搭载鲲鹏+昇腾主板,一体化交付的方式已经在运营商客户得到落地验证,广受好评,硅光+液冷更是让整机柜产品得到全面升级,为客户打造出功能更强、能耗更低、效率更高的智算中心。

随着2022年底ChatGPT的问世,AI正成为推动创新的核心引擎。现在的IT基础架构已经到了一个由模型和算力相互促进,螺旋上升的新发展阶段。面对新的发展机遇,神州鲲泰从智算中心系统整体性能提升出发,提出了走新智算架构之路的策略,建立了高通量、高并行、高效率,低能耗的多样化智算架构。新的智算架构能够快部署、低投入地突破算力瓶颈,构建出性能更优、成本更低、能效更高的智算中心。未来每个智算中心,每台计算机都将是这样一种新的智算架构,从而实现算力的普惠。

审核编辑 黄宇


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41030

    浏览量

    302555
  • 架构
    +关注

    关注

    1

    文章

    537

    浏览量

    26643
  • 智算中心
    +关注

    关注

    0

    文章

    123

    浏览量

    2600
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    液冷关键部件与供应链:AI力浪潮下的散热革新

    中方案中占比超80%。浸没式液冷散热效率更优,目前也有一些方案落地,如曙光数创推出的兆瓦级相变浸没液冷整机柜及其基础设施整体解决方案。   液冷散热涉及到几个关键零部件:CDU(冷却液
    的头像 发表于 04-19 07:02 3325次阅读

    2026神州泰合作伙伴百城荟上海站圆满落幕

    2026年4月14日,以“力流动,价值共生”为主题的2026神州泰合作伙伴百城荟首站活动在上海正式拉开帷幕。本次大会汇聚华东地区百余位核心合作伙伴、行业领袖与技术专家,各方以信任为基石、以
    的头像 发表于 04-17 15:20 422次阅读

    神州入围中信银行CANN生态信创大模型服务器项目

      2026年4月3日,中信银行《CANN生态信创大模型服务器入围采购项目》结果正式揭晓,神州数码旗下品牌神州成功入选,成为项目核心供应商之一。本次中标,是
    的头像 发表于 04-17 15:16 389次阅读

    神州携手鲲鹏解锁OpenClaw部署新范式

      当人工智能从 “内容生成” 全面迈入 “自主行动” 的智能体时代,产业发展格局迎来深刻重塑。以 OpenClaw “龙虾” 为代表的 AI 智能体落地应用,标志着行业正式走出被动交互阶段,开启 Agentic AI 全新篇章。
    的头像 发表于 04-17 15:15 345次阅读

    神州携手趋境科技推出大模型推理智能力调度解决方案

    近日,华为中国合作伙伴大会现场,神州与趋境科技正式签订生态合作协议,并联合推出面向企业级大模型推理场景的智能力调度解决方案。
    的头像 发表于 04-17 15:12 391次阅读
    <b class='flag-5'>神州</b><b class='flag-5'>鲲</b><b class='flag-5'>泰</b>携手趋境科技推出大模型推理智能<b class='flag-5'>算</b>力调度解决方案

    神州信息与康保险集团高峰技术交流会圆满举办

    近日,神州信息与康保险集团在京举办高峰技术交流会。双方围绕AI技术在金融领域的创新应用、合作模式深化等议题展开深度研讨,为深化战略合作、共促金融数智化转型筑牢基础。神州信息总裁徐启昌
    的头像 发表于 04-17 14:48 172次阅读

    神州数码旗下神州携手江苏纺知云开启家纺产业数智化新篇章

     神州携手江苏纺知云,以国产化力底座融合家纺行业数据,破解家纺企业研发与品控关键环节痛点,单品开发效率提升10倍、验布效率提升3倍,开启家纺产业数智化新篇章。
    的头像 发表于 04-15 17:05 547次阅读

    全球首个MW级基础设施整体解决方案发布,曙光数创定义下一代智基座

    4月8日,曙光数创在“液冷聚能·智向新”2026战略发布会上,正式发布全球首个MW级相变浸没液冷整机柜
    的头像 发表于 04-08 20:35 1.1w次阅读
    全球首个MW级基础设施整体解决方案<b class='flag-5'>发布</b>,曙光数创定义下一代智<b class='flag-5'>算</b>基座

    神州数码旗下神州亮相2026华为中国合作伙伴大会

    2026年3月19日,华为中国合作伙伴大会2026在深圳正式启幕。 神州数码旗下神州在会上重磅发布两大
    的头像 发表于 03-26 11:06 362次阅读
    <b class='flag-5'>神州</b>数码旗下<b class='flag-5'>神州</b><b class='flag-5'>鲲</b><b class='flag-5'>泰</b>亮相2026华为中国合作伙伴大会

    2025年曙光数创全栈液冷技术重塑力边界

    2025年,全球力需求的高速增长与绿色低碳的双重挑战,将液冷技术推至舞台中央。曙光数创紧抓战略机遇,不仅在国内市场份额保持领先地位,更以全栈液冷技术为核心,推动
    的头像 发表于 01-12 11:47 891次阅读

    昆仑芯科技参与发布超节点智应用“北京方案”

    9月26日,2025人工智能计算大会(AICC 2025)在京举行,昆仑芯作为国产 AI 芯片领域的代表,与30多家企业与机构携手,在北京市科委中关村管委会、北京市发展改革委的共同见证下,发布了《基于超节点
    的头像 发表于 09-29 17:06 1395次阅读

    云科技助力油田行业智能化安全管理

    随着国家对安全生产要求的不断加强,油田行业的安全管理亟待实现智能化和高效化。在油田智能化升级的浪潮中,众多 AI 转型方案涌现,云以“力+算法+平台”一体的 AI 视频分析解决方案帮助油田安全管理不止于“看得见”,更致力于“看得准、管得精、用得好”,为油田构建坚不可摧
    的头像 发表于 07-25 15:04 1127次阅读

    曙光数创亮相2025中国智中心全栈技术大会

    近日,曙光数创副总裁兼CTO张鹏携三大液冷新品,正式亮相『2025中国智中心全栈技术大会』暨第六届中国数据中心绿色能源大会。曙光数创作为液冷数据中心技术
    的头像 发表于 06-13 14:40 1427次阅读

    润和软件发布StackRUNS异构分布式推理框架

    当下,AI模型规模持续膨胀、多模态应用场景日益复杂,企业正面临异构力资源碎片化带来的严峻挑战。为应对行业痛点,江苏润和软件股份有限公司(以下简称“润和软件”)正式发布自主研发的Sta
    的头像 发表于 06-13 09:10 1597次阅读
    润和软件<b class='flag-5'>发布</b>StackRUNS<b class='flag-5'>异构</b>分布式推理框架

    壁仞科技担任智集群异构混训工作组组长

    近日,为推动智集群异构混训关键技术突破和生态建设,“智集群异构混训工作组启动会”在北京圆满召开,会议由人工智能产业工作委员会主办,壁仞科
    的头像 发表于 05-27 16:55 1287次阅读