0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

蓝海大脑服务器全力支持NVIDIA H100 GPU

GPU视觉识别 来源:GPU视觉识别 作者:GPU视觉识别 2022-03-31 11:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

导语

1.GPU的价值不止体现在深度学习,在高性能计算、人工智能、生物信息、分子模拟、计算化学、材料力学、系统仿真、流体力学、机械设计、生物制药、航空动力、地质勘探、气候模拟等领域,算法越来越复杂,需要处理的海量数据越来越巨大,高性能计算能力就显得尤为重要。近日为满足GPU服务器、高性能服务器、深度学习服务器、水冷工作站、水冷服务器、液冷工作站、液冷服务器等的高速运转,英伟达发布产品——H100 GPU。

2.随着信息技术的快速发展,高性能服务器的需求不断增长。为保障服务器长期可靠稳定运行,合适的散热技术显得至关重要。

3.基于蓝海大脑超融合平台的水冷GPU服务器及水冷GPU工作站采用绿色冷却技术,Gluster 分布式架构设计,提供大存储量,拥有开放融合的特性和超能运算的能力。

1 蓝海大脑服务器于 NVIDIA H100 GPU

蓝海大脑宣布服务器产品线全力支持最新的 NVIDIA H100 GPU。蓝海大脑服务器产品在单机上最多可支持4、8甚至9个H100 GPU,可为多种人工智能场景提供超强算力、灵活的资源调度和成熟的生态支持。

搭载NVIDIA H100 GPU的蓝海大脑服务器具有更强计算性能、更高的GPU间通信带宽和创新的计算架构,支持用户对更大、更复杂的模型进行训练和推理。同时,搭配蓝海大脑算力资源管理平台,用户可以更加便捷高效地使用AI集群算力资源。

据官方数据显示,全新的NVIDIA GH100 GPU不是基于之前传闻的台积电 N5工艺,而是使用更先进的N4工艺。整个芯片面积814mm²,相比GA100要小,但集成800亿晶体管,并采用更高频率的设计。

完整规格的GH100 GPU规格,包含总计8个GPC图形集群,72个TPC纹理集群,144个SM流式多处理器,共计18432个FP32 CUDA核心(与目前传闻中AD102完整版完全吻合),专用于AI训练的第四代张量核心TensorCore为每组SM配备4个,共计528个。显存方面最大支持6个HBM3或HBM2e堆栈,6144bit显存位宽,L2缓存提升到60MB,并支持第四代NVLink和PCIe Gen5。

不过,GH100是面向人工智能、数据分析等负载构建的,不是图形处理。SXM5版和PCIe H100所使用的GH100 GPU中,只有两个TPC具有图形处理能力。

GH100 GPU用于两个款式的加速卡上,分别为SXM5版和PCIe5版,SXM协议更多用在密集计算的数据中心上,规格也更高一些。大概是受制于良率,即便是高规格的SXM5版也并不是满血的GH100核心。

H100 SXM5使用的H100 GPU规格为66个TPC纹理集群,SM数量下降到132组,而CUDA数量也下降到16896个(但相比于目前的GA100岂止于翻倍),张量核心为528个。显存方面,H100 SXM5启用5个HBM3堆栈,共计80GB,显存位宽为5120Bit。L2缓存也下降到50MB,对比A100依然有25%提升。

PCIe5版的H100 CNX,集成CX7芯片,可将网络数据以50GB/s的速度直接传输给GH100 GPU处理

PCIe版虽然更多用于小型企业,但是PCIe版的性能也是不容小觑。PCIe版采用进一步缩减的GH100 GPU,SM数量下降到114组,CUDA数量下降到14592个,张量核心则缩减到了456个。显存方面,启用的是5个HBM2e堆栈,容量与SXM5版相同,为80GB 5120Bit位宽,L2缓存大小一致。

白皮书揭露了新的H100两款FP32算力(一般用户可以关注的指标),132组SM/16896CUDA的SXM5版本,FP32单精度算力为60TFlops。根据CSDN一篇文章提供的公式:单精度理论峰值=FP32 cores*GPU频率*2,可以推出工作频率约为1775MHz。而A100加速卡的GA100核心工作频率为1410MHz,频率提升近26%。GeForce产品使用的GPU往往会给到更高的频率,下一代RTX 40有望2G起步?

在算力方面,H100 SXM5对比现在的A100在多个项目中都超过200%的提升,最低的FP16半精度运算也有50%的性能提升,可谓是碾压级。

在演讲上,老黄更是直接带来H100在三种负载下对比A100的效率提升,训练Transformer模型从5天缩短到了19小时,而在结合英伟达多项尖端软硬件条件下,整个模型训练从7天缩短到了20小时,效率足足提升9倍。

蓝海大脑是全球领先的AI服务器厂商,拥有丰富的AI计算产品阵列,并和AI客户紧密合作,帮助其在语音、语义、图像、视频、搜索等各方面取得数量级的AI应用性能提升。

2 高性能机架式服务器散热

随着信息技术的快速发展,对高性能服务器的需求越来越大。为保证服务器长期可靠稳定的运行,合适的散热技术非常重要。下面以高性能机架式服务器为研究对象,分析比较强制风冷与间接液冷下服务器的散热效果。结果表明,在低负荷下,强制风冷与间接液冷差别不大。在高负荷下,间接液冷的散热效果优于强制风冷。

一、研究背景

随着信息技术的快速发展,尤其是 5G 通信技术的出现,支撑大数据运行的服务器需求不断增长。为保障服务器稳定运行,合适的散热技术显得至关重要。机架式服务器是指按照工业标准可以直接安装在 19 英寸宽机柜中的服务器。目前机架式服务器的主流散热方式为强制风冷和间接液冷。

二、基于强制风冷的服务器散热仿真研究

2.1 仿真边界条件设置

一般情况下,当流体速度小于 1/3 风速时,可将流体看作不可压缩流体,因此可将服务器内部空气视作不可压缩流体。服务器内部一共有 6 颗轴流式风扇,其中电源模块单独有一个轴流风扇冷却。轴流风扇采用吹风散热方式冷却 CPU 和内存,硬盘最靠近进风口,出风口压力设为大气压力,环境温度设为 25℃。

2.2 仿真结果分析

服务器散热效果评价指标有 CPU、内存、硬盘的最高温度。环境温度 25℃,忽略服务器与外界环境的辐射换热,分别对服务器低负荷和高负荷两种状态进行仿真。

从图可以看出,无论是低负荷还是高负荷,服务器内部最高温度出现在 CPU 上,其次是内存的温度较高,而硬盘最靠近进风口,其温度最低。

下表为服务器主要发热部件的温度汇总表。在低负荷状态下,服务器各部件的温度均得到较好的控制,CPU 温度低于长期运行允许的温度值;而在高负荷状态下,CPU 的温度急剧上升,超过峰值允许的温度值。

三、基于间接液冷的服务器散热仿真研究3.1 机架式服务器液冷仿真模型建立

间接液冷机架式服务器内含电源模块、CPU(两个)、内存、硬盘、液冷板、水泵等部件。

液冷散热板作为水冷系统的重要组成部分,主要是将发热元器件产生的热量与冷却液充分交换。水冷系统部分如图所示,由IGBT、水冷散热板、铝合金板以及铝条安装件组成。

一般情况下,当流体速度小于 1/3 风速时,可将流体看作不可压缩流体,因此可将服务器内部空气以及流道内液体视作不可压缩流体。服务器内部一共有 4 颗轴流式风扇,其中电源模块单独有一个轴流风扇冷却。轴流风扇采用吹风散热方式冷却CPU 和内存,硬盘最靠近进风口,出风口压力设为大气压力,环境温度设为 25℃,液冷板入口流体温度为 25℃。

3.2 仿真结果分析

服务器散热效果评价指标有 CPU、内存、硬盘的最高温度。环境温度 25℃,忽略服务器与外界环境的辐射换热,分别对服务器低负荷和高负荷两种状态进行仿真。

从图可以看出,在低负荷状态时,最高温度出现在内存上,当服务器处于高负荷时,服务器内部最高温度出现在 CPU 上,其次是内存的温度较高,而硬盘最靠近进风口,其温度最低。

下表为服务器主要发热部件的温度汇总表。在低负荷状态下,服务器各部件的温度均得到较好的控制,CPU 温度低于长期运行允许的温度值;在高负荷状态下,CPU 的温度稍有上升,但没超过峰值允许的温度值。与强制风冷相比,间接液冷方式下,内存和硬盘的温度稍有升高,这是因为减少风扇的原因;而 CPU 的温度降低,因为水的导热系数和比热容等远大于空气的导热系数和比热容。因此对于高负荷的服务器,建议采用间接液冷散热方式。

3 蓝海大脑液冷散热服务器

基于蓝海大脑超融合平台的水冷GPU服务器及水冷GPU工作站采用绿色冷却技术,Gluster 分布式架构设计,提供大存储量,拥有开放融合的特性和超能运算的能力。支持多块GPU显卡,提供出色的静音效果和完美的温控系统。借助 NVIDIA GPU计算卡可加快神经网络的训练和推理速度,更快地创作精准的光照渲染效果,提供高速视频、图像、声音等处理能力,加速AI 并带来更流畅的交互体验。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136059
  • 服务器
    +关注

    关注

    14

    文章

    10353

    浏览量

    91742
  • 英伟达
    +关注

    关注

    23

    文章

    4115

    浏览量

    99604
  • H100
    +关注

    关注

    0

    文章

    33

    浏览量

    617
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI爆款应用驱动需求增长,英伟达H100租赁费用飙升40%

    2025年10月的每小时1.7美元,在今年3月涨至每小时每块GPU 2.35美元。   H100租赁费用飙升的背后   SemiAnalysis的指数基于对100多家云服务提供商、算力
    的头像 发表于 04-05 07:05 1.3w次阅读

    GPU服务器哪家强?深度学习与AI训练性能实测

    进入2026年,AI大模型已从“百模大战”转向“应用爆发”。无论是进行大语言模型的微调、文生视频的渲染,还是复杂的自动驾驶仿真,GPU服务器已成为企业的核心生产力工具。 然而,GPU服务器
    的头像 发表于 03-19 16:45 403次阅读

    罗姆强势入局AI服务器800VDC电源方案 原创

    % 。 AI 训练耗电量是网络搜索的 10 倍以上 。 AI 服务器 GPU 性能增长的同时功率持续飙升。以 英伟达 为例,其 GPU 的 TDP 热设计功耗 从 H100 的 700
    的头像 发表于 12-13 00:25 8674次阅读

    捷智算GPU维修中心服务器电源维修成功率高达90%!

    服务器电源故障束手无策?只能高价换新的时代终结了!我们以硬核技术实力与海量实践案例给出肯定答案!经常收到客户咨询电话:"GPU服务器电源坏了能修吗?""为何你们的电源
    的头像 发表于 12-12 19:00 750次阅读
    捷智算<b class='flag-5'>GPU</b>维修中心<b class='flag-5'>服务器</b>电源维修成功率高达90%!

    罗姆强势入局AI服务器800VDC电源方案

    的10倍以上。   AI服务器GPU性能增长的同时功率持续飙升。以英伟达为例,其GPU的TDP热设计功耗从H100的700W,攀升至B300的1.4KW,明年VR200将达1.8KW,
    的头像 发表于 12-12 15:42 5352次阅读
    罗姆强势入局AI<b class='flag-5'>服务器</b>800VDC电源方案

    DGX A100服务器出故障?选对维修商,帮你省心又省钱!

    企业级GPU服务器已成为企业核心生产力的关键支撑。然而,这些高性能设备一旦出现故障,将对企业的业务运营造成重大影响。尤其是高端的DGXA100服务器,其复杂的技术架构和高昂的维修成本,
    的头像 发表于 10-24 19:05 463次阅读
    DGX A<b class='flag-5'>100</b><b class='flag-5'>服务器</b>出故障?选对维修商,帮你省心又省钱!

    香港服务器支持Docker和Kubernetes吗?

    在云原生技术成为主流的今天,Docker和Kubernetes(K8s)已成为现代化应用开发和部署的事实标准。对于选择香港服务器的开发者与企业而言,一个核心问题是:香港服务器能否完美支持Docker
    的头像 发表于 10-21 15:47 900次阅读

    at_device(8266)不支持web服务器吗?

    我现在想用esp8266 at device 做一个网页服务器 但是文件系统什么都做好了 运行webnet_test 显示下边的错误 查了论坛 说at不支持服务器 但是是20年的帖子了 现在有
    发表于 09-23 06:09

    英伟达 H100 GPU 掉卡?做好这五点,让算力稳如泰山!

    H100服务器停工一天损失的算力成本可能比维修费还高。今天,我们给大家总结一套“防掉卡秘籍”,从日常管理到环境把控,手把手教你把掉卡风险压到最低。一、供电是“生命线”,这3点必须盯紧H100满载功耗
    的头像 发表于 09-05 11:03 1470次阅读
    英伟达 <b class='flag-5'>H100</b> <b class='flag-5'>GPU</b> 掉卡?做好这五点,让算力稳如泰山!

    Lambda采用Supermicro NVIDIA Blackwell GPU服务器集群构建人工智能工厂

    大批量 Supermicro GPU 优化服务器(包括基于 NVIDIA Blackwell 的系统),以扩展其人工智能基础设施并向客户交付高性能计算系统。此次合作于今年 6 月率先在俄亥俄州哥伦布市的 Cologix COL4
    的头像 发表于 08-30 16:55 934次阅读

    搞定英伟达 H100 ECC 报错:从原理到维修,一步到位解烦忧

    最近,捷智算GPU维修室收到了不少H100服务器需要维修,故障问题集中为ECC报错。为了帮大家更好地认识和了解情况,下面就详细分享一下ECC报错系统化排查方法和维修流程。一、ECC报错
    的头像 发表于 08-14 18:05 2662次阅读
    搞定英伟达 <b class='flag-5'>H100</b> ECC 报错:从原理到维修,一步到位解烦忧

    AI服务器电源技术研讨会部分演讲嘉宾确认

    英伟达Blackwell B100/B200或H100的机架)功率需求已从传统服务器的800W提升至4kW甚至更高,部分机架总功率超过198kW。然而,AI服务器内部空间有限,要求AI
    的头像 发表于 06-24 10:07 1391次阅读
    AI<b class='flag-5'>服务器</b>电源技术研讨会部分演讲嘉宾确认

    硅谷GPU服务器是什么意思?使用指南详解

    硅谷GPU服务器本质上是一种IaaS(基础设施即服务)产品,它将物理服务器上的GPU资源通过虚拟化技术分割成可弹性调配的云
    的头像 发表于 06-16 09:41 726次阅读

    云电竞服务器 工作原理

    云电竞服务器工作原理详解 一、核心架构原理 虚拟化资源池‌ 通过 ‌KVM/VMware‌ 等虚拟化技术将物理服务器(含NVIDIA GPU集群)抽象为可动态分配的算力资源池,每个用户
    的头像 发表于 05-14 07:44 760次阅读
    云电竞<b class='flag-5'>服务器</b> 工作原理

    GPU 维修干货 | 英伟达 GPU H100 常见故障有哪些?

    上涨,英伟达H100GPU凭借其强大的算力,成为AI训练、高性能计算领域的核心硬件。然而,随着使用场景的复杂化,H100服务器故障率也逐渐攀升,轻则影响业务进度,重
    的头像 发表于 05-05 09:03 3378次阅读
    <b class='flag-5'>GPU</b> 维修干货 | 英伟达 <b class='flag-5'>GPU</b> <b class='flag-5'>H100</b> 常见故障有哪些?