0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

HPC集群的三个关键系统

易飞扬通信 来源:易飞扬通信 2023-06-17 11:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据中心自1940年代就已存在,第一批计算机专用数据室被用于军事目的。随着计算和存储需求在此后的几十年里呈指数级增长,应用扩展到生活的各个领域,组织越来越多地寻求专用数据中心来容纳他们的基础设施。

为了降低成本并在竞争中脱颖而出,自HPC出现以来,外包数据中心基础设施几乎已成为必需。HPC是一种功能强大但在密度、热量和带宽方面要求很高的解决方案。这些数据中心需要解决许多高性能计算机同时运行所需的热量和功率密度所带来的挑战。

哪些行业使用高性能计算?

由于HPC可以以更快的速度将数据分析和人工智能结合在一起,因此不出所料,采用HPC数据中心的顶级公司都在云计算和IT行业中。但其他行业的公司也可以利用HPC的力量。

这可能包括:

研究实验室

金融科技

天气预报

媒体和娱乐

卫生保健

政府和国防

支持HPC的数据中心可以满足客户对快速网络不断增长的需求,同时跟上日益数字化的格局。

HPC的三个关键系统

要构建适应HPC的基础架构,了解HPC集群的三个关键系统非常重要:计算、存储和网络。

计算

高效的HPC系统需要一组计算机服务和软件程序,它们协同工作以运行算法程序。每个模块都需要与集群中的其他模块保持同步;否则,整个HPC系统将变得过时。

HPC的目标是执行高速计算,这需要聚合来自不同硬件类型的计算机能力。数据中心拥有足够的空间和能力来容纳支持HPC操作所需的计算机系统和硬件,仅HPC计算就需要大多数企业无法处理的电源和冷却协调。

存储

为了容纳HPC处理的海量数据,其存储系统应尽可能频繁地从CPU卸载,而不中断计算操作。根据Weka的说法,HPC存储系统需要满足以下这些需求:

任何节点的数据随时可用

可用数据必须是最新的

可以处理任何大小的数据请求

支持面向性能的协议

使用最新的存储技术(例如SSD

扩展到毫秒以跟上恒定的延迟

网络

HPC网络的拓扑结构与您的办公室内部网非常不同。除了CPU和存储之间的持续数据传输的极端要求外,构成HPC环境的许多不同的计算组件被视为一台计算机,由“结构”组合在一起。“HPC结构的关键概念是拥有大量可扩展带宽(贯穿),同时保持超低延迟。”

降温设施

鉴于HPC基础设施的密度和产生的热量,冷却可能是一项重大挑战。现代数据中心使用的传统热通道遏制系统可以有效地冷却当今的50kW HPC机架。展望未来,HPC集群可能会增加密度并刺激数据中心实施更普遍可用的液体冷却。根据研发机构国家可再生能源实验室的说法,液体冷却可以提供比空气冷却高1,000倍的冷却能力,而且物理占地面积更小。浸没式液冷数据中心部署灵活性更高,且面向未来的客户。

以易飞扬创新性的液冷互连光模块和互连解决方案为例。其中液冷高速模块可在1米深的氟化液和矿物油中稳定运行(已通过客户的长期认证),相比传统制冷方案,具备更高的散热效率和更低的能耗,可将高性能计算的算力提升到一个新的水平。

92151d46-0c4e-11ee-962d-dac502259ad0.png

高性能组件

HPC集群的设备之间需要采用高性能并行互连组件进行连接。易飞扬是并行光互连计算的先锋,自2013年起,易飞扬就重点投入高性能并行光模块和互连线缆的开发,系列产品涵盖10G、25G、40G、100G、200G、400G和800G等速率,支持INFNIBAND协议。

92378aca-0c4e-11ee-962d-dac502259ad0.png

基于Intel和NVIDIA的芯片设计支持并行互连组件的服务器光网卡,从10G到200G,并正在向400G/800G延伸;

基于VCSEL激光器、DML激光器或硅光技术平台设计的高速并行光模块,如100G QSFP28 SR4/PSM4,200G QSFP56 SR4/DR4,200G QSFP-DD SR8/PSM8和400G QSFP-DD SR8/DR4等;

基于低功耗设计的短距离并行DAC和AOC互连线缆,如400G QSFP-DD DAC/AOC、 800G QSFP-DD DAC/AOC等;

可支持系统设备自环测试的电回环模块;

创新性的液冷互连光模块和互连解决方案。

高质量的系统、组件及设施共同构建出高性能计算数据中心,这些数据中心还提供HPC所需的经济实惠的电力、网络、可扩展性、冗余和安全性。
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7841

    浏览量

    93464
  • HPC
    HPC
    +关注

    关注

    0

    文章

    350

    浏览量

    25073
  • 数据分析
    +关注

    关注

    2

    文章

    1523

    浏览量

    36360

原文标题:数据中心如何支持高性能计算?

文章出处:【微信号:gigalight_yifeiyang,微信公众号:易飞扬通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Linux系统中这三个命令的完整功能和正确查看方法

    在 Linux 系统的日常运维中,监控进程资源使用情况是最频繁的工作之一。当服务器 CPU 突然飙高、内存告警、或者业务响应变慢时,运维工程师首先要做的事情就是查看系统资源使用状况。top、ps、free 这三个命令几乎是每个运
    的头像 发表于 04-21 11:45 172次阅读

    骏马奔腾,芯向未来:SiC功率器件的“三个必然”与丙午马年的产业跃迁

    骏马奔腾,芯向未来:SiC功率器件的“三个必然”与丙午马年的产业跃迁 日期: 2026年 丙午马年 除夕 主题: 倾佳电子杨茜“三个必然”战略论断与基本半导体碳化硅技术的产业替代逻辑 关键
    的头像 发表于 02-15 10:33 151次阅读
    骏马奔腾,芯向未来:SiC功率器件的“<b class='flag-5'>三个</b>必然”与丙午马年的产业跃迁

    KubePi:开源Kubernetes可视化管理面板,让集群管理如此简单

    KubePi的魅力远不止提供一Web界面那么简单,它集成了多种强大功能: 2.1 多集群统一管理 一键导入 :支持通过Token、KubeConfig和证书种方式导入现有Kubernetes
    发表于 02-11 12:53

    三个经典开关电源实际问题解析

    下面三个关于多路输出电源连续工作模式的问题,测试一下您的电源设计知识。然后核对您的答案。
    的头像 发表于 01-22 16:08 3498次阅读
    <b class='flag-5'>三个</b>经典开关电源实际问题解析

    三个必然”战略论断下的SiC碳化硅功率半导体产业演进与自主可控之路

    三个必然”战略论断下的SiC碳化硅功率半导体产业演进与自主可控之路 在全球能源结构转型与“双碳”目标的宏观背景下,功率半导体作为电力电子系统的“心脏”,正经历着从硅(Si)基材料向宽禁带(WBG
    的头像 发表于 01-08 21:35 349次阅读

    详解示波器的关键指标

    这些问题,很可能是因为你没有真正理解示波器的关键指标:带宽、采样率和存储深度。今天,我们就来彻底搞懂这三个参数,让你的调试工作事半功倍!
    的头像 发表于 10-29 17:45 4427次阅读
    详解示波器的<b class='flag-5'>三</b>大<b class='flag-5'>关键</b>指标

    未来工业AI发展的三个必然阶段

    与优化 能力的深层革命。 未来十年,工业AI的发展将经历三个清晰的阶段:  智能辅助 → 智能决策 → 自主优化 。这次进化,构成了工业从“人控机器”到“机器共智”的核心路径。 一、第一阶段:智能辅助(AI for Assistance) 时间窗口:
    的头像 发表于 10-27 15:47 601次阅读
    未来工业AI发展的<b class='flag-5'>三个</b>必然阶段

    【产品介绍】Altair PBS Professional HPC工作负载管理器和作业调度管理系统

    ,并简化集群、云和超级计算机的管理——从最大的高性能计算(HPC)工作负载到数百万小型、高吞吐量作业。借助动态策略、AI工作负载支持、强大的定制API和广泛的硬
    的头像 发表于 09-19 17:03 807次阅读
    【产品介绍】Altair PBS Professional <b class='flag-5'>HPC</b>工作负载管理器和作业调度管理<b class='flag-5'>系统</b>

    标准集群和虚拟集群的区别是什么?

    遵循行业标准就可以互联互通。 虚拟集群则是在DMR常规数字模式基础上,通过私有协议和软件控制实现的“准集群”功能。它不是一官方标准,而是对标准功能的增强,如海能达XPT、北峰SVT、中兴高达ECS。不需要专用的控制信道、呼叫建
    的头像 发表于 09-19 16:52 976次阅读
    标准<b class='flag-5'>集群</b>和虚拟<b class='flag-5'>集群</b>的区别是什么?

    高效管理Kubernetes集群的实用技巧

    作为一名经验丰富的运维工程师,我深知在日常的Kubernetes集群管理中,熟练掌握kubectl命令是提升工作效率的关键。今天,我将分享15经过实战检验的kubectl实用技巧,帮助你像艺术家一样优雅地管理K8s
    的头像 发表于 08-13 15:57 1123次阅读

    一文看懂AI算力集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI算力集群。AI的要素,是算力、算法和数据。而AI算力集群,就是目前最主要的算力来源。它就像一
    的头像 发表于 07-23 12:18 1945次阅读
    一文看懂AI算力<b class='flag-5'>集群</b>

    医疗AI进化的三个关键技术路径

    2025年第二十二届中国脑血管病论坛(CFCVD)上上演了一场颠覆性对决——“Deepseek”、“豆包”和“39AI”大AI(人工智能)模型与数位临床医生围绕脑梗死、脑出血、颅内动脉瘤大经典病例,以病例诊断与治疗方案制定为内容进行现场比拼,在有限时间内对病例进行分析
    的头像 发表于 07-17 14:19 5447次阅读

    热插拔算力集群

    热插拔算力集群指在无需停机的情况下,动态增减计算节点或硬件的算力基础设施,其核心价值在于实现资源的弹性伸缩和业务连续性。以下从关键技术、应用场景及优势三个维度分析: 一、关键技术支撑‌
    的头像 发表于 06-26 09:20 1256次阅读

    突破LuatOS开发瓶颈:三个二次开发必备知识揭秘!

    遇到LuatOS开发难题?或许你忽略了这三个关键常识。它们看似简单,却能破解资源管理、效率提升等瓶颈问题,为你的项目注入新活力,实现技术跃迁。 本期一起来了解LuatOS开发需要熟悉的几个常识
    的头像 发表于 06-23 15:05 514次阅读
    突破LuatOS开发瓶颈:<b class='flag-5'>三个</b>二次开发必备知识揭秘!

    高性能计算集群在AI领域的应用前景

    随着人工智能技术的飞速发展,高性能计算集群HPC)在AI领域的应用前景日益受到关注。HPC提供的计算能力与AI的智能分析能力相结合,为解决复杂问题和推动科学研究提供了新的动力。1、HPC
    的头像 发表于 06-23 13:07 1427次阅读
    高性能计算<b class='flag-5'>集群</b>在AI领域的应用前景