0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于DPU的Openstack裸金属服务网络解决方案

DPU高性能云异构算力解决方案 来源:DPU高性能云异构算力解决 作者:DPU高性能云异构算 2024-10-22 14:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1. 方案背景和挑战

裸金属服务器作为一类特别设计的计算类云服务,向最终用户提供了云端部署的专属物理服务器,这意味着最终用户不再需要与其他租户共享硬件资源,从而确保了资源的独占性、性能的最优化以及数据的最高级别安全。

裸金属服务器作为云上资源的重要部分,其网络需要与云主机和容器同样连接在VPC下,并且能够像云主机和容器一样使用云上的网络功能和能力。

当前,基于OpenStack的裸金属服务实现主要依赖于Ironic组件,并通过OpenStack的Neutron网络组件来实现裸金属服务器的网络连接。在该方案下,裸金属服务器的网络使用的是物理网卡,因此网络配置依赖于物理上的网络拓扑(例如需要知道裸金属网卡连接到交换机端口编号),物理网络拓扑连接完成后就确定了,为了实现 VPC 等网络功能,需要对裸金属服务器的上联交换机做一些动态配置,以实现网络的切换。

Neutron原本是为虚拟机网络环境设计的,因此在应用于裸金属服务时,便暴露出了不足之处,带来了一系列的问题与挑战,具体体现在以下几个方面:

a. 网络管理复杂性增加,提高了管理难度

- VLAN支持要求:Ironic的网络实现需要物理交换机的VLAN支持,并且要实现VLAN和VPC的匹配和转换,以确保裸金属服务器能够正确地接入网络。这不仅增加了网络配置的复杂性,也提高了管理难度。

- 拓扑要求:物理网络拓扑需要能够支持VLAN的划分和管理,这可能涉及到复杂的网络设备配置和维护。

b. SDN集成困难,降低网络性能

- 流量转换需求:在裸金属场景下,直接使用软件定义网络(SDN)技术存在困难。通常需要将网络流量引导到一个特定的网络节点进行转换,这不仅会降低网络性能,还会增加网络管理的复杂度。

- 性能与管理权衡:这种流量转换机制可能导致网络性能下降,同时也增加了网络管理和维护的工作量。

c. 安全组实现困难,增加运维成本

- 安全组规则不适用:传统裸金属服务器直接连接到物理交换机,导致OpenStack的安全组规则无法直接应用于裸金属服务器。安全组是OpenStack中用于控制网络流量的安全机制,其规则定义了允许或拒绝的网络流量类型。

- 交换机防火墙规则影响:如果尝试通过物理交换机的防火墙规则来实现类似的安全控制,可能会影响到其他业务的正常运行,并且会大幅增加运维成本。

d. 网卡热插拔支持不足,限制了系统灵活性

- 物理限制:传统裸金属服务器的物理网卡不支持热插拔功能。这意味着在不关闭服务器的情况下,无法添加或移除网络适配器,这限制了系统的灵活性和服务的可用性。

- 维护与更新挑战:缺乏热插拔支持使得网络维护和更新变得更加困难,可能需要计划停机时间,从而影响服务的连续性和用户体验。

基于OpenStack的裸金属服务网络实现,虽然借助Ironic和Neutron组件获得了良好的表现,但在网络管理、SDN集成、安全组应用以及网卡热插拔支持等方面仍面临一系列挑战。这些挑战需要通过技术创新和架构优化来逐步解决,以提高裸金属服务的性能、安全性和管理效率。

2. 方案介绍

2.1. 整体方案架构

为了解决上文提到的问题与挑战,本方案创新性的引入了DPU组件,并仍然使用Openstack Ironic node资源来管理裸金属实例。在开源Ironic组件(ironic-api、ironic-conductor)之外,我们自研了Ironic-dpu-agent组件,运行在每个裸金属节点的DPU Soc中,用于管理裸金属实例的存储、网络资源。

整体方案架构如下图:

wKgaoWcXRACAOS1yAAEb8p2X5i8815.png

各组件作用如下:

Ironic-api:裸金属rest api服务。

Ironic-conductor:裸金属实例的任务控制服务,负责裸金属开关机、重启、部署等任务。

Ironic-dpu-agent:运行在DPU Soc上,与Ironic-conductor通过RPC通信,负责管理本节点裸金属实例的存储、网络资源。

Neutron-server:OpenStack网络服务,为裸金属实例提供network、subnet、port管理功能。

2.2. 方案详细描述

在基于DPU的OpenStack裸金属网络方案中,裸金属服务器的网络配置完全由DPU卡负责,裸金属服务器本身不需要任何传统的物理网卡。DPU卡为裸金属服务器提供物理功能(PF)、虚拟功能(VF)或可分割功能(SF)设备,作为网络接口。这些网络接口完全由DPU的系统级芯片(SOC)侧的Open vSwitch(OVS)进行配置,无需依赖外部物理交换机即可实现网络连接。

在该方案中,DPU负责处理包括VXLAN、Geneve等在内的各种虚拟网络协议,能够支持虚拟机与裸金属服务器之间的网络互通,保证灵活且高效的网络连接。这种网络拓扑简化了裸金属服务器的部署流程,因为服务器无需依赖外部交换设备,所有的网络管理和配置工作都在DPU卡上完成,大大减少了对传统物理网络基础设施的依赖。

在控制节点上,OpenStack的Neutron组件负责网络服务的管理,并通过OVN(Open Virtual Network)来与DPU通信。DPU的SOC上运行着OVS(Open vSwitch),这是整个方案中负责网络流量转发和管理的关键组件。同时,DPU的SOC侧还运行着OVN控制器(ovn-controller)和Ironic-dpu-agent,分别负责虚拟网络的控制和裸金属网络的管理。

OVN控制器:负责与Neutron进行通信,并根据网络需求配置OVS,实现裸金属服务器与虚拟机之间的网络连接。

Ironic-dpu-agent:这是Ironic服务的一个代理,它通过控制和配置OVS上的端口,管理DPU网络资源,负责为裸金属服务器分配和管理网络接口。

在这个架构下,DPU卡上提供的PF、VF等网络设备通过其代表接口(pfRep和vfRep)连接到OVS。裸金属服务器通过这些网络设备与DPU卡通信,进而连接到整个虚拟网络系统中。OVS通过在SOC上运行的p0和p1端口负责管理所有的网络流量,从而使裸金属服务器能够无缝地加入虚拟网络。

这种架构极大地提升了裸金属服务器的网络性能,同时减少了对外部交换机的依赖,降低了部署成本和复杂度。在实际应用中,这种基于DPU的网络架构可以大幅提高数据中心的资源利用率,并为多租户环境下的虚拟机和裸金属服务器提供高效、安全的网络隔离和互通。

wKgaoWcXRA-Acd6HAACMnojUwFQ093.png

裸金属node节点绑定创建的虚拟port,Neutron Server 通过 OVN Plugin 将端口信息写入 OVN NB DB,当Ironic-dpu-agent 获得node绑定port信息后,配置OVS的interface中的iface-id,然后通过ovn-controller下发流表,跟虚拟机网络流标下发方式一致。

wKgaoWcXRBWAXJUwAABXPWDr1PE809.png

网卡热插拔

在原生Ironic中,可以实现一定程度网卡热插拔,但是要求机器上有冗余的网卡设备,这些网卡设备可以在需要的时候被启用/禁用。这种方式也有一些缺陷,一方面这不够灵活,不同的用户需求不一样,冗余多少块网卡不便于确定。另一方面,如果冗余的网卡没有得到使用,造成了资源浪费。

在基于 DPU 的方案中,如前文所述,裸金属的网卡是由DPU的 PF/VF/SF 设备提供的,而 DPU 往往提供了大量的 VF/SF(数百个以上),足够满足用户的需求。那么网卡的热插拔就变成了 PF/VF/SF 设备的动态插拔和配置问题,这仍然是由 Ironic-dpu-agent组件完成的。

3. 测试与验证

3.1. 网络拓扑

以下是示例网络拓扑:

wKgZoWcXRB2AbhTWAACz1Wm8yVs339.png

其中,普通业务流量和存储流量最好划分VLAN。BMC 带外管理网和千兆管理网需要打通,测试时也可简单用同一个网络。

3.2. 软件环境

依赖以下软件环境:

类别 名称 版本 来源 备注
OpenStack集群 OpenStack zed 开源社区
网络 neutron zed 内部版本
存储 volume-attacher cloudV5.4-6 内部版本
opi-bridge cloudV2-4 内部版本
裸金属组件 ironic zed 内部版本
ironic-dpu-agent cloudV1.0 内部版本

3.3. 测试用例及结果

3.3.1.创建资源

创建网络、子网、路由器、链接路由器和子网

openstack network create
openstack subnet create --network
--subnet-range
--gateway --dns-nameserver
##路由器
openstack router create
###链接
openstack router add subnet

wKgZoWcXRCiAUSCDAAFL7ZagYMM461.png

创建flavor

openstack flavor create --ram --vcpus --disk
###裸机属性设置
openstack flavor set --property resources:VCPU=
--property resources:MEMORY_MB=
--property resources:DISK_GB=
--property capabilities:boot_option=local

wKgZoWcXRC6AI4P8AAEYchT9lBc138.png

创建镜像

openstack image create
--disk-format raw
--container-format bare
--file
--public
openstack image set --property hypervisor_type=baremetal

wKgZoWcXRDOAMrZlAAD9eGqgAQE489.png

创建node

openstack baremetal node create
--driver
--driver-info ipmi_address=
--driver-info ipmi_username=
--driver-info ipmi_password=
--property cpus=
--property memory_mb=
--property local_gb=
--property cpu_arch=

wKgaoWcXREeAYtqaAAEMlRIMJtQ549.png

3.3.2. 创建裸金属服务器实例

创建裸金属实例与创建虚拟机操作流程一致,选择裸金属的flavor即可:

openstack server create --flavor bm-flavor-01 --image centos8.5 --boot-from-volume --network net01 bm-01

wKgZoWcXRFyAJNANAAETujGi1nk013.png

3.3.3.安全组

创建裸金属实例与创建虚拟机安全组添加一样,创建port的时候选择一个安全组即可:

openstack port create --network net01 --vnic-type direct port01 --security-group default

wKgaoWcXRGKADULwAAEwENvD0JQ292.png

3.3.4.连通性验证

在同一个net01下创建VM、BM,然后验证BM和VM的网络互通情况

创建VM:

openstack port create --network net01 --vnic-type direct port01
openstack server create --flavor test-flavor- --image centos8.5 --port port01 vm01

登录通过bmc登录裸机bm-01验证:

ping

wKgZoWcXRLWASExsAABwT75OjLE202.png

3.3.5.网卡热插拔

先卸载port,再添加port:

openstack port delete-port01
openstack baremetal port set --node --port

wKgaoWcXRMqARBwsAAEAcS8gWQw519.pngwKgaoWcXRM-AWqOcAACSQfnD2C4874.png

4. 方案总结

DPU赋能的Openstack裸金属网络解决方案,在以下几个方面具有显著优势:

1)Overlay网络终结在DPU侧,降低网络的复杂性:通过在DPU侧终结Overlay网络,可以减少中间网络元素,摆脱了对物理交换机的依赖,简化整体网络拓扑架构。这种方式不仅降低了网络的复杂性,提高了网络的可管理性,还减少了设备成本和运维成本,使整个网络更加经济高效。

2)支持统一的SDN控制器,提升网络灵活性和响应速度:采用统一的SDN控制器实现策略下发和调度,SDN网络不仅支持VLAN还可以使用Vxlan和Geneve,摆脱VLAN网络4096的限制。同时,有效简化SDN软件架构,提高网络的灵活性和响应速度,降低维护和管理的复杂性。

3)通过SDN实现安全组,降低运维成本:通过SDN网络的ACL功能,可以在不依赖物理交换机的情况下实现安全组功能。这样可以直接在DPU上应用安全规则,而不需要通过物理交换机的防火墙规则,从而避免对其他业务的影响并降低运维成本。

4)支持网络接口热插拔,提升网络设备灵活性:利用DPU的动态特性,可以实现网络接口的热插拔。这意味着在不影响服务器运行的情况下,可以增加新的网络接口或移除现有接口,从而提高系统的灵活性和服务的可用性。

综上所述,DPU驱动的Openstack裸金属网络方案通过一系列创新设计,不仅提高了网络的可管理性、可扩展性和安全性,还增强了系统的灵活性和服务的可用性,从而为裸金属服务器提供了更加强大和高效的网络支持。

本方案来自于中科驭数软件研发团队,团队核心由一群在云计算、数据中心架构、高性能计算领域深耕多年的业界资深架构师和技术专家组成,不仅拥有丰富的实战经验,还对行业趋势具备敏锐的洞察力,该团队致力于探索、设计、开发、推广可落地的高性能云计算解决方案,帮助最终客户加速数字化转型,提升业务效能,同时降低运营成本。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    8004

    浏览量

    143221
  • VLAN
    +关注

    关注

    1

    文章

    288

    浏览量

    37555
  • DPU
    DPU
    +关注

    关注

    0

    文章

    408

    浏览量

    26267
  • 服务网络
    +关注

    关注

    0

    文章

    14

    浏览量

    7491
  • OpenStack
    +关注

    关注

    1

    文章

    73

    浏览量

    19618
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    喜报|晶映节能改造火力全开!四地同步签约,绿色版图再拓新篇

    当节能改造的浪潮席卷全国,晶映又一次交出了亮眼答卷 —— 近日,我们的签约版图再添四座城市:甘肃天水、广西南宁、广东佛山、江苏常州,标志着晶映绿色服务网络实现南北全域深度覆盖,节能服务能力获全国市场高度认可!
    的头像 发表于 11-29 11:26 74次阅读

    10G通信信号衰减难题破解:沃虎片式网络变压器实测案例

    和ISO4001体系认证,产品符合欧盟RoHS2.0规范,服务网络覆盖广泛。针对产品应用过程中的各类需求,沃虎技术团队具备快速响应能力,能及时提供专业的技术解决方案,为合作提供坚实保障。在当前网络变压器行业向高频化、小型化转型的
    发表于 11-27 10:09

    ALINX全球区域服务网络介绍

    ALINX 作为全球顶级的 FPGA 板卡及解决方案提供商,既是 AMD 在中国唯一最高级别 Premier 合作伙伴;也是国内 FPGA 芯片龙头企业紫光同创的官方合作伙伴。
    的头像 发表于 11-13 09:18 599次阅读

    构建云基石:深入理解OpenStack网络(Neutron)核心服务

    简单来说,OpenStack 是一个开源的云计算管理平台项目,它允许你使用一套软件来构建和管理你自己的私有云或公有云。你可以把它想象成开源的、可以自己掌控的 Amazon Web Services
    的头像 发表于 11-11 10:41 935次阅读
    构建云基石:深入理解<b class='flag-5'>OpenStack</b><b class='flag-5'>网络</b>(Neutron)核心<b class='flag-5'>服务</b>

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和 NVIDIA DOCA 微服务为 AI 数据存储、网络和安全带来突破性的加速。
    的头像 发表于 11-03 14:48 645次阅读

    华纳云VPS容器服务网格流量管理:实现微服务高效路由

    在云计算和微服务架构日益普及的今天,华纳云香港VPS凭借其优越的地缘优势和网络自由,成为众多企业部署容器化应用的热门选择。复杂的微服务架构带来了流量管理的巨大挑战。本文将深入探讨如何利用容器
    的头像 发表于 10-16 17:09 387次阅读

    算力不够、交付太慢?捷智算金属租赁对标物理机性能,让你立马用上高算力!

    金属租赁业务脱颖而出,成为众多企业优质算力的解决方案。一、金属租赁业务优势(一)卓越计算性能,媲美实体物理机捷智算的
    的头像 发表于 09-12 20:06 1103次阅读
    算力不够、交付太慢?捷智算<b class='flag-5'>裸</b><b class='flag-5'>金属</b>租赁对标物理机性能,让你立马用上高算力!

    如何基于Nginx构建微服务网

    今天,我将分享我们团队如何基于Nginx构建了一个日均处理10亿+请求的微服务网关,以及踩过的那些坑。这套方案已经稳定运行2年+,经历过多次大促考验。
    的头像 发表于 09-02 16:29 661次阅读

    利用NVIDIA DPU重塑网络安全格局

    在第三届 NVIDIA DPU 黑客松竞赛中,我们见证了开发者与 NVIDIA 网络技术的深度碰撞。在 23 支参赛队伍中,有 5 支队伍脱颖而出,展现了在 AI 网络、存储和安全等领域的创新突破。
    的头像 发表于 08-20 14:31 1056次阅读

    TECS OpenStack资源池虚拟机网络二层地址无法互通的问题处理

    某运营商TECS OpenStack使用主机overlay SDN方案组网,运维人员在创建虚拟机测试虚拟机网络状态时发现问题:在其中一台主机上创建两台同网段虚拟机,虚拟机之间二层地址无法Ping通,但是可以Ping通网关地址,如
    的头像 发表于 06-12 09:28 696次阅读
    TECS <b class='flag-5'>OpenStack</b>资源池虚拟机<b class='flag-5'>网络</b>二层地址无法互通的问题处理

    openstack搭建详细步骤

    openstack搭建详细步骤
    的头像 发表于 05-07 14:05 1636次阅读

    中软国际打造企业上云服务解决方案

    近日,华为云生态大会2025在芜湖隆重举行。中软国际华为技术与解决方案集团云应用与服务业务线总裁胡启明受邀参加华为云伙伴联合解决方案宣讲会,并在会上作了题为《中软国际企业上云服务
    的头像 发表于 04-16 11:34 854次阅读

    芯启源提供DPU产品与解决方案

    芯启源创立于2015年8月,是国内领先的网络芯片及解决方案的供应商。芯启源聚焦网络通讯、5G、云数据中心领域,致力于“为超大规模电信级和企业级中心的智能安全网络提供核心芯片和系统
    的头像 发表于 04-10 14:18 1198次阅读
    芯启源提供<b class='flag-5'>DPU</b>产品与<b class='flag-5'>解决方案</b>

    汇川技术不断优化并完善其海外服务网络

    随着全球业务的不断扩展,汇川技术不断优化并完善其海外服务网络。自2020年起,汇川在越南的服务网络已经取得显著进展,凭借完善服务体系和设施,汇川进一步巩固了在东南亚地区的市场地位,愈来愈多越南企业和在越投资企业选择汇川。
    的头像 发表于 03-05 15:33 968次阅读

    在NVIDIA BlueField-3 DPU上运行WEKA客户端的实际优势

    WEKA是可扩展软件定义数据平台的先驱,NVIDIA 正在与其合作,将 WEKA 先进的数据平台解决方案与功能强大的NVIDIA BlueField DPU相结合。
    的头像 发表于 01-07 09:43 1077次阅读
    在NVIDIA BlueField-3 <b class='flag-5'>DPU</b>上运行WEKA客户端的实际优势