0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA ConnectX网卡助力社交网络关键任务的分布式应用

世强SEKORM 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-08-23 11:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA ConnectX 网卡助力社交网络关键任务的分布式应用实现精确计时功能。

Facebook 正在开放其开源计算项目 —— 时间设备项目(OCP TAP)的源代码,该项目以经济高效的方式提供高度精确的计时功能,以及跨数据中心时间同步功能。在 NVIDIA ConnectX-6 Dx 网卡(NIC)的支持下,这项解决方案中的 Time Card 通过精确计时协议,可以将几乎所有商用现成的(COTS)服务器变成精确的计时设备,与整个数据中心内的其他服务器共享精确计时。

Facebook Time Card 和 NVIDIA 网卡这对组合为数据中心运营商提供了一个先进和低成本的时间同步解决方案,并且该解决方案具有开源、安全、可靠和可扩展等特点。

精确的时间为什么对于数据中心至关重要

随着应用的扩展并且 IT 运营遍布全球,保持数据中心内不同服务器,或位于各大洲不同数据中心的数据同步,变得更加重要和困难。

分布式数据库必须追踪事件的确切顺序以保持一致性并显示因果关系。如果有两个人试图购买同一只股票,那么根据公平性(和合规性)原则,就必须知道买单的先后顺序。同样,当每小时有上千万人发布内容,数百万用户喜欢/称赞/喜爱这些帖子时,Facebook 必须知道每个帖子、每次点赞、每条回复或每个表情符号的实际发生顺序。

保持数据同步的方法之一是让每个数据中心在每件事务操作完成后向其他中心发送更新,但由于数据中心之间的延迟太高,以至于无法支持每小时数百万个事件,这种做法很快就变得无法维持。

更好的方法是让每个服务器和数据中心同步到精确的时间,使彼此之间的时间误差不超过一微秒。这样每个站点都能追踪时间,并且当它们与其他数据中心共享事件时,能够正确排序每个事件。

时间同步越精确,应用性能就越快。最近的一项测试表明,将计时精度提高 80 倍(将任何时间差异减小 80 倍)能够使分布式数据库的运行速度提高 3 倍。在相同的服务器硬件上仅仅通过提高更精确和更可靠的时间就能实现显著的性能提升。

网卡和网络在时间同步中的作用

OCP TAP 项目(以及 Facebook 关于开源时间设备的博客文章)确切地定义了 Time Card 如何接收和处理来自 GPS 卫星网络的时间信号,即使在卫星信号暂时不可用时,也能保持精确的时间并与时间服务器共享这一精确的时间。同时,网络以及所使用的网卡也发挥着至关重要的作用。

时间设备中的网卡必须有一个用于连接 Time Card 的每秒时间脉冲(PPS)端口。这能确保每个时间服务器中 Time Card 和网卡之间的精确时间同步(精确到几纳秒之内)。ConnectX-6 Dx 是首批支持此功能的现代 25/50/100/200Gb/s网卡之一。它还能过滤和检查传入的 PPS 信号,并使用其 ASIC 中的硬件在内部维护时间,从而确保精确性和一致性。

计时精度达到次微秒级的时间装置可以与数百个使用网络时间协议(NTP)的普通服务器或数万个使用精确时间协议(PTP)的服务器共享该计时。由于网络会增加时间信号的延迟,因此 NTP 和 PTP 通过为数据包添加时间戳来测量两个方向的传输时间、将抖动和延迟考虑在内并计算出每个服务器上的正确时间(PTP 的精度更高,因此它开始取代 NTP 协议)。

另一种方法是使用软件解决方案来添加时间戳,但在由于拥堵或 CPU 的干扰,用软件添加时间戳的误差可能达到几毫秒,因此以今天的软件方案添加时间戳是过于难预测、不精确、甚至是不可行的。

相反,ConnectX-6 Dx 网卡和 BlueField-2 DPU 可以在高达 100Gb/s的速度下,在接收的数据包到达后和发送的数据包进入网络前,立即为它们添加硬件时间戳。ConnectX-6 Dx 可以为每一个数据包添加时间戳,即使在网络负载极大的情况下,时间戳的精度误差也小于 4 纳秒(4ns)。

其他大多数具有时间功能的网卡只对部分数据包进行标记并且精度抖动很大,因此在网络流量大的情况下,它们的时间精确性就会下降。

NVIDIA 网络解决方案为商用网卡提供最精确的延迟测量,从而在所有服务器上实现最精确的时间,应用层面的时间误差通常低于一微秒(《1us)。

网络计时精度的提升意味着每台服务器上的时间变得更加精确,这将为分布式应用带来更快的性能(并且为每个人带来更多的 Facebook “点赞数”)。

精确时间同步,人人皆可受益

OCP 时间设备项目使任何组织都能获得精准的计时功能。来自 Facebook、NVIDIA 和 OCP 的开源时间服务器和开源管理工具提供了一个让每个人都可以像超大规模用户一样轻松使用这项功能的方法。

NVIDIA 所提供的精确时间功能网卡和 DPU(数据处理器)具有精确计时设备所需的超精确时间戳和网络同步功能。当使用 BlueField DPU 时,就可以在其 Arm 核上运行 PTP 栈,从而将时间栈与其他服务器软件隔离、持续验证该服务器内的时间精确性并持续计算整个数据中心的最大时间误差范围。

为了发挥经过优化的时间服务器和时间同步所带来的优势,云服务和数据库已经增加了基于时间的新命令和 API。这些解决方案一同开启了精确计时的新时代,提高了分布式应用的性能并为云和企业带来新型解决方案。

关于 OCP TAP 的技术规格、原理图、机械原理、物料清单和源代码等详细信息,欢迎访问:http://www.ocptap.com。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5727

    浏览量

    110298
  • 网卡
    +关注

    关注

    4

    文章

    346

    浏览量

    29121
  • 源代码
    +关注

    关注

    96

    文章

    2953

    浏览量

    70867
  • OCP
    OCP
    +关注

    关注

    0

    文章

    86

    浏览量

    17147

原文标题:NVIDIA 助力 Facebook 新一代计时系统实现精确计时

文章出处:【微信号:sekorm_info,微信公众号:世强SEKORM】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI Ceph 分布式存储教程资料大模型学习资料2026

    的实战应用中,优化数据加载路径是提升训练效率的关键技术手段。科技视角下的解决方案,引入了多级缓存与智能预取机制。 针对训练数据集中频繁访问的热点数据,高性能的分布式存储会利用 NVMe SSD 甚至
    发表于 05-01 17:35

    分布式迭代求解策略:分布式混合电推进系统飞发一体化设计与能量管理协同优化方法

    随着全球航空业对绿色环保要求的不断提高,分布式混合电推进系统作为传统航空动力向全电飞行器过渡的关键技术,展现出巨大的发展潜力。本文围绕半涡电分布式推进系统的动态实时建模与控制方法展开系统研究。
    的头像 发表于 03-27 08:54 330次阅读
    <b class='flag-5'>分布式</b>迭代求解策略:<b class='flag-5'>分布式</b>混合电推进系统飞发一体化设计与能量管理协同优化方法

    分布式 IO 选型注意事项

    在工业 4.0 浪潮推动下,分布式 IO 作为工业互联的核心底层设备,已成为制造业实现设备互联、数据采集、柔性生产的关键支撑。本文将助力企业避开选型误区,最大化发挥分布式 IO 的应用
    的头像 发表于 12-30 14:14 641次阅读
    <b class='flag-5'>分布式</b> IO 选型注意事项

    大模型ai赋能的无人集群分布式协同调度与任务分配系统

        大模型AI赋能的无人集群分布式协同调度与任务分配系统    北京华盛恒辉大模型AI赋能的无人集群分布式协同调度与任务分配系统,是融合人工智能大模型与
    的头像 发表于 12-30 11:07 576次阅读

    分布式光伏“四可”装置:可观、可测、可控、可调的技术内核全解析

    分布式光伏“可观、可测、可控、可调”四可装置,精准切中并网核心痛点,通过全维度功能构建,成为推动分布式光伏从“被动并网”向“主动协同”转型的关键支撑。
    的头像 发表于 11-24 11:20 785次阅读
    <b class='flag-5'>分布式</b>光伏“四可”装置:可观、可测、可控、可调的技术内核全解析

    NVIDIA DGX Spark平台上对NVIDIA ConnectX-7 200G网卡配置教程

    NVIDIA DGX Spark 平台上对 NVIDIA ConnectX-7 200G 网卡进行配置时,会遇到“4 个逻辑端口”现象。理解背后的真相是后续所有配置的基础。本文将从
    的头像 发表于 11-21 09:19 6397次阅读
    在<b class='flag-5'>NVIDIA</b> DGX Spark平台上对<b class='flag-5'>NVIDIA</b> <b class='flag-5'>ConnectX</b>-7 200G<b class='flag-5'>网卡</b>配置教程

    从 “单一控制” 到 “智能可视”:分布式系统与传统音视频控制系统的关键区别

    分布式可视化控制系统与传统的音视频控制系统的区别主要体现在以下几个方面: 1.系统架构:分布式可视化控制系统采用分布式架构,将音视频处理、数据通信等功能分散到多个节点上,各个节点之间通过网络
    的头像 发表于 10-21 10:52 613次阅读

    安科瑞Acrel-1000DP分布式光伏监控系统助力奉贤平高食品4.4MW项目高效并网发电

    体系的分布式光伏管控平台,以及小容量工商业分布式光伏本地和远程通信方案,并研究分布式光伏采集模型的构建、多源数据融合估计、面向分布式光伏的有功、无功功率优化控制等
    的头像 发表于 09-01 17:12 959次阅读
    安科瑞Acrel-1000DP<b class='flag-5'>分布式</b>光伏监控系统<b class='flag-5'>助力</b>奉贤平高食品4.4MW项目高效并网发电

    【节能学院】Acrel-1000DP分布式光伏监控系统在奉贤平高食品 4.4MW 分布式光伏中应用

    分布式光伏本地和远程通信方案,并研究分布式光伏采集模型的构建、多源数据融合估计、面向分布式光伏的有功、无功功率优化控制等关键技术,实现了对小容量工商业
    的头像 发表于 08-23 08:04 3753次阅读
    【节能学院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏监控系统在奉贤平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中应用

    分布式光伏发电监测系统技术方案

    分布式光伏发电监测系统技术方案 柏峰【BF-GFQX】一、系统目标 :分布式光伏发电监测系统旨在通过智能化的监测手段,实现对分布式光伏电站的全方位、高精度、实时化管理。该系统能
    的头像 发表于 08-22 10:51 3593次阅读
    <b class='flag-5'>分布式</b>光伏发电监测系统技术方案

    怎样确定分布式光伏集群通信网络的负载均衡策略?

    LZ-DZ100电能质量在线监测装 确定分布式光伏集群通信网络的负载均衡策略,需结合集群的网络拓扑、数据特征、设备特性及运行需求,通过 “现状分析→目标设定→策略设计→验证优化” 的流程逐步推进
    的头像 发表于 08-22 10:10 763次阅读
    怎样确定<b class='flag-5'>分布式</b>光伏集群通信<b class='flag-5'>网络</b>的负载均衡策略?

    一键部署无损网络:EasyRoCE助力分布式存储效能革命

    分布式存储的性能瓶颈往往在于网络。如何构建一个高带宽、超低时延、零丢包的无损网络,是释放分布式存储全部潜力、赋能企业关键业务(如实时数据库、
    的头像 发表于 08-04 11:34 1919次阅读
    一键部署无损<b class='flag-5'>网络</b>:EasyRoCE<b class='flag-5'>助力</b><b class='flag-5'>分布式</b>存储效能革命

    分布式光储项目如何实现稳定收益?张家港案例揭示关键运营指标

    分布式光伏利用屋顶等闲置空间发电,省电费、赚收益,还能减少碳排放。国家政策支持,提供补贴、税收优惠和绿电交易,鼓励清洁能源发展。安装光伏投资回报高、维护简单,适合家庭、工商业用户,是环保与经济的双赢
    发表于 07-25 00:23

    MCU分布式模块化自动测量单元支持哪些测量任务?

    MCU-40型分布式模块化自动测量单元(MCU),是一款专为岩土工程与结构物安全监测设计的先进数据采集系统。其核心优势在于强大的多类型传感器兼容能力与模块化设计,能够高效完成以下关键测量任务:振弦
    的头像 发表于 06-26 10:28 741次阅读
    MCU<b class='flag-5'>分布式</b>模块化自动测量单元支持哪些测量<b class='flag-5'>任务</b>?

    双电机分布式驱动汽车高速稳定性机电耦合控制

    和控制器的工作强度。 纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:双电机分布式驱动汽车高速稳定性机电耦合控制.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 06-18 16:37