0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA为数据中心运营商实现实现共享精确计时

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-14 16:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Facebook 正在开源 开放计算项目 Time Appliance 项目( OCP TAP ),该项目以经济高效的方式跨数据中心提供非常精确的计时和时间同步。该解决方案包括一个时间卡,它可以将几乎任何商用现货( COTS )服务器转换为精确的时间设备,由 NVIDIA ConnectX-6 Dx 网卡( NIC )启用,并具有精确计时协议,以便与数据中心的其他服务器共享精确的计时。

Facebook 的时间卡和 NVIDIA 的 NIC 相结合,为数据中心运营商提供了一个开源、安全、可靠和可扩展的现代化、价格合理的时间同步解决方案。

为什么准确的时间在数据中心很重要

随着应用程序的扩展和 IT 运营遍布全球,保持数据中心内不同服务器之间的数据同步,或跨大陆的不同数据中心之间的数据同步,这变得更加重要和困难。如果数据库是分布式的,它必须跟踪事件的确切顺序,以保持一致性并显示因果关系。如果两个人试图购买同一只股票,公平性(和合规性)要求明确知道哪一张订单先到。同样,当成千上万的人每小时发布内容,数百万用户喜欢/大笑/喜爱这些帖子时, Facebook 需要知道每个帖子、竖起大拇指、回复或表情符号的实际发生顺序。

保持数据同步的一种方法是让每个数据中心在每次事务完成后将其更新发送给其他数据中心,但这很快变得不可行,因为数据中心之间的延迟太高,无法支持每小时数百万个事件。

更好的方法是让每个服务器和数据中心同步到精确的时间,彼此之间的同步时间不超过一微秒。这使每个站点能够跟踪时间,并且当它们与其他数据中心共享事件时,每个事件的顺序已经正确。

时间同步越精确,应用程序的性能就越快。最近的一项测试表明,使计时 80x 更精确(使任何时间差异减小 80x )使分布式数据库的运行速度提高了 3 倍——在相同的服务器硬件上,这是一个令人难以置信的性能提升,只是因为保持了更准确、更可靠的时间。

NIC 和网络在时间同步中的作用

OCP TAP 项目(以及 Facebook 的 博文 关于开源 Time Appliance )精确定义了时间卡如何接收和处理来自 GPS 卫星网络的时间信号,即使卫星信号暂时不可用也保持准确的时间,并与时间服务器共享准确的时间。但是网络——以及使用的网卡——也至关重要。

pYYBAGJX3EqAfTu7AABfK25ykME623.png

图 1 。 OCP 时间卡保持准确的时间,并与支持 PPS 输入/输出的 NIC 共享,如 NVIDIA ConnectX-6 Dx (来源: Facebook 工程博客)。时间设备中的 NIC 必须具有每秒时间脉冲( PPS )端口才能连接到时间卡。这确保了每个时间服务器中的时间卡和 NIC 之间的精确时间同步,精确到几纳秒以内。 ConnectX-6 Dx 是第一个支持此功能的现代 25 / 50 / 100 / 200 Gb / s NIC 之一。它还过滤和检查传入的 PPS 信号,并使用其 ASIC 中的硬件在内部维护时间,以确保准确性和一致性。

时间设备中的网卡必须有一个用于连接Time Card的每秒时间脉冲(PPS)端口。这能确保每个时间服务器中Time Card和网卡之间的精确时间同步(精确到几纳秒之内)。ConnectX-6 Dx是首批支持此功能的现代25/50/100/200Gb/s网卡之一。它还能过滤和检查传入的PPS信号,并使用其ASIC中的硬件在内部维护时间,从而确保精确性和一致性。

计时精度达到次微秒级的时间装置可以与数百个使用网络时间协议(NTP)的普通服务器或数万个使用精确时间协议(PTP)的服务器共享该计时。由于网络会增加时间信号的延迟,因此NTP和PTP通过为数据包添加时间戳来测量两个方向的传输时间、将抖动和延迟考虑在内并计算出每个服务器上的正确时间(PTP的精度更高,因此它开始取代NTP协议)。

pYYBAGJX3FCAUmsMAAIvOXhw6Mk117.png

图 2 。 NVIDIA 将 X-6 Dx 与 PPS 输入/输出端口连接,以实现与时间卡的直接时间同步。它还对硬件中的数据包执行精确的硬件时间戳。

另一种方法是使用软件解决方案来添加时间戳,但在由于拥堵或CPU的干扰,用软件添加时间戳的误差可能达到几毫秒,因此以今天的软件方案添加时间戳是过于难预测、不精确、甚至是不可行的。相反,ConnectX-6 Dx网卡和BlueField-2 DPU可以在高达100Gb/s的速度下,在接收的数据包到达后和发送的数据包进入网络前,立即为它们添加硬件时间戳。ConnectX-6 Dx可以为每一个数据包添加时间戳,即使在网络负载极大的情况下,时间戳的精度误差也小于4纳秒(4ns)。其他大多数具有时间功能的网卡只对部分数据包进行标记并且精度抖动很大,因此在网络流量大的情况下,它们的时间精确性就会下降。

NVIDIA网络解决方案为商用网卡提供最精确的延迟测量,从而在所有服务器上实现最精确的时间,应用层面的时间误差通常低于一微秒(《1us)。网络计时精度的提升意味着每台服务器上的时间变得更加精确,这将为分布式应用带来更快的性能(并且为每个人带来更多的Facebook“点赞数”)。

poYBAGJX3FaAJuqtAAGfry8U3G4267.png

图 3 。使用 OCP 时间服务器和 NVIDIA NIC 或 DPU s 部署 NTP 或 PTP 可将极其准确的时间传播到数据中心的所有服务器。

精确时间同步,人人皆可受益

OCP时间设备项目使任何组织都能获得精准的计时功能。来自Facebook、NVIDIA和OCP的开源时间服务器和开源管理工具提供了一个让每个人都可以像超大规模用户一样轻松使用这项功能的方法。

NVIDIA所提供的精确时间功能网卡和DPU(数据处理器)具有精确计时设备所需的超精确时间戳和网络同步功能。当使用BlueField DPU时,就可以在其Arm核上运行PTP栈,从而将时间栈与其他服务器软件隔离、持续验证该服务器内的时间精确性并持续计算整个数据中心的最大时间误差范围。

为了发挥经过优化的时间服务器和时间同步所带来的优势,云服务和数据库已经增加了基于时间的新命令和API。这些解决方案一同开启了精确计时的新时代,提高了分布式应用的性能并为云和企业带来新型解决方案。

关于作者

John Kim 是 NVIDIA 网络事业部的存储市场总监,致力于帮助客户和供应商从高性能网络连接、智能网卡卸载和远程直接数据存取 (RDMA) 中获益,尤其是在存储、大数据和人工智能领域。

Elad Wind 目前担任解决方案工程总监,推动 Hyperscaler 采用 NVIDIA 互连解决方案。在加入 NVIDIA 之前, Elad 曾在 Mellanox 担任各种技术和销售职务,包括产品销售和项目管理。 Elad 也是 Mellanox 新加坡亚太区总部的创始成员。 ELAD 持有特拉维夫大学 MBA 和巴黎 ESSEC 商学院,并获得了来自 Technion 、以色列的 Eel CTR 工程的理学学士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109087
  • 服务器
    +关注

    关注

    13

    文章

    10094

    浏览量

    90880
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261498
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    今日看点:中国电信成为业内首家实现北斗语音消息的运营商;美创企Substrate研发新型光刻机

    中国电信成为业内首家实现北斗语音消息的运营商 据“中国电信”机构号,其已率先公开展示“北斗语音消息”服务,成为业内首家实现北斗语音消息的运营商。   据介绍,中国电信在业内首创“声纹与
    发表于 10-31 10:48 1343次阅读

    伟创力重磅发布全球首款面向千兆瓦级数据中心的AI基础设施平台

    伟创力重磅发布全球首款面向千兆瓦级数据中心的AI基础设施平台,平台集成了电源和冷却产品、计算能力和服务,专为AI和高性能计算而设计,帮助数据中心运营商将部署速度提升高达30%,大幅降低风险,轻松应对电力、散热和规模难题。
    的头像 发表于 10-23 15:08 597次阅读

    通信机房能耗监测:提升能效与实现绿色运营的关键路径

    数据中心能效管理成为关键环节。能耗监测通过实时数据采集与分析,帮助运营商精准掌握用电情况,优化能源分配,降低碳排放,助力实现“碳达峰、碳中和”目标。13641854052 通信机房能耗
    的头像 发表于 10-11 09:45 330次阅读
    通信机房能耗监测:提升能效与<b class='flag-5'>实现</b>绿色<b class='flag-5'>运营</b>的关键路径

    物联网数据中心是什么?有什么功能?

    物联网数据中心是集成和管理物联网设备数据的核心平台,具备数据采集、处理、存储、分析、可视化及安全管控等功能,其本质是通过技术融合实现物理世界与数字世界的双向交互与智能决策。以下从定义、
    的头像 发表于 09-22 17:14 692次阅读

    技术资讯 I 数据中心能否承受高温运行?

    数据中心运营商有充分理由主动让机器在更高的温度下运行。问题是,如何在不承担过度风险的前提下实现这一目标?数据中心高温运行的优点在更高温度下运行数据
    的头像 发表于 09-19 15:55 341次阅读
    技术资讯 I <b class='flag-5'>数据中心</b>能否承受高温运行?

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    [1]  利用搭载 DGX GB200 系统的 NVIDIA DGX SuperPOD[2] 数字孪生系统实现了库的重大扩展 。借助 NVIDIA 高性能加速计算平台的新模型,数据中心
    的头像 发表于 09-15 15:19 1239次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI光模块的研发与量产先锋 睿海光电作为全球AI光模块的领先品牌,专注于数据中心、超算中心及智算
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    :全球TOP3云服务在其新一代数据中心规模部署睿海光电产品 四、服务承诺:全方位保障客户利益 睿海光电提供行业领先的服务保障: 质量保证 :3年超长质保,终身维修服务 定制支持 :专业的OEM
    发表于 08-13 16:38

    小型数据中心晶振选型关键参数全解

    运行。FCom的差分晶体振荡器小型数据中心提供了可靠的时钟同步解决方案,帮助各类设备实现最佳的性能和数据传输效果。
    发表于 06-11 13:37

    利用NVIDIA技术构建从数据中心到边缘的智慧医院解决方案

    全球领先的电子制造正在利用 NVIDIA 技术,构建从数据中心到边缘的智慧医院解决方案。
    的头像 发表于 05-22 09:50 731次阅读

    适用于数据中心和AI时代的800G网络

    数据中心依赖数千甚至上万个GPU集群进行高性能计算,对带宽、延迟和数据交换效率提出极高要求。 AI云:以生成式AI核心的云平台,多租户环境提供推理服务。这类
    发表于 03-25 17:35

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    高速线缆支持热插拔功能,具有低功耗和小弯曲半径,便于灵活布线,可实现高稳定性、低成本、节省空间和高散热等优势,非常适合数据中心布线需求。这些高速线缆能够与交换机、路由器和服务器无缝集成,确保网络
    发表于 03-24 14:20

    华为发布新一代站点能源架构及AI数据中心建设理念

    SitePower"及AI数据中心建设原则RASTM,旨在加速运营商成为能源产消者,打造更优ICT能源基础设施,把握AI新时代机遇。 华为数据中心能源及关键供电产品线总裁何波 "智能
    的头像 发表于 03-13 15:38 635次阅读
    华为发布新一代站点能源架构及AI<b class='flag-5'>数据中心</b>建设理念

    Molex莫仕解读高密度连接器助力构建更智能的数据中心扩展

    Research Group 根据 数据中心动态(Data Center Dy namics) 相关数据分析得出,未来十年,全球超大规模数据中心的数量预计每年将增加120至130座。这一扩展需要增加人力、缩短部署时间和加速扩展
    发表于 02-25 11:57 1262次阅读

    精准监测,智能预警,安科瑞数据中心安全保驾护航

    安科瑞的数据中心产品与解决方案,以其智能化、模块化、高可靠性及能效精细化管理的核心优势,全面覆盖了从超大规模数据中心到边缘节点的全场景需求。无论是新建项目还是老旧改造,均可通过定制化配置,实现
    的头像 发表于 02-19 17:05 708次阅读
    精准监测,智能预警,安科瑞<b class='flag-5'>为</b><b class='flag-5'>数据中心</b>安全保驾护航