创作

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

NVIDIA TensorRT加速打造实时数字化运动场景

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-20 15:11 次阅读

案例简介

GALA Sports 的 Arena4D 方案使用多个高清摄像机,将数据传输到一个本地 HPC 中,经过一系列的神经网络流水线,实时计算出每个运动员的位置与姿态,从而将整个比赛场景数字化。

Arena4D 的中央处理 HPC 需要以 30FPS 的速度处理 4-12 个 4K 相机的数据,流水线包括图像前处理、运动员追踪与识别、球的追踪识别、骨骼关键点识别,多帧时间轴降噪等多个算法模块,为了达到实时计算,Arena4D 使用了 NVIDIA A100 GPU 加速神经网络计算,并使用 Tensor RT、CUDA 进行深度优化,经过优化部署的算法计算速度相对于早期算法原型有 10 倍以上的性能提升。

本案例主要应用到 NVIDIA A100 GPU、TensorRT和CUDA。

客户简介及应用背景

望尘科技(GALA Sports)于 2013 年在深圳成立,是一家以技术为驱动的互联网公司,多年来一直专注于体育游戏和赛场数字化,致力于为用户提供高品质的体育在线娱乐体验,目前团队成员 300 余人,分别于深圳、成都设有办公地点。

凭借历年来在体育游戏市场的深耕与稳定的高质量产品研发,望尘科技推出了《足球大师》、《NBA 篮球大师》、《最佳 11 人》等多款体育类手游,与 FIFPro、NBA、中超、拜仁、巴萨、曼联、皇马、国米等体育联盟及豪门俱乐部保持着长期的合作关系。目前,拥有全球超过 2000 万的下载用户,全球日活跃用户量超 50 万人次;在赛场三维重构、人体运动模拟、球类竞技 AI、表情与肌肉物理模拟、超写实数字人、大场景渲染等几个领域处于国内外领先地位。

客户挑战

多台高清摄像头每帧图像需上传到显卡进行实时转码、降噪等前处理工作,数据吞吐量较大。

基于神经网络的计算流水线,需要实时进行多个视角、多个运动员的追踪、识别、姿态估计与降噪计算。

在多个 AI 模型级联计算流水线中,每个 AI 模型之间的数据处理与拷贝占用了大量的时间。

应用方案

基于以上挑战,GALA Sports 选择了 NVIDIA 提供的 AI 加速解决方案——TensorRT。

针对多相机从内存到显存大量数据拷贝 IO bound 问题,我们使用 CUDA 多流技术实现了内存拷贝与数据处理并行化,降低了 overhead,4 路 4k 相机数据的拷贝与转码从约 50ms 减少到 30ms。

针对神经网络流水线的计算延迟问题,首先我们根据体育比赛的使用场景与相机视角对模型结构进行了优化,根据不同体育类型的相机机位和球场尺度,设计了专门针对特定比赛的识别网络,大大降低了网络的复杂度;然后使用量化工具对网络进行 fp16 量化加速,最后使用 TensorRT 针对 A100 编译,在 A100 上能达到最优性能的模型。

针对计算流水线模型之间数据处理耗时的问题,首先我们通过合并部分神经网络模型重新训练,然后对于必须保留的数据处理代码,我们用 C++UDA C++ 重写了大部分数据处理的 kernel,并针对 A100 的硬件结构对并行参数进行调优,最终将数据处理 30ms 的计算时间降低到 5ms。

最终,以足球场场景为例,追踪目标为 1 个足球 + 22 名球员 + 3 名教练的位置与骨骼,在 1 张 A100 设备上我们实现了平均 50ms/帧的速度,在 2 张 A100 设备上能达到平均 30ms/帧的速度,整个流水线比原型提升了 18 倍。

方案效果及影响

将整个推理端算法流水线经过上述方法优化后,相较于未用 TensorRT 与 CUDA 优化的算法原型,我们实现了 18 倍的性能提升,使超大规模体育场景的姿态捕捉与重建的实时计算成为可能,在体育比赛过程中的实时计算产生了许多新的用途,我们的客户能够将这些数字化内容用于直播解说、实时战术分析、自由视角回放、比赛结果预测等新场景,提升了系统方案的价值。

我们的硬件方案也从 4 台 HPC 缩减到 1 台 HPC 搭载 2 张 A100 GPU,不仅显著地降低了成本,也显著降低了系统维护和使用的复杂度,提升了系统可靠度。

后续,我们计划:

通过将流水线中部分网络使用 Int8 量化以进一步提升性能;

将整体流水线迁移到 CUDA C++ 代码中进一步提升性能;

把性能提升空余的计算资源用于提升网络模型的复杂度以提升精度;

将 CenterNet 与 Dense Sematic 网络特征提取部分替换成 Vision Transformer 以提升精度;

使用 Nsight 在 A100 真实环境中进一步 profile,减少 overhead。

审核编辑:郭婷

  • NVIDIA
    +关注

    关注

    14

    文章

    2563

    浏览量

    94700
  • 摄像机
    +关注

    关注

    3

    文章

    1115

    浏览量

    55639
  • CUDA
    +关注

    关注

    0

    文章

    68

    浏览量

    11948
收藏 人收藏

    评论

    相关推荐

    NVIDIA Riva 2.0的功能亮点有哪些

    NVIDIA Riva 可提供经过全面优化的流程,用于部署实时 AI 语音应用(例如转录和虚拟助理)....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-24 15:33 106次 阅读

    艺术家使用NVIDIA Omniverse创造出照明效果逼真的3D模型

    创意人员使用 Autodesk、Adobe Substance 3D 应用和 NVIDIA Omni....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-24 15:27 64次 阅读

    使用AI技术推动精准医疗的发展

    来自英国的 NVIDIA 初创加速计划成员 PrecisionLife 使用 AI 主导的数据分析确....
    的头像 NVIDIA英伟达 发表于 06-24 15:21 221次 阅读

    NLP的工作原理是什么 有哪些用例

    自然语言处理是一项利用计算机和软件获取人类语言(书面或口语)含义的技术。
    的头像 NVIDIA英伟达 发表于 06-24 15:19 48次 阅读

    NVIDIA DOCA数据处理器软件正式开放

    NVIDIA 联合发起 Linux 基金会项目,致力于实现数据中心创新的大众化;进一步向软件提供商、....
    的头像 NVIDIA英伟达 发表于 06-24 15:00 66次 阅读

    NVIDIA DRIVE助力小马智行控制器大规模量产

    6 月 22 日,领先自动驾驶企业小马智行宣布正式对客户交付基于 NVIDIA DRIVE Hype....
    的头像 科技绿洲 发表于 06-24 10:50 587次 阅读

    NVIDIA DOCA库API已向开发者公开提供

    本周,NVIDIA 成为 Linux 基金会开放可编程基础设施(OPI – Open Program....
    的头像 科技绿洲 发表于 06-24 10:38 145次 阅读

    NVIDIA RTX GPU产品能够支持4K大屏渲染和扩展内容渲染

    此前,七维科技帮助河南广播电视台完成了演播室改造项目,打造了 XR 沉浸式 4K 超高清演播室。这一....
    的头像 科技绿洲 发表于 06-23 15:11 193次 阅读

    NVIDIA正在建造一台AI超级计算机来驱动地球的数字孪生

    元宇宙是互联网向 3D 网络进化过程中的下一个重要阶段,将为娱乐、汽车、制造业、机器人等各个行业带来....
    的头像 科技绿洲 发表于 06-23 15:06 213次 阅读

    NVIDIA 3D MoMa技术可为虚拟爵士乐队调校乐器

    爵士乐的精髓在于即兴演奏, NVIDIA 正在通过 AI 研究向这一流派致敬。也许有一天,图形创作者....
    的头像 科技绿洲 发表于 06-23 14:53 170次 阅读

    中科创达受邀参加2022德国国际嵌入式展

    当地时间6月21-23日,全球领先的操作系统产品和技术提供商中科创达携旗下子公司创通联达、Right....
    的头像 科技绿洲 发表于 06-23 14:25 154次 阅读

    NVIDIA RTX A6000助力实现高效渲染输出高质量画面

    电视演播室作为电视节目制作的重要场所,承担了除外拍节目外的大部分节目录制和制作任务,随着设备技术突飞....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 12:06 162次 阅读

    NVIDIA在自动驾驶领域取得的新突破

    此前,NVIDIA 中国区软件解决方案总监卓睿代表 NVIDIA 参加了视频采访,针对 NVIDIA....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 12:03 544次 阅读

    NVIDIA如何以最好的方式来构建元宇宙

    元宇宙是互联网向 3D 网络进化过程中的下一个重要阶段,将为娱乐、汽车、制造业、机器人等各个行业带来....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 11:13 157次 阅读

    NVIDIA 3D MoMa:基于2D图像创建3D物体

    可逆渲染流程 NVIDIA 3D MoMa 将于本周在新奥尔良举行的计算机视觉和模式识别会议 CVP....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 11:00 163次 阅读

    小马智行自研自动驾驶域控制器ADC已开始向用户交付样品

    小马智行将成为首批基于NVIDIA DRIVE Hyperion 计算架构及DRIVE Orin 系....
    的头像 Pony.ai小马智行 发表于 06-22 15:22 127次 阅读

    NVIDIA为天壤提供计算能力强劲AI平台和行业解决方案

    天壤成立于 2016 年,是一家专注于通用智能研究的创新企业。致力于打造复杂系统下的通用人工智能平台....
    的头像 科技绿洲 发表于 06-22 11:25 351次 阅读

    NVIDIA 的CUDA平台能够助力实现卓越游戏体验

    越来越多的人在使用 NVIDIA 产品。机器人专家、视觉艺术专家、数据科学家等各类创新者和创作者都信....
    的头像 科技绿洲 发表于 06-22 10:55 167次 阅读

    NVIDIA技术助力各个领域加快创新速度

    更多问题,更多可能:NVIDIA 技术助力人类为之努力的各个领域加快创新速度。
    的头像 NVIDIA英伟达企业解决方案 发表于 06-22 10:39 169次 阅读

    得心应手的AI:NVIDIA Research助力内容创作者使用3D物体进行即兴创作

    可逆渲染流程 NVIDIA 3D MoMa 将于本周在新奥尔良举行的计算机视觉和模式识别会议 CVP....
    的头像 Blue5 发表于 06-22 10:27 871次 阅读
    得心应手的AI:NVIDIA Research助力内容创作者使用3D物体进行即兴创作

    NVIDIA助力集度ROBO-01概念车发布

    电动汽车制造商集度展示了未来汽车的交互式 AI 驾驶体验。
    的头像 NVIDIA英伟达企业解决方案 发表于 06-22 10:15 87次 阅读

    NVIDIA助力天壤推出全新蛋白质设计平台

    天壤成立于 2016 年,是一家专注于通用智能研究的创新企业。致力于打造复杂系统下的通用人工智能平台....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-22 10:12 110次 阅读

    使用GPU加速RELION进行生物结构解析

    NVIDIA 与智东西公开课共同策划推出「GPU 加速高性能计算(HPC)经典应用在线研讨会」。研讨....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-22 10:06 124次 阅读

    NVIDIA Aerial SDK的概念及特性

    构建和部署 GPU 加速的 5G 虚拟无线接入网 (vRAN)。
    的头像 NVIDIA英伟达企业解决方案 发表于 06-22 10:03 108次 阅读

    NVIDIA Jetson AGX Orin开发套件开箱

    NVIDIA 4 月份推出了新一代嵌入式开发套件JetsonAGX Orin,这是目前市场上性能强大....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-22 09:59 124次 阅读

    使用NVIDIA QAT工具包实现TensorRT量化网络的设计

      目前, TensorFlow 在其开源软件 模型优化工具包 中提供非对称量化。他们的量化方法包括....
    的头像 星星科技指导员 发表于 06-21 16:54 254次 阅读
    使用NVIDIA QAT工具包实现TensorRT量化网络的设计

    最大限度地减少Jetson上的存储使用

    NVIDIA Jetson 为开发提供了灵活的存储选项/配置,但一些 Jetson 模块配备了有限的....
    的头像 星星科技指导员 发表于 06-21 16:16 217次 阅读
    最大限度地减少Jetson上的存储使用

    让AI应用程序为本机云做好准备

      Fleet Command 将应用程序部署为容器。通过使用容器,您可以在同一系统上部署多个应用程....
    的头像 星星科技指导员 发表于 06-21 16:07 208次 阅读

    使用ARIA Cybersecurity和NVIDIA实时阻止现代安全攻击

      对于即将推出的增强功能 NVIDIA Morpheus 应用框架 将使用高级 ML 和 AI 算....
    的头像 星星科技指导员 发表于 06-21 16:05 195次 阅读
    使用ARIA Cybersecurity和NVIDIA实时阻止现代安全攻击

    提高Kubernetes的GPU利用率

      在处理多个 CUDA 应用程序时,每个应用程序都可能没有充分利用 GPU 的资源,您可以使用简单....
    的头像 星星科技指导员 发表于 06-21 15:46 234次 阅读
    提高Kubernetes的GPU利用率

    使用最新的TAO工具包简化AI模型开发

      NVIDIA AI 企业 提供了对 TAO 工具包的企业支持,这是一个用于 AI 开发和部署的端....
    的头像 星星科技指导员 发表于 06-21 15:43 195次 阅读

    使用NVIDIA Clara Parabricks 3.8加速基因组分析

      与基于CPU的环境相比,最先进的生物信息学工具的速度提高了60倍。全基因组工作流程的端到端分析只....
    的头像 星星科技指导员 发表于 06-21 15:23 101次 阅读
    使用NVIDIA Clara Parabricks 3.8加速基因组分析

    用AI和高性能计算应对边缘数据挑战

      虽然我们的许多突出的 edge HPC 应用程序都专注于流式视频和成像管道,但 NVIDIA H....
    的头像 星星科技指导员 发表于 06-21 15:18 172次 阅读
    用AI和高性能计算应对边缘数据挑战

    了解何时使用DOCA驱动程序和DOCA库

    DOCA 简化了 BlueField DPU 的编程和应用程序开发,并通过提供更高级别的抽象消除了障....
    的头像 星星科技指导员 发表于 06-21 15:14 111次 阅读
    了解何时使用DOCA驱动程序和DOCA库

    通过全栈创新推动高性能计算

      A100 还以单处理器的形式出现在操作系统中,只需要启动一个 MPI 列即可充分利用其性能。而且....
    的头像 星星科技指导员 发表于 06-21 15:10 169次 阅读
    通过全栈创新推动高性能计算

    使用Nuba扩展在Python中编写光线跟踪应用程序

      光线跟踪是一种计算密集型算法。虽然理论上可以使用标准 C Python 解释器运行光线跟踪内核,....
    的头像 星星科技指导员 发表于 06-21 15:03 152次 阅读
    使用Nuba扩展在Python中编写光线跟踪应用程序

    NVIDIA NetQ自动化网络监控减少停机时间

      NVIDIA BlueField 数据处理器 ( DPU )通过卸载、加速和隔离广泛的高级网络、....
    的头像 星星科技指导员 发表于 06-21 14:58 200次 阅读
    NVIDIA NetQ自动化网络监控减少停机时间

    使用新的Nsight Compute改进导航和性能可视化

      源页面上的度量分组和选择选项有改进,使其更易于使用。此外,此版本还增加了对在基于 ARM SBS....
    的头像 星星科技指导员 发表于 06-21 14:54 161次 阅读
    使用新的Nsight Compute改进导航和性能可视化

    实时人工智能模型旨在帮助保护大堡礁

      他们的工作是通过 GitHub 上荆棘冠海星检测管道 或 Google Colab 开源的。该项....
    的头像 星星科技指导员 发表于 06-21 14:49 209次 阅读

    Darknet神经网络框架

    ./oschina_soft/darknet.zip
    发表于 06-21 14:18 18次 阅读
    Darknet神经网络框架

    松下一体化摄像机能够提供VR制作所需要的跟踪数据

    松下公司在德国汉堡有一间供内部使用的演播室。最近,他们使用松下专业视音频技术对其进行了升级。在系统集....
    的头像 科技绿洲 发表于 06-21 11:46 382次 阅读

    使用一体化摄像机打造成全新虚拟演播室

    松下公司在德国汉堡有一间供内部使用的演播室。最近,他们使用松下专业视音频技术对其进行了升级。在系统集....
    的头像 松下专业 发表于 06-21 11:06 223次 阅读

    关于NVIDIA硬件资助计划

    NVIDIA 资助计划,通过 NVIDIA ,加速您的研究发展。
    的头像 NVIDIA英伟达企业解决方案 发表于 06-21 09:36 126次 阅读

    GPU加速高性能计算经典应用在线研讨会第二场

    高性能计算在重大科学发现的前沿基础科学研究领域已逐渐成为不可或缺的重要手段之一。从分子动力学模拟、生....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-21 09:33 124次 阅读

    NVIDIA USD是什么 有哪些功能

    USD 是 NVIDIA Omniverse 的基础,这个实时协作平台可让各种内容创作工具相互连接。
    的头像 NVIDIA英伟达企业解决方案 发表于 06-21 09:30 100次 阅读

    奥普泰卡口车辆追踪系统:精准、智能、高效!

    目前,全国车辆总数庞大且日益增加,精准掌握目标车辆的信息,是公安、交警系统迫切需要。 当前公安....
    的头像 明道物联网 发表于 06-20 17:25 281次 阅读

    Arm Neoverse NVIDIA Grace CPU 超级芯片:为人工智能的未来设定步伐

    人工智能 (AI) 将改变世界。但要实现其潜力,我们将不得不改变设计计算系统的方式。 诸如在云中训练神经网络或在边缘实时执...
    发表于 03-29 14:40 2832次 阅读

    JetsonNano的环境配置参考刷机教程

    首先要保证安装好NVIDIA驱动工具和CUDA以及Cudnn软件包(主机的环境配置在第七章中可以找到,JetsonNano的环境配置...
    发表于 12-21 08:22 548次 阅读

    NVIDIA Jetson介绍

    首发极术社区如对Arm相关技术感兴趣,欢迎私信 aijishu20加入技术微信群。分享内容NVIDIA Jetson是嵌入式计算平台,具有...
    发表于 12-14 08:05 1366次 阅读

    监控摄像机常用专业术语有哪些?

    什么是摄像机的光谱响应特性? 摄像机的数字信号(DSP)处理指的是什么? 什么是摄像机的曝光量? 什么是摄像机的最低照度...
    发表于 10-09 07:56 612次 阅读

    什么是CUDA?

    什么是CUDA?
    发表于 09-28 07:37 498次 阅读

    什么是CUDA?

    在大家开始深度学习时,几乎所有的入门教程都会提到CUDA这个词。那么什么是CUDA?她和我们进行深度学习的环境部署等有什...
    发表于 07-26 06:28 500次 阅读

    摄像机的定焦和变焦镜头知识点,介绍的太仔细了

    摄像机的定焦和变焦镜头知识点,介绍的太仔细了...
    发表于 06-03 06:14 1257次 阅读

    求一种视频显示系统的设计方案

    本文介绍一种基于CUDA技术的视频显示系统的设计与开发方案。...
    发表于 06-02 06:48 1291次 阅读

    你不知道的CCD摄像机最低照度技术

    你不知道的CCD摄像机最低照度技术
    发表于 06-01 06:09 515次 阅读

    论民用网络摄像机的应用及技术实现,看完你就懂了

    论民用网络摄像机的应用及技术实现,看完你就懂了...
    发表于 05-31 06:17 910次 阅读