0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT加速打造实时数字化运动场景

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-20 15:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

案例简介

GALA Sports 的 Arena4D 方案使用多个高清摄像机,将数据传输到一个本地 HPC 中,经过一系列的神经网络流水线,实时计算出每个运动员的位置与姿态,从而将整个比赛场景数字化。

Arena4D 的中央处理 HPC 需要以 30FPS 的速度处理 4-12 个 4K 相机的数据,流水线包括图像前处理、运动员追踪与识别、球的追踪识别、骨骼关键点识别,多帧时间轴降噪等多个算法模块,为了达到实时计算,Arena4D 使用了 NVIDIA A100 GPU 加速神经网络计算,并使用 Tensor RT、CUDA 进行深度优化,经过优化部署的算法计算速度相对于早期算法原型有 10 倍以上的性能提升。

本案例主要应用到 NVIDIA A100 GPU、TensorRT和CUDA。

客户简介及应用背景

望尘科技(GALA Sports)于 2013 年在深圳成立,是一家以技术为驱动的互联网公司,多年来一直专注于体育游戏和赛场数字化,致力于为用户提供高品质的体育在线娱乐体验,目前团队成员 300 余人,分别于深圳、成都设有办公地点。

凭借历年来在体育游戏市场的深耕与稳定的高质量产品研发,望尘科技推出了《足球大师》、《NBA 篮球大师》、《最佳 11 人》等多款体育类手游,与 FIFPro、NBA、中超、拜仁、巴萨、曼联、皇马、国米等体育联盟及豪门俱乐部保持着长期的合作关系。目前,拥有全球超过 2000 万的下载用户,全球日活跃用户量超 50 万人次;在赛场三维重构、人体运动模拟、球类竞技 AI、表情与肌肉物理模拟、超写实数字人、大场景渲染等几个领域处于国内外领先地位。

客户挑战

多台高清摄像头每帧图像需上传到显卡进行实时转码、降噪等前处理工作,数据吞吐量较大。

基于神经网络的计算流水线,需要实时进行多个视角、多个运动员的追踪、识别、姿态估计与降噪计算。

在多个 AI 模型级联计算流水线中,每个 AI 模型之间的数据处理与拷贝占用了大量的时间。

应用方案

基于以上挑战,GALA Sports 选择了 NVIDIA 提供的 AI 加速解决方案——TensorRT。

针对多相机从内存到显存大量数据拷贝 IO bound 问题,我们使用 CUDA 多流技术实现了内存拷贝与数据处理并行化,降低了 overhead,4 路 4k 相机数据的拷贝与转码从约 50ms 减少到 30ms。

针对神经网络流水线的计算延迟问题,首先我们根据体育比赛的使用场景与相机视角对模型结构进行了优化,根据不同体育类型的相机机位和球场尺度,设计了专门针对特定比赛的识别网络,大大降低了网络的复杂度;然后使用量化工具对网络进行 fp16 量化加速,最后使用 TensorRT 针对 A100 编译,在 A100 上能达到最优性能的模型。

针对计算流水线模型之间数据处理耗时的问题,首先我们通过合并部分神经网络模型重新训练,然后对于必须保留的数据处理代码,我们用 CUDA C++ 重写了大部分数据处理的 kernel,并针对 A100 的硬件结构对并行参数进行调优,最终将数据处理 30ms 的计算时间降低到 5ms。

最终,以足球场场景为例,追踪目标为 1 个足球 + 22 名球员 + 3 名教练的位置与骨骼,在 1 张 A100 设备上我们实现了平均 50ms/帧的速度,在 2 张 A100 设备上能达到平均 30ms/帧的速度,整个流水线比原型提升了 18 倍。

方案效果及影响

将整个推理端算法流水线经过上述方法优化后,相较于未用 TensorRT 与 CUDA 优化的算法原型,我们实现了 18 倍的性能提升,使超大规模体育场景的姿态捕捉与重建的实时计算成为可能,在体育比赛过程中的实时计算产生了许多新的用途,我们的客户能够将这些数字化内容用于直播解说、实时战术分析、自由视角回放、比赛结果预测等新场景,提升了系统方案的价值。

我们的硬件方案也从 4 台 HPC 缩减到 1 台 HPC 搭载 2 张 A100 GPU,不仅显著地降低了成本,也显著降低了系统维护和使用的复杂度,提升了系统可靠度。

后续,我们计划:

通过将流水线中部分网络使用 Int8 量化以进一步提升性能;

将整体流水线迁移到 CUDA C++ 代码中进一步提升性能;

把性能提升空余的计算资源用于提升网络模型的复杂度以提升精度;

将 CenterNet 与 Dense Sematic 网络特征提取部分替换成 Vision Transformer 以提升精度;

使用 Nsight 在 A100 真实环境中进一步 profile,减少 overhead。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109071
  • 摄像机
    +关注

    关注

    3

    文章

    1751

    浏览量

    62869
  • CUDA
    +关注

    关注

    0

    文章

    125

    浏览量

    14401
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA IGX Thor 机器人处理器将实时物理 AI 引入工业和医疗边缘场景

    年 10 月 28 日——  AI 正由数字世界走向物理世界。在工厂车间和手术室等场景中,机器正逐步进化为能够实时观察、感知并作出决策的协作伙伴。   为加速这一变革,
    的头像 发表于 10-29 10:31 907次阅读
    <b class='flag-5'>NVIDIA</b> IGX Thor 机器人处理器将<b class='flag-5'>实时</b>物理 AI 引入工业和医疗边缘<b class='flag-5'>场景</b>

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一
    的头像 发表于 10-21 11:04 751次阅读

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和
    的头像 发表于 07-16 09:16 1856次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 1735次阅读

    打造数字化矿山智能监测:露天矿边坡雷达

    打造数字化矿山智能监测:露天矿边坡雷达监测系统 矿区智能管理打造数字化矿山,为矿区边坡安全提
    的头像 发表于 06-30 09:22 469次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 1298次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    LITESTAR 4D应用:运动场照明设计流程

    当设计一个专业的足球运动场时,可以使用LITESTAR 4D中SportPlus进行设计 1.插入灯具并设置高度数量 2.设置桅杆及灯具瞄准点 3.计算结果 4.最后查看结果,打印报表。
    发表于 06-09 08:49

    运动场馆智慧照明控制系统

    随着智能技术的发展,运动场馆的照明系统正从传统的手动控制向智慧数字化方向转型。通过对照明系统进行升级,提升场馆运营效率,优化运动员与观
    的头像 发表于 04-30 14:38 548次阅读

    智慧工厂第6期 实时监控系统—打造智能数字化车间

    在工业4.0和智能制造浪潮的推动下,传统生产模式正加速数字化、网络、智能方向演进。实时监控系统作为智慧工厂的核心支柱,正在重塑制造企业
    的头像 发表于 04-22 09:50 538次阅读
    智慧工厂第6期 <b class='flag-5'>实时</b>监控系统—<b class='flag-5'>打造</b>智能<b class='flag-5'>数字化</b>车间

    华宇电子加速先进封装测试数字化转型

    近日,安徽省工业和信息厅联合安徽省广播电视台打造数字化转型·安徽时刻”专栏,聚焦华宇电子数字化转型典型案例,展示数字化转型中最有代表性和
    的头像 发表于 04-11 13:43 705次阅读

    Altair One® 云端门户与 NVIDIA Omniverse 实时数字孪生蓝图完成全面整合

    正式宣布其 Altair One®云端门户与 NVIDIA Omniverse 实时数字孪生蓝图实现技术融合。通过整合 GPU 加速NVIDIA NIM 微服务与 Omniverse
    的头像 发表于 04-02 14:01 481次阅读

    工信部|制造业企业数字化转型典型场景

    聚焦产业链上下游企业研发设计、生产制造、运维服务、经营管理、供应链管理等场景,以场景为切入点梳理数字化转型痛点需求,绘制重点行业、重点产业链数字化转型
    的头像 发表于 02-06 10:38 867次阅读
    工信部|制造业企业<b class='flag-5'>数字化</b>转型典型<b class='flag-5'>场景</b>

    NVIDIA技术助力Pantheon Lab数字实时交互解决方案

    本案例中,Pantheon Lab(万想科技)专注于数字人技术解决方案,通过 NVIDIA 技术实现数字实时对话与客户互动交流。借助 NVIDIA
    的头像 发表于 01-14 11:19 920次阅读

    智能工厂的数字化应用场景

    本文探讨了智能工厂中的数字化场景,包括设备互联与数据采集、生产计划与排程优化、自动立体仓库和智能物流系统。通过这些数字化技术,智能工厂实现了生产效率的提升、资源消耗的降低、决策能力的
    的头像 发表于 12-30 09:32 1475次阅读
    智能工厂的<b class='flag-5'>数字化</b>应用<b class='flag-5'>场景</b>

    LITESTAR 4D应用:运动场照明设计流程

    当设计一个专业的足球运动场时,可以使用LITESTAR 4D中SportPlus进行设计 1.插入灯具并设置高度数量 2.设置桅杆及灯具瞄准点 3.计算结果 4.最后查看结果,打印报表。
    发表于 12-10 13:33