0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorRT极致推理加速,望尘科技打造新一代实时AI体育全场景多维重构引擎

NVIDIA英伟达企业解决方案 来源:未知 2022-12-01 22:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

深圳望尘科技公司拥有国内领先的 AI 视觉算法团队和实时渲染引擎,十年来一直专注于体育游戏与其相关 AI 视觉技术的研发,积累了巨量的球员角色数据库,不仅有所有在国际足联注册的 2 万名职业球员精确到厘米的球员体型、骨长、BMI、体脂肌肉比等数据,还有数千名顶级球员高精度的 3D 模型,几乎全球所有主要球场的高精度模型。




基于这些高质量结构化的数据,Arena4D 可将捕捉结果在实时渲染引擎中以接近照片级真实的质量渲染,用完全自由的镜头特效和运镜方式实现前所未有的震撼体验。


Arena4D 空间追踪识别及数据处理

面临算力挑战


  • 球员和球的运动速度快,姿态变化大,且衣服外貌相似性较大,难以使用行业通用的 MOT 算法进行高质量的追踪和姿态识别。

  • 即使是 4k 图像,球员和球在图像中太小,追踪困难。

  • 多台高清摄像头每帧图像需上传到显卡进行实时转码、降噪等前处理工作,数据吞吐量较大。

  • 基于神经网络的计算流水线,需要实时进行多个视角、多个运动员的追踪、识别、姿态估计与降噪计算。

  • 在多个 AI 模型级联计算流水线中,每个 AI 模型之间的数据处理与拷贝占用了大量的时间。


NVIDIA AI 计算平台为Arena4D

实现全流程GPU加速提供算力支持


基于以上挑战,望尘科技选择了采用 NVIDIA AI 计算平台来提供支持,使用后给研发和项目落地带来了巨大的支持和提升。


1、基于 GalaSports 体育游戏渲染生成巨量的合成数据,在 NVIDIA 数据中心 GPU 上进行加速训练。首先在有 GT 的合成数据上训练基础网络,然后再在手工标注的真实数据上进行 finetune。


2、Arena4D 采用了 NVIDIA TensorRT 推理加速引擎,TensorRT 首先对神经网络进行量化处理,然后再优化、合并算子,最后经过 Batch 化,推理处理速度较原来提升了 4-12 倍,能高效地处理多路摄像头 4k 高清数据,实时提取球员的 3D Pose 和外貌特征并进行匹配计算。


3、将原有基于 CPU 运行的数据拷贝,图像格式转换,图像 crop/resize 等耗时较多的操作流水线,利用 CUDA 进行实现,完全切换到 GPU 处理,比起 CPU 实现的方案,加速 50~100 倍。


4、针对体育场景中运动员速度快、运动幅度大、图像中尺寸小的特点,改进了网络结构和算子,使其适合体育场这种稀疏变化,追踪角色小的场景;提升了 MOT 算法,通过多个视图的 fusion 网络对 2D 追踪结果进行 finetune,实现多视图在 3D 空间的追踪。


图1:整体流程

图片来源及所属:Galasports 望尘科技


5、针对神经网络流水线的计算延迟问题,首先根据体育比赛的使用场景与相机视角对模型结构进行了优化,根据不同体育类型的相机机位和球场尺度,设计了专门针对特定比赛的识别网络,大大降低了网络的复杂度;基于连续帧的姿态计算骨长度和 BMI 等球员特征,在数据库中进行匹配提升识别准确率;针对多相机从内存到显存大量数据拷贝 IObound 问题,使用 CUDA 多流技术实现了内存拷贝与数据处理并行化,降低了 overhead,4 路4k 相机数据的拷贝与转码从 50ms 减少到 30ms;然后使用量化工具对网络进行 fp16/int8(QAT) 量化加速,最后使用 NVIDIA TensorRT 针对 NVIDIA 数据中心 GPU 编译,在 NVIDIA 数据中心 GPU 上能达到最优性能的模型。


图2:计算延迟解决思路

图片来源及所属:Galasports 望尘科技


6、整个流水线经过 TensorRT 编译运行在 NVIDIA 数据中心 GPU 上,每路视频信号由一张 GPU 进行实时计算,最后在 CPU 中对多路计算结果降噪融合。最终,以足球场场景为例,追踪目标为 1 个足球 + 22 名球员 + 3 名教练的位置与骨骼,在一张 NVIDIA 数据中心 GPU 设备上我们实现了平均 50ms/帧的速度,在二张 NVIDIA 数据中心 GPU 设备上能达到平均 30ms/帧的速度,整个流水线比原型提升了 18 倍。


使用了 NVIDIA TensorRT 推理加速引擎NVIDIA 数据中心计算卡,Arena4D 整个流水线可实时运行,进一步提升了用户使用体验,为扩展 AI 体育方向的其他业务、甚至是 XR 场景的加入打下了良好的基础。


NVIDIA 助力望尘科技

打造新一代实时 AI 体育全场景多维重构引擎


Arena4D 通过 NVIDIA TensorRT 等技术,实现了多视图在 3D 空间的追踪、提升了识别骨长度和 BMI 等球员特征的准确率、完成了内存拷贝与数据处理的并行化、改进了网络结构和算子使其适合体育场的稀疏变化,最终实现全流程 GPU 加速,速度提升超过 50~100 倍。


AI 体育行业是最受关注的人工智能应用领域之一,传统的体育企业也开始拥抱科技,纷纷引入人工智能产业。一个集技术、人才与场景优势的科技企业必须与一个优秀的合作伙伴一起积极开拓和长期发展。NVIDIA 提供的 GPU 解决方案,解决了深度学习机器学习的技术难题,使得望尘科技在 AI 体育领域能够持续不断地创新产品,拓宽 AI 应用场景,为观众和球迷提供新时代的数字化全新观赛体验。


NVIDIA 初创加速计划


望尘科技是 NVIDIA 初创加速计划 (NVIDIA Inception) 会员企业。NVIDIA 初创加速计划为免费会员制、旨在培养颠覆行业格局的优秀创业公司。该计划联合国内外知名的风投机构,创业孵化器,创业加速器,行业合作伙伴以及科技创业媒体等,打造创业加速生态系统。能够提供产品折扣,技术支持,市场宣传,融资对接,业务推荐等一系列服务,加速创业公司的发展。


想获得 NVIDIA 初创加速生态助力?扫描下方二维码,仅需一分钟填写意向申请表单,获得快速联系。



原文标题:TensorRT极致推理加速,望尘科技打造新一代实时AI体育全场景多维重构引擎

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4115

    浏览量

    99615

原文标题:TensorRT极致推理加速,望尘科技打造新一代实时AI体育全场景多维重构引擎

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智谱AI正式上线并开源全新一代大模型GLM-5

    智谱AI正式上线并开源全新一代大模型GLM-5。作为面向复杂系统工程与长程Agent任务打造新一代模型,GLM-5在Coding与Agent能力上实现开源SOTA表现,在真实编程
    的头像 发表于 02-12 14:40 968次阅读

    使用NORDIC AI的好处

    原始传感器数据,可显著降低功耗、延长电池寿命。[Edge AI 概述; Nordic Edge AI 技术页] 降低云依赖与时延 直接在设备上做推理,很多决策可以“本地实时”完成,
    发表于 01-31 23:16

    曦望发布新一代推理GPU芯片,单位Token推理成本降低90%

    已突破万片。   启望S3是专为大模型推理打造的定制化GPGPU芯片。在典型推理场景下,它的整体性价比较上一代提升超10倍。在算力与存储设计
    的头像 发表于 01-28 17:38 9538次阅读

    云巨头算力战升级!微软新一代3nm AI推理芯片性能提升30%,落地数据中心

    据外媒报道,微软发布新一代人工智能芯片Maia 200,这款芯片有望成为英伟达旗舰处理器以及云服务竞争对手亚马逊、谷歌同类产品的替代选择。微软称,这款芯片是为 AI 推理规模化部署打造
    的头像 发表于 01-27 12:29 9951次阅读
    云巨头算力战升级!微软<b class='flag-5'>新一代</b>3nm <b class='flag-5'>AI</b><b class='flag-5'>推理</b>芯片性能提升30%,落地数据中心

    算力密度翻倍!江原D20加速卡发布,卡双芯重构AI推理标杆

    的关键技术瓶颈。   在此背景下,江原科技推出采用自研AI芯片的AI加速卡江原D10,并在今年5月实现量产交付。在大算力AI芯片全流程国产化产业链实现首次突破后,11月11日,江原科技
    的头像 发表于 11-14 08:21 1.1w次阅读
    算力密度翻倍!江原D20<b class='flag-5'>加速</b>卡发布,<b class='flag-5'>一</b>卡双芯<b class='flag-5'>重构</b><b class='flag-5'>AI</b><b class='flag-5'>推理</b>标杆

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 1413次阅读

    恩智浦助力亿境虚拟打造新一代AI眼镜解决方案

    恩智浦半导体宣布,深圳市亿境虚拟现实技术有限公司(简称“亿境虚拟”)在其新一代 AI 眼镜解决方案SW3021中采用恩智浦i.MX RT685跨界MCU,实现了极致低功耗与强大音频处理能力的平衡。
    的头像 发表于 10-16 09:03 4580次阅读

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦!

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦! 聆思全新一代六合芯片「LS26系列」,搭载WIFI / BLE & BT / NPU,与「小聆AI」强强
    发表于 09-25 11:47

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    ②Transformer引擎③NVLink Switch系统④机密计算⑤HBM FPGA: 架构的主要特点:可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。 ASIC: 介绍了几种ASIC
    发表于 09-12 16:07

    积算科技上线赤兔推理引擎服务,创新解锁FP8大模型算力

    的模型轻量化部署方案。用户通过远程算力平台预置的模型镜像与AI工具,仅需50%的GPU算力即可解锁大模型推理、企业知识库搭建、智能体开发,加速大模型在智能问答、报告生成、客服助手、智能体等典型行业
    的头像 发表于 07-30 21:44 1039次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范
    发表于 07-16 15:29

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2416次阅读

    PTR54L15系列低功耗无线多协议模组

    PTR54L15系列多协议无线模组,基于Nordic新一代nRF54L15平台打造,以超低功耗、高性能和多协议支持为核心,为智能家居、工业自动化、可穿戴设备等场景提供了站式解决方案。
    发表于 06-28 21:23

    广和通发布新一代AI语音智能体FiboVista

    近日,2025火山引擎Force原动力大会正式开幕。广和通发布新一代AI语音智能体FiboVista,并已率先应用于车联网,成为智能驾驶的“用车伙伴”和“出行伴侣”。通过创新AI大模型
    的头像 发表于 06-17 09:22 1417次阅读

    AI驱动智慧交通:加速应用场景落地

    智慧交通与人工智能的深度融合正在催生新一代交通生态系统,这种融合不仅体现在技术层面的创新突破,更在于重构了整个交通产业的运行逻辑和价值链条。AI技术作为智慧交通的核心引擎,通过算法、算
    的头像 发表于 06-06 14:12 775次阅读