0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA加速虚拟人项目渲染与推理效率

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-10-22 09:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

腾讯AI LAB致力于打造产学研用一体的 AI 生态,主要的研究方向包括计算机视觉语音识别、自然语言处理和机器学习,结合腾讯场景与业务优势,在社交AI、游戏AI、内容AI及平台AI等领域取得了显著的成果,技术被应用于微信、QQ、天天快报和QQ音乐等上百个腾讯产品。其中围棋AI “绝艺” 多次获得世界人工智能围棋大赛的冠军。

腾讯AI LAB打造的虚拟人,具有自然、生动且饱含情绪的表情,其背后由一套腾讯 AI LAB 自研的复杂系统支撑,系统首先要从文本中提取不同信息,包括表情、情感、重音位置、和激动程度等;提取之后,这些信息被输入到模型中生成,再同步生成语音、口型和表情参数,最终才有了虚拟人自然生动的表现。

虚拟人物打造需要更高效平台

根据虚拟人物需要表达的语言和情感,生成自然生动的人脸,是打造虚拟人重要的一个阶段。需要先渲染人脸的纹理图和渲染图,并将它们输入到深度学习模型中,最终生成自然生动的人脸。在这个过程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等软件技术,腾讯原有的方案有很多CPUGPU的数据交互,且有很多计算型的操作通过CPU来实现,效率非常低下, 无论是吞吐还是延时都不满足要求,具体体现在:

OpenGL在GPU上渲染好图像绘制到framebuffer后,需要先用glReadPixels拷贝数据到CPU,再用cudaMemcpy将数据从CPU拷回到GPU以进行深度学习模型的推理,这里有两次不必要的CPU与GPU之间的数据传输。

颜色空间转换方面,深度学习推理的前后处理等操作在CPU上完成,效率非常低下。

NVIDIA 加速虚拟人项目渲染与推理效率

NVIDIA 技术在虚拟人项目的渲染和推理阶段均提供了强大的支持。在渲染阶段,NVIDIA 助力提升了颜色空间转换效率,降低整体延时,主要体现在:

1. 用NVIDIA CUDA/OpenGL interoperability 代替腾讯之前使用glReadPixels在CUDA和OpenGL之间拷贝数据的方案,大幅减少了CPU和GPU之间的数据拷贝,从而降低了整体的延时。

2. 把原来在CPU上做的颜色空间转换的操作,迁移到NVIDIA T4 GPU上用CUDA kernel实现,利用GPU的并行优势,大大提高了颜色空间转换的效率,进一步降低了整体的延时。

3. 将多帧的mesh组成一个batch分别绘制到framebuffer的不同区域,在提高OpenGL并行度的同时,给下一阶段的深度学习模型的推理提供了更大的输入数据的batch size,充分发挥NVIDIA T4 GPU高并发计算的优势,进一步提高GPU的利用率,从而提高整体的吞吐。

在推理阶段,NVIDIA助力提高推理整体吞吐,降低推理延时,主要体现在以下几点:

1. 用NVIDIA TensorRT替换TensorFlow对模型推理进行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以极大提高矩阵乘等操作速度的特性,在最终视觉效果几乎不变的情况下,进一步提升推理的吞吐,降低推理延时。

2. 在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV实现 Mat-to-Tensor 和 Tensor-to-Mat 等格式转换操作,并使用OpenCV-CUDA版替换OpenCV-CPU版的部分操作(如Resize等),充分发挥GPU相对于CPU更高的并发优势,在加速这些操作的同时减少GPU到CPU的数据传输通信量,提高格式转换效率,降低端到端的推理延时。

3. 通过Pipeline的方式,使GPU和CPU上的操作进行overlap,并结合NVIDIA的MPS技术提高单卡上多个进程同时处理多个数据流的同时提高整体的吞吐。

在虚拟人项目中,NVIDIA CUDA技术大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度学习模型的推理,结合MPS技术,实现了单卡多路推流,使整体推理效率达到了原来的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技术的使用成本。责任编辑:haq

腾讯AI LAB致力于打造产学研用一体的 AI 生态,主要的研究方向包括计算机视觉、语音识别、自然语言处理和机器学习,结合腾讯场景与业务优势,在社交AI、游戏AI、内容AI及平台AI等领域取得了显著的成果,技术被应用于微信、QQ、天天快报和QQ音乐等上百个腾讯产品。其中围棋AI “绝艺” 多次获得世界人工智能围棋大赛的冠军。 腾讯AI LAB打造的虚拟人,具有自然、生动且饱含情绪的表情,其背后由一套腾讯 AI LAB 自研的复杂系统支撑,系统首先要从文本中提取不同信息,包括表情、情感、重音位置、和激动程度等;提取之后,这些信息被输入到模型中生成,再同步生成语音、口型和表情参数,最终才有了虚拟人自然生动的表现。

虚拟人物打造需要更高效平台

根据虚拟人物需要表达的语言和情感,生成自然生动的人脸,是打造虚拟人重要的一个阶段。需要先渲染人脸的纹理图和渲染图,并将它们输入到深度学习模型中,最终生成自然生动的人脸。在这个过程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等软件技术,腾讯原有的方案有很多CPU与GPU的数据交互,且有很多计算型的操作通过CPU来实现,效率非常低下, 无论是吞吐还是延时都不满足要求,具体体现在:

OpenGL在GPU上渲染好图像绘制到framebuffer后,需要先用glReadPixels拷贝数据到CPU,再用cudaMemcpy将数据从CPU拷回到GPU以进行深度学习模型的推理,这里有两次不必要的CPU与GPU之间的数据传输。

颜色空间转换方面,深度学习推理的前后处理等操作在CPU上完成,效率非常低下。

NVIDIA加速虚拟人项目渲染与推理效率

NVIDIA 技术在虚拟人项目的渲染和推理阶段均提供了强大的支持。在渲染阶段,NVIDIA 助力提升了颜色空间转换效率,降低整体延时,主要体现在: 1. 用NVIDIA CUDA/OpenGL interoperability 代替腾讯之前使用glReadPixels在CUDA和OpenGL之间拷贝数据的方案,大幅减少了CPU和GPU之间的数据拷贝,从而降低了整体的延时。 2. 把原来在CPU上做的颜色空间转换的操作,迁移到NVIDIA T4 GPU上用CUDA kernel实现,利用GPU的并行优势,大大提高了颜色空间转换的效率,进一步降低了整体的延时。 3. 将多帧的mesh组成一个batch分别绘制到framebuffer的不同区域,在提高OpenGL并行度的同时,给下一阶段的深度学习模型的推理提供了更大的输入数据的batch size,充分发挥NVIDIA T4 GPU高并发计算的优势,进一步提高GPU的利用率,从而提高整体的吞吐。

在推理阶段,NVIDIA助力提高推理整体吞吐,降低推理延时,主要体现在以下几点:
1. 用NVIDIA TensorRT替换TensorFlow对模型推理进行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以极大提高矩阵乘等操作速度的特性,在最终视觉效果几乎不变的情况下,进一步提升推理的吞吐,降低推理延时。
2. 在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV实现 Mat-to-Tensor 和 Tensor-to-Mat 等格式转换操作,并使用OpenCV-CUDA版替换OpenCV-CPU版的部分操作(如Resize等),充分发挥GPU相对于CPU更高的并发优势,在加速这些操作的同时减少GPU到CPU的数据传输通信量,提高格式转换效率,降低端到端的推理延时。
3. 通过Pipeline的方式,使GPU和CPU上的操作进行overlap,并结合NVIDIA的MPS技术提高单卡上多个进程同时处理多个数据流的同时提高整体的吞吐。 在虚拟人项目中,NVIDIA CUDA技术大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度学习模型的推理,结合MPS技术,实现了单卡多路推流,使整体推理效率达到了原来的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技术的使用成本。 责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11373

    浏览量

    226412
  • NVIDIA
    +关注

    关注

    14

    文章

    5727

    浏览量

    110294
  • AI
    AI
    +关注

    关注

    91

    文章

    41988

    浏览量

    303082
  • 深度学习
    +关注

    关注

    73

    文章

    5614

    浏览量

    124753

原文标题:NVIDIA TensorRT和GPU软件栈助力腾讯AI LAB打造生动的虚拟人

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    行业洞察篇__财务数字孪生的渲染选择:端渲染与流渲染的协同演进逻辑

    上百家子公司的资产负债表在三维地图上铺开,端渲染就会让终端GPU不堪重负。我记得那个项目里,最初搭建的财务三维场景包含了几万个独立资产对象,结果测试时普通笔记本的帧率直接掉到个位数。解决方案?要么给每个
    发表于 05-22 11:02

    技术选型之道|端渲染与流渲染融合:数字孪生应用落地的理性路径

    一个尴尬的现实:单一渲染路线就像只有一把锤子,看什么都像钉子。 我曾经观摩过一个项目招标,某方案声称用纯端渲染实现了全城级别的实时渲染,结果实际演示时,场景加载耗时惊人,一旦开启车辆轨
    发表于 05-22 10:23

    技术选型__数字孪生项目交付中端渲染与流渲染的协同策略

    服务器端,终端只接收视频流,这在大屏、高保真场景下能释放出极强的视觉表现力。问题在于,很多团队拿到项目后,习惯用一套方案通吃所有场景。我观察到有一种做法是把指挥中心的流渲染架构强推到桌面端,结果网络稍微
    发表于 05-22 10:20

    技术选型篇__数字孪生应用开发:端渲染与流渲染融合的工程适配与演进

    周期极长,中途业务需求一变,原本定好的渲染模式就得推倒重来,工程返工的成本几乎是毁灭性的。我见过一个智慧交通的项目,前期投了几百万做流渲染平台,后期因为要部署到前端移动设备上,不得不重新开发一套端
    发表于 05-13 13:56

    NVIDIA DGX SuperPOD为Rubin平台横向扩展提供蓝图

    NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,将推理 token 成本降至 NVIDIA Blackwell 平台的十分之一,可
    的头像 发表于 01-14 09:14 1003次阅读

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    需求进行了优化设计。无论是 CUDA 核心计算性能、实时渲染能力,还是 AI 推理效率,亦或显存带宽与容量的显著提升,均使得新一代 RTX PRO 5000 Blackwell GPU 能够轻松应对更复杂、更严苛的工作负载。
    的头像 发表于 01-06 09:51 4918次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA 推出 Alpamayo 系列开源 AI 模型与工具,加速安全可靠的推理型辅助驾驶汽车开发

    新闻摘要 : l NVIDIA 率先发布为应对辅助驾驶长尾场景挑战而设计的开源视觉-语言-动作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列还包含赋能辅助驾驶汽车开发
    的头像 发表于 01-06 09:40 584次阅读
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo 系列开源 AI 模型与工具,<b class='flag-5'>加速</b>安全可靠的<b class='flag-5'>推理</b>型辅助驾驶汽车开发

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 1557次阅读

    【创意征集】镜面显示器一个打通“虚拟”与“现实”的家庭终端构想【2025-10-18】

    2),负责用户姿态捕捉 算力层:采用NVIDIA Jetson Orin平台,处理实时计算机视觉算法,还有其他好的方法吗? 显示驱动:需要定制Micro LED显示驱动方案,确保低延迟渲染 核心
    发表于 10-15 20:53

    NVIDIA 利用全新开源模型与仿真库加速机器人研发进程

    科研人员及开发者打造功能更强大、适应性更强的机器人。   全新的 NVIDIA Isaac GR00T 开源基础模型将为机器人赋予接近人类的推理能力,使其能够拆解复杂指令,并借助已有知识与常识执行任务
    的头像 发表于 09-30 09:52 3272次阅读
    <b class='flag-5'>NVIDIA</b> 利用全新开源模型与仿真库<b class='flag-5'>加速</b>机器人研发进程

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1618次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2139次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型发布

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    的发布持续深化了双方的 AI 创新合作。NVIDIANVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了推理性能加速,在
    的头像 发表于 08-15 20:34 2606次阅读
    <b class='flag-5'>NVIDIA</b>从云到边缘<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,实现150万TPS<b class='flag-5'>推理</b>

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2545次阅读

    全球各大品牌利用NVIDIA AI技术提升运营效率

    欧莱雅、LVMH 集团和雀巢利用 NVIDIA 加速的智能体 AI 和物理 AI,大幅提升产品设计、营销及物流等方面的运营效率
    的头像 发表于 06-19 14:36 1439次阅读