0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

游戏AI对自对弈推理速度提出新要求

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达 2021-10-22 09:23 次阅读

腾讯一直积极地推动强化学习在游戏AI领域的发展,并在2019年推出了“开悟”AI开放研究平台,提供不同游戏的训练场景、支撑AI进行强化训练的大规模算力、统一的强化学习框架以加速研发速度、通用的训练与推理服务,加快AI训练速度。

游戏AI对自对弈推理速度提出新要求

和图像以及语音的训练方式不同,目前在游戏AI训练上表现最好的方式是强化学习。强化学习除了需要大量的算力来训练深度学习网络之外,还需要一个自对弈的模块用来产生训练数据。在自对弈模块当中,会模拟游戏环境,并且选择不同时期的模型来操控游戏内的角色,AI对游戏内角色的每一操控都需要对模型进行一次前向推理。由于更新模型的训练数据来自于自对弈模块,因此自对弈的推理速度会对整个模型的训练速度和效果造成非常大的影响。

而自对弈推理每一次前向推理对延时的要求比实际的线上服务小,因此常见的方式是通过CPU来进行自对弈中的推理,但CPU成本太高。为了提高自对弈的速度与吞吐,减少推理成本,腾讯希望在“开悟”AI开放研究平台里面充分利用GPU去进行自对弈中的模型前向推理。

TensorRT 助力“开悟”AI加速自对弈推理

为了解决在自对弈推理当中GPU利用率不高的问题, 腾讯“开悟”AI开放研究平台选择使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎来加速推理。

为了自动化地将模型从TensorFlow转换到TensorRT, 腾讯“开悟”AI开放研究平台一开始通过自行开发parser,将TensorFlow的算子映射到TensorRT的算子。同时,为了支持更广泛的模型与算子,减少维护和开发的成本, 腾讯“开悟”AI开放研究平台也积极地与NVIDIA合作,推动从TensorFlow转换成ONNX模型,再通过TensorRT ONNX parser转换到TensorRT的流程。

在自对弈的过程中,需要频繁地更新模型的权重,让自对弈模型始终能保持在较新的状态。这个更新的频率大概几分钟一次,每次必须限制在几百个毫秒。如果通过重新build engine 的方式来更新模型的话,无法满足上述要求。因此 腾讯“开悟”AI开放研究平台采用 TensorRT refit engine的功能来更新权重。同时,为了对更新权重有更好的支持、以及支持更多的算子, 腾讯“开悟”AI开放研究平台从原本的TensorRT 5 升级到TensorRT 7。

TensorRT 7虽然在部分算子上支持权重更新,但并不支持LSTM这个在游戏AI当中很重要的算子。为了解决这个问题, 腾讯“开悟”AI开放研究平台通过开发TensorRT插件的方式封装LSTM算子,并在插件当中更新权重。

为了充分利用NVIDIA V100 GPU的Tensor core, 腾讯“开悟”AI开放研究平台希望能够使用TensorRT FP16精度来加速推理。由于TensorRT对FP16的支持非常成熟和简便,整个推理流程很快被切换到FP16,并取得了2倍左右的加速。

寻找模型推理时的性能瓶颈,通过开发TensorRT插件进行算子融合,进一步地提升推理的速度。

在完成以上的工作之后,对比TensorFlow的基础版本,TensorRT 7 能提供5倍以上的加速效果。

通过NVIDIA V100 GPU以及TensorRT推理引擎加速自对弈训练的推理部分,腾讯“开悟”AI开放研究平台极大地提升了自对弈推理的吞吐量与速度,进一步地提升了整个模型训练的速度与降低训练成本,加快模型迭代的周期。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4588

    浏览量

    101694
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4415

    浏览量

    126642
  • AI
    AI
    +关注

    关注

    87

    文章

    26423

    浏览量

    264024

原文标题:NVIDIA TensorRT助力腾讯加速“开悟”AI开放研究平台

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开发者手机 AI - 目标识别 demo

    识别demo: JS实现UI界面的功能; Native接口及实现主要为JS提供接口进行AI推理。通过Native方式完成推理的前处理、推理以及后处理,这里通过调用opencv、Mind
    发表于 04-11 16:14

    ONNX Runtime支持龙架构,AI推理生态再添新翼

    近日,备受瞩目的AI推理框架开源社区ONNX Runtime宣布推出支持龙架构的新版本1.17.0,这一里程碑式的更新意味着龙芯平台上的AI推理应用开发与部署将更加便捷。
    的头像 发表于 03-27 10:58 264次阅读

    AI时代下PMIC需求暴增,设计提出新要求

      电子发烧友网报道(文/黄山明)随着AI技术的快速发展,AI芯片的功耗和性能也在不断提升,这对电源系统提出了更高的要求。为了满足AI芯片对
    的头像 发表于 03-26 00:22 3483次阅读
    <b class='flag-5'>AI</b>时代下PMIC需求暴增,设计<b class='flag-5'>提出新要求</b>

    AMD EPYC处理器:AI推理能力究竟有多强?

    如今,AMD EPYC处理器已经成为最常被选择用于AI推理的服务器平台,尤其是第四代Genoa EPYC 9004系列,执行AI推理的能力又得到了巨大的飞跃。
    发表于 03-15 09:47 146次阅读

    AI推理框架软件ONNX Runtime正式支持龙架构

    近日,知名AI推理框架开源社区ONNX Runtime正式发布支持龙架构的版本1.17.0。
    的头像 发表于 03-12 12:23 261次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>框架软件ONNX Runtime正式支持龙架构

    英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?

    随着科技的飞速发展,人工智能公司Groq挑战了英伟达的王者地位,其AI芯片不仅展现出卓越的实力,还拥有巨大的潜力。Groq设计了一种独特的推理代币经济学模式,该模式背后牵动着众多因素,却也引发了深度
    的头像 发表于 03-08 09:44 304次阅读
    英伟达要小心了!爆火的Groq芯片能翻盘吗?<b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>速度</b>「吊打」英伟达?

    美国FCC发布无线充设备WPT的新要求KDB680106 D01

    2023年10月24日美国FCC发布无线充新要求KDB680106 D01Wireless Power Transfer v04,FCC整合了近两年TCB workshop所提出的指引要求,详见如下内容;
    的头像 发表于 01-30 10:09 398次阅读
    美国FCC发布无线充设备WPT的<b class='flag-5'>新要求</b>KDB680106 D01

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    场景介绍 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件设备 AI 模型推理的功能,目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。 本文介绍
    发表于 12-14 11:41

    C++演示中的推理速度比Python演示中的推理速度更快是为什么?

    在同一主机机上采用相同型号的 Ran Object Detection C++ 演示 和 对象检测 Python 演示 。 C++ 演示中的推理速度比 Python 演示中的推理速度
    发表于 08-15 06:52

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练,AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器
    发表于 08-04 07:25

    OPPO自研推理引擎ShaderNN加入LF AI&amp;Data基金会

    近日,OPPO 宣布向 LF AI&Data 基金会无偿捐赠一项 AI 项目——ShaderNN,它是业界首个支持 OpenGL 和 Vulkan 全图形栈的高效轻量推理引擎, 面向移动端图形、图像、
    的头像 发表于 07-21 21:59 955次阅读

    NIO的自动驾驶AI推理工作流

    自动驾驶的最优 AI 推理流水线设计
    的头像 发表于 07-05 16:30 388次阅读
    NIO的自动驾驶<b class='flag-5'>AI</b><b class='flag-5'>推理</b>工作流

    对弈人工智能!myCobot 280开源六轴机械臂Connect 4 四子棋对弈下篇

    前言 在上篇文章中,我们探讨了如何创造一个能够进行Connect4的对弈大脑。简单的介绍了几种对弈算法,例如极小化极大算法,Alpha-Beta剪枝算法等,最关键的是目前最流行的神经网络算法和深度
    的头像 发表于 06-16 17:16 481次阅读
    <b class='flag-5'>对弈</b>人工智能!myCobot 280开源六轴机械臂Connect 4 四子棋<b class='flag-5'>对弈</b>下篇

    解读IEC有关“雷击防护”的新要求

    有关“雷击防护”的新要求表示符合I级、或II级、或III级实验的地凯科技浪涌保护器SPD; 2. 在低压装置里安装I级、II级、I
    的头像 发表于 05-10 10:28 358次阅读
    解读IEC有关“雷击防护”的<b class='flag-5'>新要求</b>

    如何在RT-Thread OS环境下使用ncnn进行AI推理

    今天简报较短,主要演示一下如何在RT-Thread OS环境下使用ncnn进行AI推理
    的头像 发表于 05-04 16:29 804次阅读
    如何在RT-Thread OS环境下使用ncnn进行<b class='flag-5'>AI</b><b class='flag-5'>推理</b>