0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯云与NVIDIA仍持续为AI推理加速进行合作

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-08-31 09:24 次阅读

腾讯云计算加速套件 TACO Kit 包含 TACO Train 和 TACO Infer 两个 AI 组件。基于 GPU 异构计算平台针对业界 AI 训练和推理任务进行了全方位的加速优化。TACO Kit 不仅大大提升了 GPU 集群上多机多卡分布式训练的效率,对于 GPU 上的模型推理也通过集成 NVIDIA TensorRT 带来了显著加速。双方团队就 GPU 推理加速这一话题将进行持续深入的合作,推出定制化的优化方案,为业界客户带来显著的性能收益。

腾讯云计算加速套件TACO Kit(Tencent Cloud Accelerated Computing Optimization Kit)是一种异构计算加速软件服务,具备领先的 GPU 共享技术和业界唯一的 GPU 在离线混部能力,搭配腾讯自研的软硬件协同优化组件和硬件厂商特有优化方案,支持物理机、云服务器、容器等产品的计算加速、图形渲染、视频转码各个应用场景,帮助用户实现全方位全场景的降本增效。

其中,AI 加速引擎 TACO Train 和 TACO Infer 是腾讯云虚拟化团队依托云帆团队,立足于腾讯内部丰富的 AI 业务场景,深耕训练框架优化、分布式框架优化、网络通信优化、推理性能优化等关键技术,携手打造的一整套 AI 加速方案。为了更好的服务用户,腾讯云决定将内部深度优化的加速方案免费提供给公有云用户,助力广大用户提高 AI 产品迭代效率。

无论对于 AI 训练或 AI 推理,如何有效提升 AI 任务的性能,节省硬件资源成本,是业界持续追求的目标。在训练方面,随着 AI 模型规模的扩大及训练数据的增多,用户对模型的迭代效率要求也随之增长,单个 GPU 的算力已无法满足大部分业务场景,使用单机多卡或多机多卡训练已成为趋势。但用户在部署分布式训练系统时,时常面临着难以充分利用 GPU 资源、训练效率低下的问题,而分布式训练性能调优却是需要同时进行通信优化、计算优化的极其复杂的问题。

在推理方面,对多种多样的工作负载进行推理加速也是业界共同的需求。这需要考虑如何对不同框架训练的模型进行统一的高效部署;如何整合各类加速软件和技术,对接不同模型和业务场景。

在训练方面,TACO Train 推出 Tencent TensorFlow(以下简称 TTF), 针对特定业务场景的 XLA,Grappler 图优化,以及自适应编译框架解决冗余编译的问题,并对 TensorFlow 1.15 添加了对CUDA 11的支持,让用户可以使用NVIDIA A100 Tensor Core GPU来进行模型训练。另外,TACO Train 推出 LightCC 这一基于 Horovod 深度优化的分布式训练框架,在保留了原生 Horovod 的易用性上,增加了性能更好的通信方式。相比 Horovod,LightCC 能够对 2D AllReduce 充分利用通信带宽;在 GPU 上训练时提供高效的梯度融合方式;并使用 TOPK 压缩通信,降低通信量,提高传输效率。最后,腾讯云自研了用户态网络协议栈 HARP,可以通过 Plug-in 的方式集成到NVIDIA NCCL中,无需任何业务改动,加速云上分布式训练性能,从而解决了目前普遍使用的内核网络协议栈存在着一些必要的开销导致其不能很好地利用高速网络设备的问题。

在推理方面,TACO Infer 通过跨平台统一的优化接口赋能用户,让渴望加速计算的用户轻松驾驭腾讯云上丰富的异构算力。TACO Infer 针对 GPU 推理任务,集成了NVIDIA TensorRT,利用其极致的模型优化能力,使推理过程能够达到令人满意的性能。此外,TACO 也将自定义的高性能 kernel 实现与TensorRT相结合,极大地提升用户的推理效率。

TACO Kit 针对 GPU 的训练优化,为诸多业务带来了显著的性能提升。在某电商平台推荐业务Wide & Deep 模型训练任务中,TACO Train 提供的方案通过定制化高性能 GPU 算子,使延迟从 14.3ms 下降至 2.8ms;整体训练性能提升 43%,成本下降 11%;在另一电商推荐场景 MMoE 模型的训练任务中,TACO Train 提供的训练方案,在NVIDIA V100 Tensor Core GPU集群上,使计算速度性价比相比于 CPU 集群提升了 3.2 倍,收敛速度性价比相比于 CPU 集群提升了 24.3 倍。

目前,腾讯云 TACO Kit 与 NVIDIA 双方团队仍持续为 AI 推理加速进行合作。未来也将针对一些常见的业务模型,围绕TensorRT进行联合优化,将模型推理的性能推向更高的水准,为业界有推理加速需求的客户提供一站式的优化方案。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4592

    浏览量

    101717
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4417

    浏览量

    126705
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264045
  • 腾讯云
    +关注

    关注

    0

    文章

    190

    浏览量

    16617

原文标题:腾讯云与 NVIDIA 深度合作,打造计算加速套件 TACO Kit 加速 GPU AI 计算全链路

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin Hierarc
    的头像 发表于 04-20 09:39 160次阅读

    开发者手机 AI - 目标识别 demo

    。 NNRt host 实现了NNRt HDI接口功能,通过对接底层AI芯片接口上层应用提供NPU硬件推理的能力。 功能实现 JS从相机数据流获取一张图片,调用Native的接口进行
    发表于 04-11 16:14

    NVIDIA和谷歌云宣布开展一项新的合作加速AI开发

    NVIDIA 和谷歌云宣布开展一项新的合作,以帮助全球初创企业加速创建生成式 AI 应用和服务。
    的头像 发表于 04-11 14:03 161次阅读

    NVIDIA数字人技术加速部署生成式AI驱动的游戏角色

    NVIDIA 在 GDC 2024 大会上宣布,Inworld AI 等领先的 AI 应用程序开发者,正在使用 NVIDIA 数字人技术加速
    的头像 发表于 04-09 10:08 214次阅读
    <b class='flag-5'>NVIDIA</b>数字人技术<b class='flag-5'>加速</b>部署生成式<b class='flag-5'>AI</b>驱动的游戏角色

    SAP与NVIDIA携手加速生成式AI在企业应用中的普及

    SAP SE 和 NVIDIA 宣布深化合作,致力于加速企业客户在 SAP 云解决方案和应用组合中利用数据和生成式 AI 的变革力量。
    的头像 发表于 03-22 10:02 322次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 209次阅读

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    ); OH_AI_ContextSetThreadAffinityMode(context, 1); //设置运行设备CPU,不使用Float16推理 OH_AI_DeviceInf
    发表于 12-14 11:41

    创新企业云福利:腾讯云 × NVIDIA 初创加速计划

    助力生成式 AI、大模型训练与推理、自动驾驶、图像处理等场景初创企业加速成长,最高获赠 10 万元扶持基金、NVIDIA 深度学习培训中心(DLI)优惠课程,以及免费的 GPU 技术支
    的头像 发表于 11-13 20:40 382次阅读
    创新企业云福利:<b class='flag-5'>腾讯</b>云 × <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划

    周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

    由 CSDN 举办的 NVIDIA AI Inference Day - 大模型推理线上研讨会,将帮助您了解 NVIDIA 开源大型语言模型(LLM)
    的头像 发表于 10-26 09:05 193次阅读

    圆满落幕!NVIDIA 携前沿 AI 技术与产品,惊艳亮相 2023 腾讯全球数字生态大会!

    NVIDIA 在本届大会带来了丰富的 AI 技术展示及专题演讲。现在就带您回顾五大活动亮点。 亮点一:NVIDIA 专场演讲 畅谈 AI 创新技术底座 洞察行业未来
    的头像 发表于 09-12 20:40 645次阅读
    圆满落幕!<b class='flag-5'>NVIDIA</b> 携前沿 <b class='flag-5'>AI</b> 技术与产品,惊艳亮相 2023 <b class='flag-5'>腾讯</b>全球数字生态大会!

    “2023 腾讯全球数字生态大会” 今日隆重登场!NVIDIA 专家众星云集,邀您一同在线参与 9 月 8 日腾讯专场演讲

    今年腾讯全球数字生态大会以 “智变加速,产业焕新” 为主题,于 9 月 7 日至 8 日在深圳国际会展中心 18 号馆 盛大举行!在 A03 展位 上,我们正全面展示 NVIDIAAI
    的头像 发表于 09-07 19:35 797次阅读

    生成式AI时代要来了吗 NVIDIA生成式AI获新突破

    这些性能强大的新系统将利用 NVIDIA Omniverse 平台加速高计算密集度的复杂应用,包括 AI 训练和推理、3D 设计和可视化、视频处理、工业数字化等。
    发表于 08-23 14:20 239次阅读

    CV-CUDA 助力腾讯云音视频 PaaS 平台实现视频增强 AI 全流程 GPU 加速

    案例介绍 腾讯云音视频 PaaS 平台与 NVIDIA 团队合作,利用  CV-CUDA  加速视频增强 AI 工作管线中的前后处理模块,结
    的头像 发表于 07-28 17:05 465次阅读
    CV-CUDA 助力<b class='flag-5'>腾讯</b>云音视频 PaaS 平台实现视频增强 <b class='flag-5'>AI</b> 全流程 GPU <b class='flag-5'>加速</b>

    NVIDIA 招聘 | NVIDIA 最新热招岗位!一起迎接未来加速计算!

    NVIDIA 计算架构团队和  NVIDIA 计算专家团队正在热招! 如果你对加速计算领域充满热情,并且希望与优秀的技术专家一起合作,那么这个机会将是你展现才华的优质平台,快来 加入
    的头像 发表于 06-14 18:35 661次阅读

    NVIDIA 与微软合作加速企业就绪的生成式 AI

    年 5 月 23 日——  NVIDIA 今天宣布将 NVIDIA AI Enterprise 软件套件 集成到微软的 Azure 机器学习中,以帮助企业加速推进
    的头像 发表于 05-25 09:15 377次阅读
    <b class='flag-5'>NVIDIA</b> 与微软<b class='flag-5'>合作</b><b class='flag-5'>加速</b>企业就绪的生成式 <b class='flag-5'>AI</b>