0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯云与NVIDIA仍持续为AI推理加速进行合作

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-08-31 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

腾讯云计算加速套件 TACO Kit 包含 TACO Train 和 TACO Infer 两个 AI 组件。基于 GPU 异构计算平台针对业界 AI 训练和推理任务进行了全方位的加速优化。TACO Kit 不仅大大提升了 GPU 集群上多机多卡分布式训练的效率,对于 GPU 上的模型推理也通过集成 NVIDIA TensorRT 带来了显著加速。双方团队就 GPU 推理加速这一话题将进行持续深入的合作,推出定制化的优化方案,为业界客户带来显著的性能收益。

腾讯云计算加速套件TACO Kit(Tencent Cloud Accelerated Computing Optimization Kit)是一种异构计算加速软件服务,具备领先的 GPU 共享技术和业界唯一的 GPU 在离线混部能力,搭配腾讯自研的软硬件协同优化组件和硬件厂商特有优化方案,支持物理机、云服务器、容器等产品的计算加速、图形渲染、视频转码各个应用场景,帮助用户实现全方位全场景的降本增效。

其中,AI 加速引擎 TACO Train 和 TACO Infer 是腾讯云虚拟化团队依托云帆团队,立足于腾讯内部丰富的 AI 业务场景,深耕训练框架优化、分布式框架优化、网络通信优化、推理性能优化等关键技术,携手打造的一整套 AI 加速方案。为了更好的服务用户,腾讯云决定将内部深度优化的加速方案免费提供给公有云用户,助力广大用户提高 AI 产品迭代效率。

无论对于 AI 训练或 AI 推理,如何有效提升 AI 任务的性能,节省硬件资源成本,是业界持续追求的目标。在训练方面,随着 AI 模型规模的扩大及训练数据的增多,用户对模型的迭代效率要求也随之增长,单个 GPU 的算力已无法满足大部分业务场景,使用单机多卡或多机多卡训练已成为趋势。但用户在部署分布式训练系统时,时常面临着难以充分利用 GPU 资源、训练效率低下的问题,而分布式训练性能调优却是需要同时进行通信优化、计算优化的极其复杂的问题。

在推理方面,对多种多样的工作负载进行推理加速也是业界共同的需求。这需要考虑如何对不同框架训练的模型进行统一的高效部署;如何整合各类加速软件和技术,对接不同模型和业务场景。

在训练方面,TACO Train 推出 Tencent TensorFlow(以下简称 TTF), 针对特定业务场景的 XLA,Grappler 图优化,以及自适应编译框架解决冗余编译的问题,并对 TensorFlow 1.15 添加了对CUDA 11的支持,让用户可以使用NVIDIA A100 Tensor Core GPU来进行模型训练。另外,TACO Train 推出 LightCC 这一基于 Horovod 深度优化的分布式训练框架,在保留了原生 Horovod 的易用性上,增加了性能更好的通信方式。相比 Horovod,LightCC 能够对 2D AllReduce 充分利用通信带宽;在 GPU 上训练时提供高效的梯度融合方式;并使用 TOPK 压缩通信,降低通信量,提高传输效率。最后,腾讯云自研了用户态网络协议栈 HARP,可以通过 Plug-in 的方式集成到NVIDIA NCCL中,无需任何业务改动,加速云上分布式训练性能,从而解决了目前普遍使用的内核网络协议栈存在着一些必要的开销导致其不能很好地利用高速网络设备的问题。

在推理方面,TACO Infer 通过跨平台统一的优化接口赋能用户,让渴望加速计算的用户轻松驾驭腾讯云上丰富的异构算力。TACO Infer 针对 GPU 推理任务,集成了NVIDIA TensorRT,利用其极致的模型优化能力,使推理过程能够达到令人满意的性能。此外,TACO 也将自定义的高性能 kernel 实现与TensorRT相结合,极大地提升用户的推理效率。

TACO Kit 针对 GPU 的训练优化,为诸多业务带来了显著的性能提升。在某电商平台推荐业务Wide & Deep 模型训练任务中,TACO Train 提供的方案通过定制化高性能 GPU 算子,使延迟从 14.3ms 下降至 2.8ms;整体训练性能提升 43%,成本下降 11%;在另一电商推荐场景 MMoE 模型的训练任务中,TACO Train 提供的训练方案,在NVIDIA V100 Tensor Core GPU集群上,使计算速度性价比相比于 CPU 集群提升了 3.2 倍,收敛速度性价比相比于 CPU 集群提升了 24.3 倍。

目前,腾讯云 TACO Kit 与 NVIDIA 双方团队仍持续为 AI 推理加速进行合作。未来也将针对一些常见的业务模型,围绕TensorRT进行联合优化,将模型推理的性能推向更高的水准,为业界有推理加速需求的客户提供一站式的优化方案。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109099
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134468
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296694
  • 腾讯云
    +关注

    关注

    0

    文章

    224

    浏览量

    17383

原文标题:腾讯云与 NVIDIA 深度合作,打造计算加速套件 TACO Kit 加速 GPU AI 计算全链路

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的
    的头像 发表于 10-21 11:04 762次阅读

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理
    的头像 发表于 09-23 15:19 837次阅读

    NVIDIA到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    的发布持续深化了双方的 AI 创新合作NVIDIANVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了
    的头像 发表于 08-15 20:34 1964次阅读
    <b class='flag-5'>NVIDIA</b>从<b class='flag-5'>云</b>到边缘<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,实现150万TPS<b class='flag-5'>推理</b>

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    NVIDIA计划打造全球首个工业AI平台

    NVIDIA 宣布,其正在为欧洲制造商构建全球首个工业 AI 。这家总部位于德国的 AI 工厂将配备 1 万个 GPU,包括通过 NVIDIA
    的头像 发表于 06-16 14:17 1095次阅读

    NVIDIA携手诺和诺德借助AI加速药物研发

    NVIDIA 宣布与诺和诺德开展合作,借助创新 AI 应用加速药物研发。此次合作也将支持诺和诺德与丹麦
    的头像 发表于 06-12 15:49 982次阅读

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从到 PC 加速
    的头像 发表于 05-27 14:03 761次阅读

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA
    的头像 发表于 03-21 12:01 1182次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b><b class='flag-5'>合作</b>助力企业<b class='flag-5'>加速</b>代理式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代
    的头像 发表于 03-20 15:35 1216次阅读

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 发布了开源推理软件 NVIDIA Dynamo,旨在以高效率、低成本加速并扩展
    的头像 发表于 03-20 15:03 1077次阅读

    通用汽车和NVIDIA合作构建定制化AI系统

    通用汽车和 NVIDIA 宣布正在借助 AI、仿真和加速计算技术,合作打造下一代汽车、工厂和机器人。
    的头像 发表于 03-20 14:40 1465次阅读

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式
    发表于 03-19 15:24 470次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>合作</b>助力企业<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    NVIDIA 后训练的全新 Llama Nemotron 推理模型,代理式 AI 提供业务就绪型基础 埃森哲、Amdocs、Atlassian、Box、Cadence、Crowd
    发表于 03-19 09:31 336次阅读
    <b class='flag-5'>NVIDIA</b> 推出开放<b class='flag-5'>推理</b> <b class='flag-5'>AI</b> 模型系列,助力开发者和企业构建代理式 <b class='flag-5'>AI</b> 平台

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1327次阅读
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    腾讯申请注册“腾讯AI代码助手”商标

    致力于提升编程效率的智能工具。其主要功能包括代码的智能补全和自动生成,旨在帮助开发者更加高效地进行编程工作。这款工具的出现,标志着腾讯在人工智能和计算领域的技术实力得到了进一步的提升。 值得注意的是,
    的头像 发表于 12-13 10:28 971次阅读