0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯云与NVIDIA仍持续为AI推理加速进行合作

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-08-31 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

腾讯云计算加速套件 TACO Kit 包含 TACO Train 和 TACO Infer 两个 AI 组件。基于 GPU 异构计算平台针对业界 AI 训练和推理任务进行了全方位的加速优化。TACO Kit 不仅大大提升了 GPU 集群上多机多卡分布式训练的效率,对于 GPU 上的模型推理也通过集成 NVIDIA TensorRT 带来了显著加速。双方团队就 GPU 推理加速这一话题将进行持续深入的合作,推出定制化的优化方案,为业界客户带来显著的性能收益。

腾讯云计算加速套件TACO Kit(Tencent Cloud Accelerated Computing Optimization Kit)是一种异构计算加速软件服务,具备领先的 GPU 共享技术和业界唯一的 GPU 在离线混部能力,搭配腾讯自研的软硬件协同优化组件和硬件厂商特有优化方案,支持物理机、云服务器、容器等产品的计算加速、图形渲染、视频转码各个应用场景,帮助用户实现全方位全场景的降本增效。

其中,AI 加速引擎 TACO Train 和 TACO Infer 是腾讯云虚拟化团队依托云帆团队,立足于腾讯内部丰富的 AI 业务场景,深耕训练框架优化、分布式框架优化、网络通信优化、推理性能优化等关键技术,携手打造的一整套 AI 加速方案。为了更好的服务用户,腾讯云决定将内部深度优化的加速方案免费提供给公有云用户,助力广大用户提高 AI 产品迭代效率。

无论对于 AI 训练或 AI 推理,如何有效提升 AI 任务的性能,节省硬件资源成本,是业界持续追求的目标。在训练方面,随着 AI 模型规模的扩大及训练数据的增多,用户对模型的迭代效率要求也随之增长,单个 GPU 的算力已无法满足大部分业务场景,使用单机多卡或多机多卡训练已成为趋势。但用户在部署分布式训练系统时,时常面临着难以充分利用 GPU 资源、训练效率低下的问题,而分布式训练性能调优却是需要同时进行通信优化、计算优化的极其复杂的问题。

在推理方面,对多种多样的工作负载进行推理加速也是业界共同的需求。这需要考虑如何对不同框架训练的模型进行统一的高效部署;如何整合各类加速软件和技术,对接不同模型和业务场景。

在训练方面,TACO Train 推出 Tencent TensorFlow(以下简称 TTF), 针对特定业务场景的 XLA,Grappler 图优化,以及自适应编译框架解决冗余编译的问题,并对 TensorFlow 1.15 添加了对CUDA 11的支持,让用户可以使用NVIDIA A100 Tensor Core GPU来进行模型训练。另外,TACO Train 推出 LightCC 这一基于 Horovod 深度优化的分布式训练框架,在保留了原生 Horovod 的易用性上,增加了性能更好的通信方式。相比 Horovod,LightCC 能够对 2D AllReduce 充分利用通信带宽;在 GPU 上训练时提供高效的梯度融合方式;并使用 TOPK 压缩通信,降低通信量,提高传输效率。最后,腾讯云自研了用户态网络协议栈 HARP,可以通过 Plug-in 的方式集成到NVIDIA NCCL中,无需任何业务改动,加速云上分布式训练性能,从而解决了目前普遍使用的内核网络协议栈存在着一些必要的开销导致其不能很好地利用高速网络设备的问题。

在推理方面,TACO Infer 通过跨平台统一的优化接口赋能用户,让渴望加速计算的用户轻松驾驭腾讯云上丰富的异构算力。TACO Infer 针对 GPU 推理任务,集成了NVIDIA TensorRT,利用其极致的模型优化能力,使推理过程能够达到令人满意的性能。此外,TACO 也将自定义的高性能 kernel 实现与TensorRT相结合,极大地提升用户的推理效率。

TACO Kit 针对 GPU 的训练优化,为诸多业务带来了显著的性能提升。在某电商平台推荐业务Wide & Deep 模型训练任务中,TACO Train 提供的方案通过定制化高性能 GPU 算子,使延迟从 14.3ms 下降至 2.8ms;整体训练性能提升 43%,成本下降 11%;在另一电商推荐场景 MMoE 模型的训练任务中,TACO Train 提供的训练方案,在NVIDIA V100 Tensor Core GPU集群上,使计算速度性价比相比于 CPU 集群提升了 3.2 倍,收敛速度性价比相比于 CPU 集群提升了 24.3 倍。

目前,腾讯云 TACO Kit 与 NVIDIA 双方团队仍持续为 AI 推理加速进行合作。未来也将针对一些常见的业务模型,围绕TensorRT进行联合优化,将模型推理的性能推向更高的水准,为业界有推理加速需求的客户提供一站式的优化方案。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110095
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5258

    浏览量

    136039
  • AI
    AI
    +关注

    关注

    91

    文章

    40926

    浏览量

    302511
  • 腾讯云
    +关注

    关注

    0

    文章

    224

    浏览量

    17495

原文标题:腾讯云与 NVIDIA 深度合作,打造计算加速套件 TACO Kit 加速 GPU AI 计算全链路

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Oracle和NVIDIA合作加速向量搜索和企业数据处理

    Oracle 和 NVIDIA 正在与客户合作,将 GPU 加速的向量索引构建应用于实际工作负载。Oracle Private AI Services Container 初期支持 C
    的头像 发表于 03-23 15:26 400次阅读

    NVIDIA与亚马逊科技深化合作伙伴关系

    NVIDIA 和亚马逊科技 (AWS) 扩展双方合作,增强在 AWS 平台上的由 NVIDIA 驱动的数据处理能力,并增加对 NVIDIA
    的头像 发表于 03-23 15:17 421次阅读

    是德科技推出全新AI推理仿真平台

    是德科技(NYSE: KEYS)近日推出KAI推理构建器(Keysight AI Inference Builder),这款仿真与分析平台旨在大规模验证针对推理进行优化的
    的头像 发表于 03-20 17:27 801次阅读
    是德科技推出全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>仿真平台

    NVIDIA DGX SuperPODRubin平台横向扩展提供蓝图

    NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,将推理 token 成本降至 NVIDIA Blackwell 平台的十分之一,可
    的头像 发表于 01-14 09:14 805次阅读

    NVIDIA 推出 Alpamayo 系列开源 AI 模型与工具,加速安全可靠的推理型辅助驾驶汽车开发

    新闻摘要 : l NVIDIA 率先发布应对辅助驾驶长尾场景挑战而设计的开源视觉-语言-动作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列还包含赋能辅助
    的头像 发表于 01-06 09:40 506次阅读
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo 系列开源 <b class='flag-5'>AI</b> 模型与工具,<b class='flag-5'>加速</b>安全可靠的<b class='flag-5'>推理</b>型辅助驾驶汽车开发

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的
    的头像 发表于 10-21 11:04 1386次阅读

    MediaTek携手NVIDIA开启个人AI算力新纪元

    Spark 助力开发者能在本地端对大型 AI 模型进行原型设计(Prototype)、微调(Fine-tune)和推理(Inference)。NVIDIA DGX Spark 将于
    的头像 发表于 10-16 11:26 920次阅读

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理
    的头像 发表于 09-23 15:19 1445次阅读

    蘑菇车联与腾讯达成战略合作

    9月16日,蘑菇车联(MOGOX)与腾讯达成战略合作,全面推动MogoMind大模型关键能力升级。双方将通过服务、算力等方面的技术合作
    的头像 发表于 09-17 14:13 863次阅读

    NVIDIA到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    的发布持续深化了双方的 AI 创新合作NVIDIANVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了
    的头像 发表于 08-15 20:34 2474次阅读
    <b class='flag-5'>NVIDIA</b>从<b class='flag-5'>云</b>到边缘<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,实现150万TPS<b class='flag-5'>推理</b>

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    400G/800G光模块已实现规模化量产,并基于AI工厂与AI的核心需求进行深度优化: 速率突破:采用PAM4调制技术,单通道速率达100Gbps,整模块实现800Gbps传输能力,
    发表于 08-13 19:01

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    NVIDIA计划打造全球首个工业AI平台

    NVIDIA 宣布,其正在为欧洲制造商构建全球首个工业 AI 。这家总部位于德国的 AI 工厂将配备 1 万个 GPU,包括通过 NVIDIA
    的头像 发表于 06-16 14:17 1596次阅读

    NVIDIA携手诺和诺德借助AI加速药物研发

    NVIDIA 宣布与诺和诺德开展合作,借助创新 AI 应用加速药物研发。此次合作也将支持诺和诺德与丹麦
    的头像 发表于 06-12 15:49 1462次阅读

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从到 PC 加速
    的头像 发表于 05-27 14:03 1206次阅读