0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA GPU助力美团CTR预测服务升级

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-13 15:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

案例简介

本案例中美团机器学习平台使用 NVIDIA GPU 支持其多方面优化策略,从而提高吞吐能力及降低响应延迟。通过算子融合、计算图等价替换等一系列优化 ,相较于 CPU 在相同成本约束下,NVIDIA T4 GPU 大幅加速美团 CTR(Click-Through-Rate)模型预测性能,神经网络模型吞吐能力提升了 10 倍;同时在搜索精排场景中,端到端整体吞吐能力提升了一倍以上,助力美团 CTR 向新一代服务升级。

• 本案例为 NVIDIA GPU 推理加速互联网行业 CTR 模型的典型应用

• 本案例主要应用到 T4 GPU 和 NVIDIA 各 SDK 以及 CUDA 加速手段

客户简介及应用背景

美团是一家集生活服务及商品零售的电商平台,公司聚焦“零售+科技”战略,以“吃”为核心,通过科技创新,服务于生活服务业需求侧和供给侧数字化升级。美团在中国业务涵盖餐饮、配送、网约车、共享单车、酒店及旅游预订、电影票务等 200 多个服务品类,覆盖全国 2800 个市区县,服务 6.7 亿活跃用户和 830 万活跃商家。

伴随着用户规模的提升和业务的精细化运营,业务侧对推荐系统的准确度、吞吐能力和时延都提出了新的挑战,而 CTR 模型作为推荐系统的核心模型,其效果直接影响业务的收入。

客户挑战

美团的 CTR 模型过去一直在使用 CPU 推理的方式,但随着用户访问量的提升和深度神经网络的引入,CTR 模型结构趋于复杂,吞吐和计算量也越来越大,CPU 开始不能满足模型对于算力的需求,而仅仅通过 CPU 服务器的堆叠带来的性能提升性价比相较偏低。

而 GPU 拥有数以千计的计算核心,可以在单机内提供密集的并行计算能力,特别适合深度学习场景,在行业内已经在 CV、NLP 等领域展示了强大的能力。通过 CUDA 及相关 API,NVIDIA建立了完整的 GPU 生态系统。基于此,美团基础研发平台将 CTR 模型部署到 GPU 上,并通过一系列针对 CPU 与 GPU 的异构系统并行计算设计、数据存储方式和传输方式上的特定优化,希望能通过 GPU 强大的计算力,协助美团在 CTR 预测的各业务场景中发挥出最大优势。

应用方案

为了解决算力瓶颈及上述各种挑战,美团机器学习平台采用 NVIDIA AI 计算平台,在继 CV、NLP 及 CTR 训练后,也使用了 NVIDIA T4来提供 CTR 预测支持,大幅提升用户体验与服务稳定性。除此之外,时延也是业务侧非常重视的性能指标,许多复杂模型纵有更好的准确度,但却因响应时间不达标而无法落地应用,例如,在某搜索框自动补全的场景,由于天然的交互属性,时延要求非常苛刻,一般来说无法使用复杂的模型。而在 GPU 能力的加持下,其复杂模型的平均响应时间从 15 毫秒降低至 6~7 毫秒,足足缩短了一倍多,达到了上线要求。

使用效果及影响

通过 NVIDIA T4 深度优化方案,成功为美团 CTR 模型创造更多应用机会,不仅极大地提升了系统吞吐量,更进一步地提升了整个模型训练的速度与降低训练成本,落实 AI 框架在 GPU上性能推理的优化实践。

“在美团和英伟达的共同努力下,我们将 CTR 预测服务成功的迁移到 GPU 平台上,在为业务提供更好的支撑的同时也获得了更好的性价比;下一步,机器学习平台计划采用 NVIDIA Triton 推理服务框架和 NVIDIA Ampere A30,进一步提升美团推理服务的效率。”

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110095
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5258

    浏览量

    136039
  • AI
    AI
    +关注

    关注

    91

    文章

    40928

    浏览量

    302512
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA向Kubernetes社区捐赠动态资源分配GPU驱动程序

    此外,NVIDIA 在 KubeCon Europe 大会上宣布推出适用于 GPU 加速工作负载的机密容器解决方案、NVIDIA KAI Scheduler 更新,以及用于实现大规模 AI 工作负载的全新开源项目。
    的头像 发表于 04-01 09:10 677次阅读

    借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程

    NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU 的极限性能。CUDA Tile 的
    的头像 发表于 02-10 10:31 498次阅读

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的
    的头像 发表于 01-06 09:51 3846次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度评测

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    Generation 的全面超越。那么,这款划时代的专业 GPU 在真实应用场景中的表现究竟如何?今天,我们将通过深度实测,为您揭晓 NVIDIA RTX PRO 4000 Blackwell 相较于前代产品的性能跃迁。
    的头像 发表于 12-29 15:30 1802次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b>性能测试

    禾赛科技与无人机达成战略合作

    2025 年 12 月 19 日,全球激光雷达领导者禾赛科技(NASDAQ: HSAI;HKEX: 2525)宣布与无人机达成战略合作,禾赛第二代纯固态感知定位激光雷达 FTX 正式获得
    的头像 发表于 12-29 14:14 4367次阅读

    NVIDIA RTX PRO 5000 72GB Blackwell GPU现已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 现已全面上市,将基于 NVIDIA Blackwell 架构的强大代理式与生成式 AI 能力带到更多桌面和专业用户手中。
    的头像 发表于 12-24 10:32 1073次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB Blackwell <b class='flag-5'>GPU</b>现已全面上市

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用
    的头像 发表于 12-13 10:12 1385次阅读
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile简化<b class='flag-5'>GPU</b>编程

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 6928次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能测试

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和由 GPU 驱动的物理仿真,缩小仿真与现实世
    的头像 发表于 09-23 17:15 2611次阅读
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多节点训练指南

    OpenAI和NVIDIA宣布达成合作,部署10吉瓦NVIDIA系统

    此次合作将助力 OpenAI 构建和部署至少 10 吉瓦(gigawatt)的 AI 数据中心,这些数据中心将采用 NVIDIA 系统,包含数百万块 NVIDIA GPU,为 Open
    的头像 发表于 09-23 14:37 1554次阅读
    OpenAI和<b class='flag-5'>NVIDIA</b>宣布达成合作,部署10吉瓦<b class='flag-5'>NVIDIA</b>系统

    Lambda采用Supermicro NVIDIA Blackwell GPU服务器集群构建人工智能工厂

    大批量 Supermicro GPU 优化服务器(包括基于 NVIDIA Blackwell 的系统),以扩展其人工智能基础设施并向客户交付高性能计算系统。此次合作于今年 6 月率先在俄亥俄州哥伦布市的 Cologix COL4
    的头像 发表于 08-30 16:55 919次阅读

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 4319次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的头像 发表于 08-18 11:50 1621次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    器件敏捷调配。 定制化服务:支持OEM/ODM/JDM模式,满足客户从标准品到液冷模块的多元化需求。 这一优势已助力多家头部云服务商在AI云平台部署中抢占市场窗口期。 三、广泛兼容性:平滑升级
    发表于 08-13 19:01

    光耦的CTR是什么?

    晶体管输出型光耦的性能,取决于其输入参数、输出参数和传输特性,传输特性决定着其电性能传送能力和特点。其中最重要的参数为电流传输比(Currenttransferratio)CTR,设计电路时,除了
    的头像 发表于 06-13 14:32 1487次阅读
    光耦的<b class='flag-5'>CTR</b>是什么?