0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

美团落实 AI 框架在 GPU 上性能推理的优化实践

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-12-28 09:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

美团是一家集生活服务及商品零售的电商平台,公司聚焦“零售+科技”战略,以“吃”为核心,通过科技创新,服务于生活服务业需求侧和供给侧数字化升级。美团在中国业务涵盖餐饮、配送、网约车、共享单车、酒店及旅游预订、电影票务等 200 多个服务品类,覆盖全国 2800 个市区县,服务 6.7 亿活跃用户和 830万活跃商家。

伴随着用户规模的提升和业务的精细化运营,业务侧对推荐系统的准确度、吞吐能力和时延都提出了新的挑战,而 CTR 模型作为推荐系统的核心模型,其效果直接影响业务的收入。

美团的 CTR 模型过去一直在使用 CPU 推理的方式,但随着用户访问量的提升和深度神经网络的引入,CTR 模型结构趋于复杂,吞吐和计算量也越来越大,CPU 开始不能满足模型对于算力的需求,而仅仅通过 CPU 服务器的堆叠带来的性能提升性价比相较偏低。

GPU 拥有数以千计的计算核心,可以在单机内提供密集的并行计算能力,特别适合深度学习场景,在行业内已经在 CV 、NLP 等领域展示了强大的能力。通过 CUDA 及相关 API ,NVIDIA 建立了完整的 GPU 生态系统。基于此,美团基础研发平台将 CTR 模型部署到 GPU 上,并通过一系列针对 CPU 与 GPU 的异构系统并行计算设计、数据存储方式和传输方式上的特定优化,希望能通过 GPU 强大的计算力,协助美团在 CTR 预测的各业务场景中发挥出最大优势。

为了解决算力瓶颈及上述各种挑战,美团机器学习平台采用 NVIDIA AI 计算平台,在继 CV 、NLP 及 CTR 训练后,也使用了 NVIDIA T4 来提供 CTR 预测支持,大幅提升用户体验与服务稳定性。除此之外,时延也是业务侧非常重视的性能指标,许多复杂模型纵有更好的准确度,但却因响应时间不达标而无法落地应用,例如,在某搜索框自动补全的场景,由于天然的交互属性,时延要求非常苛刻,一般来说无法使用复杂的模型。而在 GPU 能力的加持下,其复杂模型的平均响应时间从 15 毫秒降低至 6~7 毫秒,足足缩短了一倍多,达到了上线要求。

通过 NVIDIA T4 深度优化方案,成功为美团 CTR 模型创造更多应用机会,不仅极大地提升了系统吞吐量,更进一步地提升了整个模型训练的速度与降低训练成本,落实 AI 框架在 GPU 上性能推理的优化实践。

美团研发工程师,机器学习平台预测引擎负责人王新表示,“在美团和英伟达的共同努力下, CTR 预测服务成功的迁移到 GPU 平台上,在为业务提供更好的支撑的同时也获得了更好的性价比;下一步,机器学习平台计划采用 NVIDIA Triton 推理服务框架和 NVIDIA Ampere A30 ,进一步提升美团推理服务的效率。”

原文标题:美团机器学习平台使用 NVIDIA GPU 助力公司 CTR 预测服务升级

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11327

    浏览量

    225903
  • NVIDIA
    +关注

    关注

    14

    文章

    5687

    浏览量

    110118
  • AI
    AI
    +关注

    关注

    91

    文章

    41115

    浏览量

    302607
  • 美团
    +关注

    关注

    0

    文章

    125

    浏览量

    11071

原文标题:美团机器学习平台使用 NVIDIA GPU 助力公司 CTR 预测服务升级

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    跳线架在数据中心的应用与优化策略

    数据中心作为信息时代的核心基础设施,其网络布线的复杂性和重要性不言而喻。跳线架作为数据中心网络布线中的关键组件,其应用和优化策略直接影响到数据中心的运行效率和稳定性。本文将探讨跳线架在
    的头像 发表于 04-02 10:56 192次阅读

    是德科技推出全新AI推理仿真平台

    是德科技(NYSE: KEYS)近日推出KAI推理构建器(Keysight AI Inference Builder),这款仿真与分析平台旨在大规模验证针对推理进行优化
    的头像 发表于 03-20 17:27 815次阅读
    是德科技推出全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>仿真平台

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    领域占据主导,其GPU凭借强大的海量数据处理能力,成为全球AI爆炸式增长的重要基石。但随着AI不断演进,重点正从大规模训练转向对已训练模型的推理和推断,
    的头像 发表于 02-03 17:15 3260次阅读

    使用NORDIC AI的好处

    原始传感器数据,可显著降低功耗、延长电池寿命。[Edge AI 概述; Nordic Edge AI 技术页] 降低云依赖与时延 直接在设备推理,很多决策可以“本地实时”完成,
    发表于 01-31 23:16

    YOLO5目标检测方案-基于米尔RK3576开发板

    与调优提供了一套完整的思路与实践方案。 PART 01 系统架构与性能目标 1.1 硬件平台 主控芯片:Rockchip RK3576(四核A72+四核A53,6TOPS NPU,RGA,GPU
    发表于 01-22 19:21

    瑞芯微SOC智能视觉AI处理器

    RK3568B2: 一款性能均衡、接口丰富的中高端AIoT应用处理器,是RK3568的优化版本,主打稳定与可靠性。CPU/GPU: 延续RK3568的4核A55 + G52 GPU架构
    发表于 12-19 13:44

    AI推理需求爆发!高通首秀重磅产品,国产GPU的自主牌怎么打?

    10月29日,在安博会的2025智能算力应用及产业发展论坛,超聚变数字技术有限公司深圳解决方案总监丁元钊表示,原来我们预计2026年是AI推理爆发元年,2025年DeepSeek-R1,V3模型
    的头像 发表于 10-30 00:46 1.4w次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆发!高通首秀重磅产品,国产<b class='flag-5'>GPU</b>的自主牌怎么打?

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一
    的头像 发表于 10-21 11:04 1420次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    主要步骤: ①溯因②假说③实验 1、科学推理的类型 ①演绎②归纳 2、自动化科学发现框架 AI-笛卡儿-----自动化科学发现框架,利用数据和知识来生成和评估候选的科学假说。 4项规
    发表于 09-17 11:45

    Arm神经技术是业界首创在 Arm GPU 增添专用神经加速器的技术,移动设备实现PC级别的AI图形性能

    Arm 神经技术是业界首创在 Arm GPU 增添专用神经加速器的技术,首次在移动设备实现 PC 级别的 AI 图形性能,为未来的端侧
    的头像 发表于 08-14 17:59 2929次阅读

    基于米尔瑞芯微RK3576开发板部署运行TinyMaix:超轻量级推理框架

    本文将介绍基于米尔电子MYD-LR3576开发平台部署超轻量级推理框架方案:TinyMaix 摘自优秀创作者-短笛君 TinyMaix 是面向单片机的超轻量级的神经网络推理库,即 TinyML
    发表于 07-25 16:35

    PCIe协议分析仪能测试哪些设备?

    场景:监测GPU与主机之间的PCIe通信,分析数据传输效率、延迟和带宽利用率。 应用价值:优化大规模AI训练任务的数据加载和模型参数同步,例如在多GPU系统中测试PCIe交换机的
    发表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    、DDoS攻击迹象、性能劣化趋势。l 智能推送优化建议(如流量调度策略调整、安全规则预加载),将风险扼杀在萌芽状态。 方案价值:AI推理引擎带来的运维变革 信而泰融合DeepSeek
    发表于 07-16 15:29

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端侧部署

    本地AI推理,同时大幅降低推理成本,这一成果也标志着ImaginationGPU在端侧AI推理场景中的技术领先性。Imagination高度
    的头像 发表于 07-01 08:17 1099次阅读
    Say Hi to ERNIE!Imagination <b class='flag-5'>GPU</b>率先完成文心大模型的端侧部署

    提升AI训练性能GPU资源优化的12个实战技巧

    在人工智能与机器学习技术迅速发展的背景下,GPU计算资源的高效利用已成为关键技术指标。优化GPU资源分配不仅能显著提升模型训练速度,还能实现计算成本的有效控制。根据AI基础设施联盟2
    的头像 发表于 05-06 11:17 1680次阅读
    提升<b class='flag-5'>AI</b>训练<b class='flag-5'>性能</b>:<b class='flag-5'>GPU</b>资源<b class='flag-5'>优化</b>的12个实战技巧