0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

美团落实 AI 框架在 GPU 上性能推理的优化实践

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-12-28 09:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

美团是一家集生活服务及商品零售的电商平台,公司聚焦“零售+科技”战略,以“吃”为核心,通过科技创新,服务于生活服务业需求侧和供给侧数字化升级。美团在中国业务涵盖餐饮、配送、网约车、共享单车、酒店及旅游预订、电影票务等 200 多个服务品类,覆盖全国 2800 个市区县,服务 6.7 亿活跃用户和 830万活跃商家。

伴随着用户规模的提升和业务的精细化运营,业务侧对推荐系统的准确度、吞吐能力和时延都提出了新的挑战,而 CTR 模型作为推荐系统的核心模型,其效果直接影响业务的收入。

美团的 CTR 模型过去一直在使用 CPU 推理的方式,但随着用户访问量的提升和深度神经网络的引入,CTR 模型结构趋于复杂,吞吐和计算量也越来越大,CPU 开始不能满足模型对于算力的需求,而仅仅通过 CPU 服务器的堆叠带来的性能提升性价比相较偏低。

GPU 拥有数以千计的计算核心,可以在单机内提供密集的并行计算能力,特别适合深度学习场景,在行业内已经在 CV 、NLP 等领域展示了强大的能力。通过 CUDA 及相关 API ,NVIDIA 建立了完整的 GPU 生态系统。基于此,美团基础研发平台将 CTR 模型部署到 GPU 上,并通过一系列针对 CPU 与 GPU 的异构系统并行计算设计、数据存储方式和传输方式上的特定优化,希望能通过 GPU 强大的计算力,协助美团在 CTR 预测的各业务场景中发挥出最大优势。

为了解决算力瓶颈及上述各种挑战,美团机器学习平台采用 NVIDIA AI 计算平台,在继 CV 、NLP 及 CTR 训练后,也使用了 NVIDIA T4 来提供 CTR 预测支持,大幅提升用户体验与服务稳定性。除此之外,时延也是业务侧非常重视的性能指标,许多复杂模型纵有更好的准确度,但却因响应时间不达标而无法落地应用,例如,在某搜索框自动补全的场景,由于天然的交互属性,时延要求非常苛刻,一般来说无法使用复杂的模型。而在 GPU 能力的加持下,其复杂模型的平均响应时间从 15 毫秒降低至 6~7 毫秒,足足缩短了一倍多,达到了上线要求。

通过 NVIDIA T4 深度优化方案,成功为美团 CTR 模型创造更多应用机会,不仅极大地提升了系统吞吐量,更进一步地提升了整个模型训练的速度与降低训练成本,落实 AI 框架在 GPU 上性能推理的优化实践。

美团研发工程师,机器学习平台预测引擎负责人王新表示,“在美团和英伟达的共同努力下, CTR 预测服务成功的迁移到 GPU 平台上,在为业务提供更好的支撑的同时也获得了更好的性价比;下一步,机器学习平台计划采用 NVIDIA Triton 推理服务框架和 NVIDIA Ampere A30 ,进一步提升美团推理服务的效率。”

原文标题:美团机器学习平台使用 NVIDIA GPU 助力公司 CTR 预测服务升级

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222945
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109091
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296607
  • 美团
    +关注

    关注

    0

    文章

    125

    浏览量

    10983

原文标题:美团机器学习平台使用 NVIDIA GPU 助力公司 CTR 预测服务升级

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI推理需求爆发!高通首秀重磅产品,国产GPU的自主牌怎么打?

    10月29日,在安博会的2025智能算力应用及产业发展论坛,超聚变数字技术有限公司深圳解决方案总监丁元钊表示,原来我们预计2026年是AI推理爆发元年,2025年DeepSeek-R1,V3模型
    的头像 发表于 10-30 00:46 1.2w次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆发!高通首秀重磅产品,国产<b class='flag-5'>GPU</b>的自主牌怎么打?

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一
    的头像 发表于 10-21 11:04 754次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    主要步骤: ①溯因②假说③实验 1、科学推理的类型 ①演绎②归纳 2、自动化科学发现框架 AI-笛卡儿-----自动化科学发现框架,利用数据和知识来生成和评估候选的科学假说。 4项规
    发表于 09-17 11:45

    基于米尔瑞芯微RK3576开发板部署运行TinyMaix:超轻量级推理框架

    本文将介绍基于米尔电子MYD-LR3576开发平台部署超轻量级推理框架方案:TinyMaix 摘自优秀创作者-短笛君 TinyMaix 是面向单片机的超轻量级的神经网络推理库,即 TinyML
    发表于 07-25 16:35

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    、DDoS攻击迹象、性能劣化趋势。l 智能推送优化建议(如流量调度策略调整、安全规则预加载),将风险扼杀在萌芽状态。 方案价值:AI推理引擎带来的运维变革 信而泰融合DeepSeek
    发表于 07-16 15:29

    提升AI训练性能GPU资源优化的12个实战技巧

    在人工智能与机器学习技术迅速发展的背景下,GPU计算资源的高效利用已成为关键技术指标。优化GPU资源分配不仅能显著提升模型训练速度,还能实现计算成本的有效控制。根据AI基础设施联盟2
    的头像 发表于 05-06 11:17 1179次阅读
    提升<b class='flag-5'>AI</b>训练<b class='flag-5'>性能</b>:<b class='flag-5'>GPU</b>资源<b class='flag-5'>优化</b>的12个实战技巧

    RK3588核心板在边缘AI计算中的颠覆性优势与场景落地

    推理任务,需额外部署GPU加速卡,导致成本与功耗飙升。 扩展性受限:老旧接口(如USB 2.0、百兆网口)无法支持5G模组、高速存储等现代外设,升级困难。 开发周期长:BSP适配不完善,跨平台AI
    发表于 04-15 10:48

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同时降低了扩展测试时计算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 推理优化
    的头像 发表于 03-20 15:03 1077次阅读

    摩尔线程GPU原生FP8计算助力AI训练

    近日,摩尔线程正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架。通过深度融合FP8混合训练策略和高性能算子库,这两大框架在国产全功能
    的头像 发表于 03-17 17:05 1214次阅读
    摩尔线程<b class='flag-5'>GPU</b>原生FP8计算助力<b class='flag-5'>AI</b>训练

    无法在GPU运行ONNX模型的Benchmark_app怎么解决?

    在 CPU 和 GPU 运行OpenVINO™ 2023.0 Benchmark_app推断的 ONNX 模型。 在 CPU 推理成功,但在
    发表于 03-06 08:02

    无法调用GPU插件推理的远程张量API怎么解决?

    运行了使用 GPU 插件的远程张量 API 的推理。但是,它未能共享 OpenCL* 内存,但结果不正确。
    发表于 03-06 06:13

    AI推理带火的ASIC,开发成败在此一举!

    的应用性价比远超GPU,加上博通财报AI业务同比大增220%,掀起了AI推理端的ASIC热潮。   那么ASIC跟传统的GPU有哪些区别,开
    的头像 发表于 03-03 00:13 4101次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>带火的ASIC,开发成败在此一举!

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1318次阅读
    使用NVIDIA<b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    SSM框架性能优化技巧 SSM框架中RESTful API的实现

    SSM框架性能优化技巧 SSM(Spring + Spring MVC + MyBatis)框架性能
    的头像 发表于 12-17 09:10 1116次阅读

    SSM框架在Java开发中的应用 如何使用SSM进行web开发

    。以下是对SSM框架在Java开发中的应用,以及如何使用SSM进行web开发的介绍: SSM框架的组件及其作用 Spring :Spring是一个开源的Java/Java EE全功能栈
    的头像 发表于 12-16 17:28 2132次阅读