0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

异构计算助拳,缓解参数服务器瓶颈

英特尔中国 来源:英特尔中国 作者:英特尔中国 2022-07-10 10:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

昨晚睡得好吗?睡不好可以刷快手的《11 点睡吧》。这部当代人睡眠困境的微综艺,总曝光量达到 107 亿,不但科普睡眠知识,更深度探讨都市人的喜怒哀乐[1]。惊人的曝光量背后,是快手对用户画像数据的精准分析,离不开强大技术支持下的推荐系统,得以让优质的内容被更多喜欢它的人看到。

作为超 3 亿日活、日均千万级短视频上传、强调社区普惠的短视频 APP,快手推荐系统在大规模复杂业务中面临着巨大性能挑战。想要化解算力瓶颈,异构计算是一个重要选项,这种使用不同类型指令集和体系架构的计算单元组成系统的计算方式,能够针对不同任务选择最优的计算架构,从而充分挥各种计算机构的优势,协同完成复杂的工作任务。

1

异构计算助拳,缓解参数服务器瓶颈

快手作为短视频内容平台,内容生产、内容理解、内容分发、内容消费、用户互动这些环节,构成了大规模的复杂业务,对算力产生更多元的需求。举例来说:在推荐业务场景中,需要根据用户画像推荐感兴趣的内容,就要从海量信息中选择与用户特征相关的结果,再通过“排序”来划分内容的优先级别。在这一过程中,参数服务器的作用非常重要,它负责存储、处理海量数据特征以及排序模型参数,保证任务高效、准确地完成。

8a99da9c-fea9-11ec-ba43-dac502259ad0.png

快手推荐系统采用计算与存储分离的架构模式

快手的推荐系统为了应对海量数据冲击,在架构上分离了计算与存储。参数服务器属于存储型服务,该服务要保存和实时更新上亿规模的用户画像、数十亿规模的短视频特征、以及千亿规模的排序模型参数。受限于容量和带宽的参数服务器,还要支撑每秒数亿次的 KV 请求,耗费大量 CPU 资源。

要解决此类瓶颈,最佳方案是使用不同计算设备处理不同负载。快手的LaoFe NDP 近数据架构,在计算体系结构上实现创新,使用英特尔 至强可扩展处理器、英特尔Agilex FPGA和英特尔傲腾 持久内存,借助软硬一体化、领域专用加速器设计,从而做到网络、存储、计算三重加速,为各个业务系统提供低延迟、高并发、高吞吐、低总体拥有成本的基础资源。

8ab88ca8-fea9-11ec-ba43-dac502259ad0.png

快手LaoFe NDP异构计算架构

2

持久内存+FGPA 专用硬件,

确保三重加速创新

在网络层面,LaoFe NDP 架构将 CPU的网络数据处理转移到英特尔 Stratix 10 FPGA 上,同时基于该 FPGA 实现了“软件定义远程直接内存访问”协议(SD-RDMA),大幅降低了请求延时。

在存储层面,该架构打造了支持 SSD、英特尔 傲腾 持久内存、以及 DRAM 的 Key-Value 存储引擎,将 CPU 层面的存储操作也转移到 FPGA 中,最大程度发挥 FPGA 的能力,相比 CPU 方案,将存储引擎的吞吐能力提升 5 倍以上。该引擎还利用英特尔 傲腾 持久内存的特性,让基于异构存储的索引系统几乎达到纯 DRAM 相同的性能指标,成本降低 30%。同时相比之前小时级的故障恢复速度,异构存储的索引系统只需几分钟就能重新上线。

LaoFe NDP 的计算加速仰仗 FPGA 作为领域专用处理,可以更有效地并行处理数据,提供更高效的内存层次结构与定制化的执行单元,从而支持机器学习深度学习和大数据等场景。英特尔 FPGA 具备富于弹性的可编程硬件能力,延时低且可精确控制,单位算力功耗低、片上内存大,适合于快手延时要求高、批处理比较小、并发性和重复性强的应用场景。

8ac6f964-fea9-11ec-ba43-dac502259ad0.png

快手LaoFe NDP 架构在英特尔软硬件优化下,最终实现了如下优势:

■系统吞吐显著提升,延时显著降低:参数服务器的吞吐性能提升了 5-6 倍,整体请求延时降低了 70%-80%,提供更好的用户体验。

■更好地控制 TCO:FPGA 的强大性能提供远超传统方案的吞吐能力,仅需部署少量的服务器就能满足特性的性能指标要求,替代比可达到1:5,有效降低 TCO。

■降低性能抖动:基于CPU的软件方案常因需要进行高频率更新而出现性能抖动,而通过FPGA来处理负载,能大幅减少性能抖动。

通过快手的实践能够看出,以异构计算加速不同负载,能够显著提升在推荐等场景下的系统吞吐与延时表现。未来,英特尔还会和快手等合作伙伴一起,推进面向未来数据中心的异构参考架构,通过 CPU、IPU、XPU 的产品组合以及软件堆栈,以及智能网络结构,提供跨越整个数据管道的解决方案,高效挖掘海量数据中的智慧,让用户与用户、用户与内容、用户与商品可及时按需建立高效、有温度的连接互动。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179345
  • 服务器
    +关注

    关注

    13

    文章

    10096

    浏览量

    90902
  • 异构计算
    +关注

    关注

    2

    文章

    110

    浏览量

    17037

原文标题:英特尔助力快手实现异构计算加速,显著提升性能,降低系统TCO

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    结合AI算法的边缘计算服务器,在城市管理场景有什么作用?

    在智慧城市建设的棋盘上,边缘计算服务器正成为激活全城AI细胞的"神经突触"。当算法模型走出数据中心,通过边缘计算服务器、边缘计算盒子、边缘
    的头像 发表于 10-17 15:31 265次阅读
    结合AI算法的边缘<b class='flag-5'>计算</b><b class='flag-5'>服务器</b>,在城市管理场景有什么作用?

    异构计算解决方案(兼容不同硬件架构)

    异构计算解决方案通过整合不同类型处理(如CPU、GPU、NPU、FPGA等),实现硬件资源的高效协同与兼容,满足多样化计算需求。其核心技术与实践方案如下: 一、硬件架构设计 异构处理
    的头像 发表于 06-23 07:40 649次阅读

    如何释放异构计算的潜能?Imagination与Baya Systems的系统架构实践启示

    报告作者:PallaviSharma,Imaginaiton产品管理总监Dr.EricNorige,BayaSystems首席软件架构师关注Imagination公众号,消息框发送【异构计算】,即可
    的头像 发表于 06-13 08:33 838次阅读
    如何释放<b class='flag-5'>异构计算</b>的潜能?Imagination与Baya Systems的系统架构实践启示

    AIO-GS1N2:双核异构服务器主板

    的超大容量SSD。适用于智能网关服务器等类型产品及多个行业领域。双核心板模组设计主板采用双核心异构设计,两核心模组独立工作,其一模组可执行通用计算,另一模组进行AI
    的头像 发表于 06-11 16:32 667次阅读
    AIO-GS1N2:双核<b class='flag-5'>异构</b>的<b class='flag-5'>服务器</b>主板

    能效提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、能效和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 3467次阅读

    ARM服务器解决方案

    ARM服务器解决方案已成为异构计算领域的重要技术路径,其核心优势与多元化场景适配性正加速产业渗透。以下为关键要点分析: 一、核心优势与架构设计 能效比优化‌ ARM架构基于RISC指令集,单节点功耗
    的头像 发表于 05-16 07:44 835次阅读
    ARM<b class='flag-5'>服务器</b>解决方案

    边缘计算服务器

    边缘计算服务器是支撑边缘计算模式落地的核心硬件设备,其定义及特性可归纳如下: 一、定义 边缘计算服务器指部署在网络边缘侧的专用
    的头像 发表于 04-29 07:46 637次阅读

    SoC集群服务器 与 ARM架构阵列服务器 关系

    一、定义与定位 SoC集群服务器‌ 以系统级芯片(SoC)为核心算力单元,通过高速网络将多节点互联形成的分布式计算集群。每个SoC芯片集成CPU、GPU、NPU等多种处理单元,并支持多核异构计算
    的头像 发表于 04-24 07:49 748次阅读
    SoC集群<b class='flag-5'>服务器</b> 与 ARM架构阵列<b class='flag-5'>服务器</b> 关系

    新加坡服务器延迟大吗?真相在这里#新加坡服务器 #服务器

    服务器
    jf_57681485
    发布于 :2025年04月18日 13:48:50

    RAKsmart智能算力架构:异构计算+低时延网络驱动企业AI训练范式升级

    在AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临算力效率与成本的双重挑战。RAKsmart推出的智能算力架构,以异构计算资源池化与超低时延网络为核心,重构AI训练基础设施,助力企业实现训练速度提升、硬件成本下降与算法迭代加速的三重突破。
    的头像 发表于 04-17 09:29 601次阅读

    DeepSeek企业级部署服务器资源计算 以raksmart裸机云服务器为例

    以RakSmart裸机云服务器为例,针对DeepSeek企业级部署的服务器资源计算指南,涵盖GPU/CPU/内存/存储/网络等核心维度的详细计算方法与配置推荐,主机推荐小编为您整理发布
    的头像 发表于 03-21 10:17 823次阅读

    NTP校时服务器 时钟同步服务器

    服务器
    jf_75250307
    发布于 :2025年03月19日 20:56:34

    异构计算的概念、核心、优势、挑战及考虑因素

    异构计算就像是一支由“多才多艺”处理组成的团队,每个成员都有自己的强项和责任。   什么是异构计算‍‍‍‍‍ “异构计算”指的是在同一个计算
    的头像 发表于 01-13 11:43 1684次阅读

    NTP服务器在云计算中的作用

    在云计算的快速发展中,时间同步成为了一个不可忽视的问题。随着数据中心的全球分布,以及对服务连续性和数据一致性的高要求,精确的时间同步变得尤为重要。网络时间协议(NTP)服务器作为实现这一
    的头像 发表于 12-18 15:19 1072次阅读