0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何破解历史行为稀少的用户冷启动问题

人工智能与大数据技术 来源:人工智能与大数据技术 作者:人工智能与大数据 2021-03-22 17:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在“精准推荐者得民心”的今天,推荐系统已成为各大互联网公司的标配。但由于现实中很多数据是非欧氏空间生成的(例如,社交网络、信息网络等),一些复杂场景下的业务需求很难通过协同过滤等基于历史行为挖掘用户或产品相似性的传统算法来满足。图神经网络作为一种约束性较少、极其灵活的数据表征方式,在深度学习各主要领域中崭露头角,一系列图学习模型涌现并得到越来越多的应用。

网易云音乐在推荐领域的探索

作为国民级的音乐App,网易云音乐很久之前就将定位从传统的音乐工具软件转移到音乐内容社区,致力于联结泛音乐产品与用户,打造最懂用户的音乐 App。在音乐内容社区中,直播可以说是用户参与度极高的场景了,云音乐内部投入了大量的人力物力以求将匹配度更高的主播推荐给用户,但仍然面临多重严峻的挑战。

如何破解历史行为稀少的用户冷启动问题

众所周知,推荐系统的整体框架主要包括召回、粗排和精排3个部分。其中,最底层的召回模型具有举足轻重的作用,而成功的召回推理需要依赖充足的历史数据。但在云音乐的业务场景中,通过站内广告看到直播推荐的用户很大比例是直播功能的新用户,即没有产生过观看直播行为数据的用户。如何向这类数据稀疏的用户推荐合适的内容成了亟待解决的难题,这类问题也通常被称为冷启动。

大规模图模型如何训练?

云音乐现有计算资源已全面实现容器化部署,对于各个业务团队来说,计算资源都是有限的,需要以最高效合理的方式利用有限的资源。如何在有限的分布式资源调控策略下低本高效地完成大规模图神经网络的模型训练,成为必须攻克的难题。

PGL图神经网络助力推荐场景落地

为了解决以上问题,网易云音乐的研发团队调研了大量开源方案,最终选择了对大规模图训练更加友好的百度飞桨分布式图学习框架PGL,作为云音乐的基础框架。

基于PGL的行为域知识迁移解决冷启动问题

云音乐直播场景的新用户中,有很多在音乐、歌单、Mlog 等业务中产生过较丰富的历史行为,能否通过将这部分历史行为知识映射到直播领域,来解决“行为”数据不足的问题呢? 带着疑问,云音乐引入了图模型结构,以多种不同类型的实体(如歌曲、DJ、Query、RadioID 等)为节点,通过用户与主播、用户与歌曲、Query与主播等历史行为关系,构建了一张统一的图关系网络。 然后,基于飞桨图学习框架 PGL对图模型进行训练。先采用 DeepWalk、Metapath2Vec、GraphSage等模型学习出足够强大的Graph Embedding表示来建模实体ID;再通过向量召回,将用户在歌曲、Query等处的行为迁移到主播领域,达到召回合适主播的目的。

基于PGL通用的分布式能力进行训练

云音乐的数据规模非常庞大,数据关系即使经过裁剪也高达亿级别以上。在常用的硬件资源配备情况下,此等量级规模的数据早已成为某些开源的图神经网络框架的瓶颈,需要使用极其昂贵的计算资源才能解决。对于数据规模必将持续增大的云音乐来说,相较于使用什么类型的模型,能否在这种数据规模下训练出模型才是优先要考虑的关键问题,也是网易云音乐与PGL成功牵手的关键因素! 百度飞桨深度学习平台PaddlePaddle 2019年开源的分布式图学习框架PGL,原生支持图学习中较为独特的分布式图存储(Distributed Graph Storage)和分布式采样(Distributed Sampling),可以方便地通过上层Python接口,将 图的特征(如Side Feature等)存储在不同的Server上,也支持通用的分布式采样接口,将不同子图的采样分布式处理,并基于PaddlePaddle Fleet API来完成分布式训练(Distributed Training),实现在分布式的“瘦计算节点”上加速计算。这些能力对云音乐内容社区直播推荐遇到的训练问题来说,极具魅力! 实验对比显示,在主播推荐场景采用图计算带来有效观看大幅提升,尤其在新用户和新主播冷启动上引入其它域数据后有了明显提升。

想了解更多落地细节和实战经验?

3月16日,网易云音乐机器学习平台与框架负责人段石石,将在飞桨B站直播间分享深度学习实战进阶课程《图神经网络在云音乐业务落地》。除了上面提到的数据稀疏性、冷启动召回和大规模分布式训练等业务难题的解决方案,段老师还将分享云音乐如何应对训练数据质量、瘦计算节点等技术挑战。 3月17日,百度高级算法工程师苏炜跃将分享《分布式图学习框架PGL及其推荐应用》,重点介绍图学习算法的理论基础、图学习框架PGL的特点和优势;同时将通过演示经典大规模推荐场景的图学习训练过程,帮助大家快速学习和实现产业级的图模型实践。


责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106831
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123926
  • 开源项目
    +关注

    关注

    0

    文章

    38

    浏览量

    7565
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    借助京东API,轻松分析用户行为,优化店铺页面布局!

    ​  在竞争激烈的电商环境中,精准把握用户行为是提升店铺转化率的关键。京东开放平台提供了强大的API接口,让商家能够便捷地获取宝贵的用户行为数据。本文将介绍如何利用这些API进行
    的头像 发表于 12-10 14:40 128次阅读
    借助京东API,轻松分析<b class='flag-5'>用户</b><b class='flag-5'>行为</b>,优化店铺页面布局!

    Shell历史命令history用法

    1. 显示历史命令列表 「介绍」:history 命令用于显示当前会话中执行过的命令的列表,以及每个命令对应的编号。「示例代码」:history 2. 使用历史命令重复执行命令 「介绍」:通过
    发表于 12-02 06:10

    高低温环境下DC-DC芯片启动行为对比研究

    ​ 摘要 本文通过高低温环境实验,系统研究了国科安芯推出的ASP3605同步降压转换器在-55℃至150℃温度范围内的启动行为与稳态特性。测试覆盖了低温冷启动、高温持续运行及温度循环下的输出电压精度
    的头像 发表于 11-09 21:24 463次阅读
    高低温环境下DC-DC芯片<b class='flag-5'>启动</b><b class='flag-5'>行为</b>对比研究

    京东:调用用户行为API分析购买路径,优化页面跳转逻辑

    ​  在电商平台的激烈竞争中, 用户购买路径的流畅性 直接影响转化率。京东通过深度整合用户行为API,构建了完整的购买路径分析体系,显著优化了页面跳转逻辑。以下是关键技术实现路径: 一、用户
    的头像 发表于 09-18 14:38 431次阅读
    京东:调用<b class='flag-5'>用户</b><b class='flag-5'>行为</b>API分析购买路径,优化页面跳转逻辑

    天猫API智能分析用户行为,精准推荐转化率飙升!

    ​ 现如今竞争激烈的电商环境中,天猫作为阿里巴巴旗下的核心平台,正通过其强大的API(应用程序接口)技术,革新用户行为分析和商品推荐方式。天猫API不仅提供便捷的数据访问通道,还融合了人工智能
    的头像 发表于 07-29 14:40 471次阅读
    天猫API智能分析<b class='flag-5'>用户</b><b class='flag-5'>行为</b>,精准推荐转化率飙升!

    Centos7分用户记录历史命令至日志文件教程

    在企业级Linux运维中,实时记录用户操作历史是审计排查的关键步骤。本文华纳云针对CentOS7系统,提供三种高效方案实现分用户日志记录+防篡改管理。所有步骤均经过实际验证,代码段内含执行逻辑剖析。
    的头像 发表于 06-28 14:50 614次阅读

    【HarmonyOS 5】鸿蒙中的UIAbility详解(三)

    详解系列的最终章。主要针对UIAbility的冷启动和热启动,对于want数据的处理。UIAbility的备份恢复,UIAbility的接续等高级功能的概念和使用讲解。 二、UIAbility启动模式
    的头像 发表于 06-14 22:32 508次阅读

    鸿蒙5开发宝藏案例分享---冷启动优化案例分享

    分享给大家,附详细代码解析和避坑指南~ 一、冷启动为何如此重要? 当用户点击应用图标时,如果等待超过****1100ms就会产生明显卡顿感。冷启动指应用进程完全新建的场景(后台无进程),相比热
    发表于 06-12 17:22

    电机常见的噪音、振动问题及解决方法

    电机作为现代工业生产和日常生活中不可或缺的动力设备,其运行稳定性直接影响着整个系统的可靠性。然而,电机在长期运行过程中,常常会出现各种噪音和振动问题,这些问题不仅影响设备性能,还可能缩短电机寿命
    的头像 发表于 06-08 10:25 2429次阅读

    9160 gps 定位需要多长时间呢?

    nRF9160 在 GNSS(GPS)联网获取定位时,所需时间主要取决于“首次定位时间”(Time To First Fix, TTFF)。在典型的冷启动(无辅助数据、无历史信息)下,nRF9160
    发表于 05-27 23:02

    自媒体推广实时监控从服务器带宽到用户行为解决方法

    自媒体推广的实时监控需要从底层基础设施到前端用户行为进行全链路覆盖,确保推广活动的稳定性和效果可追踪。以下是系统性解决方案,主机推荐小编为您整理发布自媒体推广实时监控从服务器带宽到用户行为
    的头像 发表于 04-09 10:47 469次阅读

    如何从eMMC启动分区使用NXP MIMXRT595-EVK?

    。 问题详情: 预期行为:系统应该能够从 eMMC 启动分区 1、启动分区 2 或用户数据分区启动。 实际
    发表于 03-21 07:50

    FRED的光路和光路历史记录

    用户之后使用诊断工具,如光路追迹路径报告、杂散光报告、图像伪影诊断工具,以及在分析表面中使用射线选择过滤器。 创建/用户线光历史记录文件 此选项保存每条光线的每个交点的坐标数据,可以用于重新绘制选定路径的光线轨迹。通常,这是通
    发表于 03-07 08:55

    如何逆向破解世嘉游乐设备的条码启动系统

    “求助:购买二手日本世嘉游乐设备,启动条码丢失,无法启动” 我从二手设备商处购买了一款来自日本世嘉的游乐设备,设备原本来自世嘉撤场。由于保存不当,启动条码等信息丢失(购买时并未告知)。我已尝试联系
    发表于 02-23 10:00

    鸿蒙原生页面高性能解决方案上线OpenHarmony社区 助力打造高性能原生应用

    Nodepool、HMrouter和DataCache 三大解决方案,并上架OpenHarmony开源社区分,分别针对应用页面滑动、跳转、首页冷启动等关键性能场景提供高效易用的工具,助力伙伴和开发者打造
    发表于 01-02 18:00