0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌 | 大规模深度推荐模型的特征嵌入问题有解了!

WpOh_rgznai100 来源:YXQ 2019-07-16 13:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

导读:本文主要介绍下Google在大规模深度推荐模型上关于特征嵌入的最新论文。

一、背景

大部分的深度学习模型主要包含如下的两大模块:输入模块以及表示学习模块。自从NAS[1]的出现以来,神经网络架构的设计上正在往数据驱动的自动机器学习方向演进。不过之前更多的研究都是聚焦在如何自动设计表示学习模块而不是输入模块,主要原因是在计算机视觉等成熟领域原始输入(图像像素)已经是浮点数了。

输入模块:负责将原始输入转换为浮点数;表示学习模块:根据输入模块的浮点值,计算得到模型的最终输出;

而在推荐、搜索以及广告工业界的大规模深度模型上,情况却完全不同。因为包含大量高维稀疏的离散特征(譬如商品id,视频id或者文章id)需要将这些类别特征通过embedding嵌入技术将离散的id转换为连续的向量。而这些向量的维度大小往往被当做一个超参手动进行设定。

一个简单的数据分析就能告诉我们嵌入向量维度设定的合理与否非常影响模型的效果。以YoutubeDNN[2]为例,其中使用到的VideoId的特征词典大小是100万,每一个特征值嵌入向量大小是256。仅仅一个VideoId的特征就包含了2.56亿的超参,考虑到其他更多的离散类特征输入模块的需要学习的超参数量可想而知。相应地,表示学习模块主要包含三层全连接层。也就是说大部分的超参其实聚集在了输入模块,那自然就会对模型的效果有着举足轻重的影响。

二、主要工作

Google的研究者们在最新的一篇论文[3]中提出了NIS技术(Neural Input Search),可以自动学习大规模深度推荐模型中每个类别特征最优化的词典大小以及嵌入向量维度大小。目的就是为了在节省性能的同时尽可能地最大化深度模型的效果。

并且,他们发现传统的Single-size Embedding方式(所有特征值共享同样的嵌入向量维度)其实并不能够让模型充分学习训练数据。因此与之对应地,提出了Multi-size Embedding方式让不同的特征值可以拥有不同的嵌入向量维度。

在实际训练中,他们使用强化学习来寻找每个特征值最优化的词典大小和嵌入向量维度。通过在两大大规模推荐问题(检索、排序)上的实验验证,NIS技术能够自动学习到更优化的特征词典大小和嵌入维度并且带来在Recall@1以及AUC等指标上的显著提升。

三、Neural Input Search问题

NIS-SE问题:SE(Single-size Embedding)方式是目前常用的特征嵌入方式,所有特征值共享同样的特征嵌入维度。NIS-SE问题就是在给定资源条件下,对于每个离散特征找到最优化的词典大小v和嵌入向量维度d。

这里面其实包含了两部分的trade-off:一方面是各特征之间,更有用的特征应该给予更多的资源;另一方面是每个特征内部,词典大小和嵌入向量维度之间。对于一个特征来说,更大的词典可以有更大的覆盖度,包含更多长尾的item;更多的嵌入向量维度则可以提升head item的嵌入质量,因为head item拥有充分的训练数据。而SE在资源限制下无法同时做到高覆盖度和高质量的特征嵌入。所以需要引入ME(Multi-size Embedding)。

NIS-ME问题:ME允许每个特征词典内不同的特征值可以有不同的嵌入向量维度。其实就是为了实现越频繁的特征值拥有更大的嵌入特征维度,因为有更多的训练数据;而长尾的特征值则用更小的嵌入特征维度。引入ME为每一个类别离散特征找到最优化的词典大小和嵌入向量维度,就可以实现在长尾特征值上的高覆盖度以及在频繁特征值上的高质量嵌入向量。下图给出了embedding使用的场景例子中,SE和ME使用上的区别。

四、NIS解决方案

要想为每个类别离散特征手动找到最优化的词典大小和嵌入向量维度是很难的,因为推荐广告工业界的大规模深度模型的训练时很昂贵的。为了达到在一次训练中就能自动找到最优化的词典大小和嵌入向量维度,他们改造了经典的ENAS[4]:

首先针对深度模型的输入模块提出了一个新颖的搜索空间;

然后有一个单独的Controller针对每一个离散特征选择SE或者ME;

其次可以根据Controller决策后考虑模型准确度和资源消耗计算得到reward;

最后可以根据reward使用强化学习A3C[5]训练Controller进行迭代。

搜索空间

Embedding Block的概念实际上就是原始Embedding矩阵的分块。如下图所示,假设原始Embedding矩阵大小是(10M,256),图a将其分成了20个Embedding Block。Controller为每个特征有两种选择:图b所示的SE以及图c的所示的ME。

Reward函数

主模型是随着Controller的选择进行训练的,因此Controller的参数实际上是根据在验证集上前向计算的reward通过RL追求收益最大化而来。考虑到在限定资源下的深度模型训练,这里的reward函数设计为同时考虑业务目标与资源消耗。对于推荐领域的两大主要任务:信息检索和排序,信息检索的目标可以使用Sampled Recall@1;而排序的目标则可以使用AUC。

五、实验结果

他们在两大大规模推荐模型问题:检索和排序上进行了实验。在同等资源消耗的情况下,NIS可以获得显著提升,详细数据如下图所示。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110263

原文标题:Google最新论文:大规模深度推荐模型的特征嵌入问题有解了!

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 703次阅读
    TensorRT-LLM的<b class='flag-5'>大规模</b>专家并行架构设计

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源
    的头像 发表于 09-06 15:21 925次阅读
    <b class='flag-5'>大规模</b>专家并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    基于大规模人类操作数据预训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集预训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR
    的头像 发表于 08-21 09:56 781次阅读
    基于<b class='flag-5'>大规模</b>人类操作数据预训练的VLA<b class='flag-5'>模型</b>H-RDT

    薄型、多频段、大规模物联网前端模块 skyworksinc

    电子发烧友网为你提供()薄型、多频段、大规模物联网前端模块相关产品参数、数据手册,更有薄型、多频段、大规模物联网前端模块的引脚图、接线图、封装手册、中文资料、英文资料,薄型、多频段、大规模物联网前端模块真值表,薄型、多频段、
    发表于 05-15 18:32
    薄型、多频段、<b class='flag-5'>大规模</b>物联网前端模块 skyworksinc

    模型时代的新燃料:大规模拟真多风格语音合成数据集

    模型充分学习到语音的发音规律、语义特征、语境等信息,从而提升语音识别、语音合成等关键能力,提供更加准确、自然、智能的语音交互体验。 语音大模型发展面临数据难题 然而,当前语音大模型
    的头像 发表于 04-30 16:17 521次阅读

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的算力突破

    近年来,随着千亿级参数模型的崛起,AI训练对算力的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶颈。而RAKsmart为超大规模模型训练提供了全新的算力解决方案。
    的头像 发表于 04-24 09:27 613次阅读

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    Cloud 客户开放,将提供 256 芯片集群以及 9,216 芯片集群两种配置选项。   在核心亮点层面,Ironwood 堪称谷歌首款专门为 AI 推理精心设计的 TPU 芯片,能够有力支持大规模思考
    的头像 发表于 04-12 00:57 3220次阅读

    5G 大规模物联网系统级封装 skyworksinc

    电子发烧友网为你提供()5G 大规模物联网系统级封装相关产品参数、数据手册,更有5G 大规模物联网系统级封装的引脚图、接线图、封装手册、中文资料、英文资料,5G 大规模物联网系统级封装真值表,5G
    发表于 04-11 15:21
    5G <b class='flag-5'>大规模</b>物联网系统级封装 skyworksinc

    AI眼镜大模型激战:多大模型协同、交互时延低至1.3S

    与AI大模型深度融合,一场技术演进与场景革命正在悄然进行。     一款眼镜搭载多个大模型:AI 智能眼镜下的“百模大战” AI大模型指的是具有大量参数(通常超过数十亿)的
    的头像 发表于 03-20 08:59 2205次阅读
    AI眼镜大<b class='flag-5'>模型</b>激战:多大<b class='flag-5'>模型</b>协同、交互时延低至1.3S

    模型领域常用名词解释(近100个)

    的分类进行了整理,以下供参考:模型架构与基础概念大语言模型(LLM,LargeLanguageModel):一种基于深度学习的大规模神经网络模型
    的头像 发表于 02-19 11:49 1284次阅读
    大<b class='flag-5'>模型</b>领域常用名词解释(近100个)

    浅谈适用规模充电站的深度学习有序充电策略

    深度强化学习能够有效计及电动汽车出行模式和充电需求的不确定性,实现充电场站充电成本化的目标。通过对电动汽车泊车时间和充电需求特征进行提取,建立适用于大规模电动汽车有序充电的马尔可夫决策过程模型
    的头像 发表于 02-08 15:00 813次阅读
    浅谈适用<b class='flag-5'>规模</b>充电站的<b class='flag-5'>深度</b>学习有序充电策略

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    微调:通过在预训练模型中插入适配器模块来适应特定任务,既保留了原始模型的性能,又能快速适应新任务。Prefix-Tuning:通过在输入序列的前面添加特定前缀来微调模型,不需要对模型
    发表于 01-14 16:51

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    介绍了如何使用分类任务进行手写数字的分类。相信大家脑海中可能会产生如下疑问: 数据依赖性强:分类模型的表现通常依赖于大量的标注数据进行训练。获取高质量、大规模的数据集既耗时又昂贵。 泛化能力有限:模型
    发表于 12-19 14:33

    谷歌发布“深度研究”AI工具,利用Gemini模型进行网络信息检索

    据外媒最新报道,谷歌近期发布了一款名为“深度研究”的先进AI工具。这款工具借助其内部的Gemini大型语言模型,实现了对网络信息的高效检索与深度挖掘,进一步满足了用户对精准、详尽信息的
    的头像 发表于 12-16 09:35 1039次阅读

    谷歌发布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名为“深度研究”的新特性,旨在为用户提供更加全面和深入的复杂主题探索与报告撰写辅助。 Gemini 2.0通过高级推理和长上
    的头像 发表于 12-12 10:13 968次阅读