0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何计算用户的偏好标签

lviY_AI_shequ 来源:未知 作者:李倩 2018-09-04 17:18 次阅读

一、用户画像—计算用户偏好标签

下面介绍如何计算用户的偏好标签。

在上一篇写用户画像的文章 “用户画像—打用户行为标签”中,主要讲了如何对用户的每一次操作行为、业务行为进行记录打上相应的标签。在这篇博客中,主要讲如何对这些明细标签进行计算以及偏好的产品、内容的类目。

关于用户标签权重的计算,在这篇文章里面讲过了:

用户画像之标签权重算法

这里再详细介绍一下:

用户标签权重 = 行为类型权重 × 时间衰减 × 用户行为次数 × TF-IDF计算标签权重

公式中各参数的释义如下:

行为类型权重:用户浏览、搜索、收藏、下单、购买等不同行为对用户而言有着不同的重要性,一般而言操作复杂度越高的行为权重越大。该权重值一般由运营人员或数据分析人员主观给出;

时间衰减:用户某些行为受时间影响不断减弱,行为时间距现在越远,该行为对用户当前来说的意义越小;

行为次数:用户标签权重按天统计,用户某天与该标签产生的行为次数越多,该标签对用户的影响越大;

TF-IDF计算标签权重:每个标签的对用户的重要性及该标签在全体标签中重要性的乘积得出每个标签的客观权重值;

为计算用户偏好标签,需要在用户行为标签的基础上计算用户行为标签对应的权重值,而后对同类标签做权重汇总,算出用户偏好的标签。关于用户行为标签如何打,在这篇博客里面有介绍过了

用户画像—打用户行为标签

下面介绍如何在用户行为标签表的基础上加工用户偏好标签:

1、用户标签权重表结构设计

字段定义:

用户id(user_id):用户唯一id;

标签id(tag_id):图书id;

标签名称(tag_name):图书名称;

用户行为次数(cnt):用户当日产生该标签的次数,如用户当日浏览一本图书4次,则记录4;

行为日期(date_id):产生该条标签对应日期;

标签类型(tag_type_id):在本案例中通过与图书类型表相关联,取出每本图书对应的类型,如《钢铁是怎么炼成的》对应“名著”;

用户行为类型(act_type_id):即用户的购买、浏览、评论等操作行为,在本例中通过预设数值1~7来定义用户对应的行为类型。1:购买行为,2:浏览行为,3:评论行为,4:收藏行为,5:取消收藏行为,6:加入购物车行为,7:搜索行为;

2、在用户行为标签基础上加工权重表

加工标签权重表时,需要根据用户不同行为对应的权重建立一个权重维表:

向维表中插入数据:

3、对每个用户偏好的每个标签加总求权重值,对权重值做倒排序,取top N

二、用户画像—数据指标与表结构设计

本段文章介绍一下画像中需要开发的数据指标与开发过程中表结构的设计。

首先介绍画像开发的数据指标,画像开发过程中通用类的指标体系包括用户属性类、用户行为标签类、用户活跃时间段类、用户消费能力类、用户偏好类等

数据指标体系

用户属性指标

用户属性指标根据业务数据来源,尽可能全面地描述用户基础属性,这些基础属性值是短期内不会有改变的。如年龄、性别、手机号归属地、身份证归属地等

用户登录活跃指标

看用户近期登录时间段、登录时长、登录频次、常登陆地等指标

用户消费能力指标

看用户的消费金额、消费频次、最近消费时间。进一步结合用户登录活跃情况,可以对用户做RFM分层。

用户流失层级

根据用户的活跃度及消费情况,判断用户的流失意向。可及时对有流失趋向的用户做营销召回

用户年龄段划分

在做营销活动或站内推送时,可对不同年龄段做针对性运营

用户行为标签

记录用户在平台上每一次操作行为,及该次行为所带来的标签。后续可根据用户的行为标签计算用户的偏好标签,做推荐和营销等活动

表结构设计

对于画像数据的存储,除了用户属性这种基本上短期不会有变化的数据,其他相关数据的更新频率一般都比较高,为周更新或日更新

画像数据更新较为频繁,通常使用分区来将数据从物理上转移到离用户最近的地方。

一般对日期字段进行分区,当然事实上分区是为了优化查询性能,否则使用数据的用户也不需要关注这些字段是否分区。

例如说创建一个用户行为标签表:

CREATE TABLE userprofile( user_id string, tag_id string, tag_name string, cnt string, act_type_id string, tag_type_id string ) PARTITION BY (date_id string);

分区表改变了Hive对数据的存储方式,如果没做分区,创建的这个表目录为:

hdfs://master_server/user/hive/warehouse/userprofile

创建日期分区后,Hive可以更好地反映分区结构子目录:

hdfs://master_server/user/hive/warehouse/userprofile/date_id='2018-05-01'

在userprofile表下面,每个日期分区的数据可以存储截止到当日的全量历史数据,方便使用者查找。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据分析
    +关注

    关注

    2

    文章

    1353

    浏览量

    33738
  • 标签
    +关注

    关注

    0

    文章

    129

    浏览量

    17789

原文标题:用户画像—计算用户偏好标签及数据指标与表结构设计

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于偏好不一致熵的偏好决策方法

    不一致程度;然后,根据偏好决策中不同属性对决策的重要性不同的特点,提出了一种加权的样本偏好不一致熵,并结合属性偏好不一致熵在度量属性重要性方面的能力,给出了一种基于属性偏好不一致熵的权
    发表于 12-05 11:50 0次下载

    基于用户QoS偏好的WEB服务灰色关联分析方法

    为方便用户选择最优Web服务,利用灰色系统理论对Web服务质量QoS属性因子进行分析,提出了一种基于用户QoS偏好的Web服务灰色关联分析方法。考虑到Web服务QoS的不确定性,该方法使用区间
    发表于 12-05 15:35 0次下载

    面向评分数据中用户偏好发现的隐变量模型构建

    电子商务应用中产生了大量用户评分数据,而这些数据中富含了用户观点和偏好信息,为了能够从这些数据中准确地推断出用户偏好,提出一种面向评分数据中
    发表于 12-06 10:59 0次下载
    面向评分数据中<b class='flag-5'>用户</b><b class='flag-5'>偏好</b>发现的隐变量模型构建

    基于偏好矩阵遗传算法求解长期车辆合乘问题

    针对长期车辆合乘问题( LTCPP),提出带有偏好矩阵的遗传算法(PMGA),将拥有私家车且目的地相同的用户群体分配到产生总花费最少的合乘小组。首先,建立计算基于全体用户费用成本的目标
    发表于 12-06 11:15 0次下载

    基于用户偏好的随机游走模型

    、项目相似度进行计算;其次,将项目进行聚类,通过用户评分计算用户对项目类的偏好和不同项目类下的用户
    发表于 12-08 17:01 0次下载
    基于<b class='flag-5'>用户</b><b class='flag-5'>偏好</b>的随机游走模型

    基于用户行为偏好的服务选择策略

    在云计算模型中,用户的需求是服务资源预留的主要依据。而现实中,用户的喜好往往是随着时间的推移变化的,例如新的云服务出现后,用户根据自己的体验,往往会选择新的云服务。 本文提出
    发表于 12-11 11:18 0次下载
    基于<b class='flag-5'>用户</b>行为<b class='flag-5'>偏好</b>的服务选择策略

    偏好数据库中挖掘Ceteris Paribus偏好

    针对传统的推荐系统需要用户给出明确的偏好矩阵(U-I矩阵),进而使用自动化技术来获取用户偏好的问题,提出了一种从偏好数据库中挖掘出Agent
    发表于 12-13 15:13 0次下载
    从<b class='flag-5'>偏好</b>数据库中挖掘Ceteris Paribus<b class='flag-5'>偏好</b>

    基于时间衰减协同偏好获取方法

    针对现有的推荐系统多采用近邻用户偏好行为来预测当前用户偏好,而不考虑用户偏好会随着时间的变
    发表于 12-15 16:14 0次下载

    基于用户偏好的协同过滤算法

    基于评分的用户相似度;其次,依据用户项目评分和项目类别信息挖掘用户对项目类别的兴趣度以及用户项目偏好,并以此
    发表于 12-20 10:54 0次下载

    基于标签主题的协同过滤推荐算法研究

    语义主题,从语义层面计算用户对各资源的偏好概率,将计算出的偏好概率与协同过滤算法计算出的资源相似
    发表于 03-07 13:58 0次下载
    基于<b class='flag-5'>标签</b>主题的协同过滤推荐算法研究

    什么是用户画像?用户画像的四阶段

    用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户
    的头像 发表于 09-14 15:39 9175次阅读

    内容中心网络中基于用户偏好的协作缓存策略

    针对内容中心网络( CCN)中节点默认缓存所有经过的内容,未能实现对内容选择性缓存与最佳放置的问题,提出一种基于用户偏好的协作缓存策略( CCUP)。首先,考虑用户对内容类型的喜好和内容流行度作为
    发表于 12-19 15:23 4次下载
    内容中心网络中基于<b class='flag-5'>用户</b><b class='flag-5'>偏好</b>的协作缓存策略

    一种基于用户偏好的权重搜索及告警选择方法

    用户在现有交互方式下选择最为严重的告警时完全依据其个人偏好,而未考虑处理不同告警所需成本的差异性问题。为此,提出一种基于用户偏好的权重搜索及告警选择方法。挖掘
    发表于 04-29 16:26 4次下载
    一种基于<b class='flag-5'>用户</b><b class='flag-5'>偏好</b>的权重搜索及告警选择方法

    时序地理社交网络下基于动态偏好的组查询

    在新生活体验与社交影响的驱动下,用户偏好随时间不断改变。为弥补现有的地理社交网络模型往往无法获取用户动态偏好的不足,构建了能够裣测用户动态偏
    发表于 05-11 16:38 11次下载

    可反映用户偏好的多目标任务调度算法

    ,使UPTSA算法能寻找反映用户偏好的最优解,并设计梯形迁移率计算模型扩大其搜索邻域,避免陷人局部最优解实例分析结果表明, UPTSA算法能有效求解云制造环境下的多目标任务调度问题,为用户
    发表于 05-25 14:05 3次下载