0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

想深度构建用户画像?掌握关联分析必不可少

格创东智 2019-04-28 19:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

无论是提供商品还是服务,用户画像都是数据挖掘工作的重要一环。一个准确和完整的用户画像甚至可以说是许多互联网公司赖以生存的宝贵财富。


我们也已经听过了无数用户画像的神奇功能和成功案例,比如亚马逊、淘宝的机器学习团队使用用户的浏览行为、购物车状态和购买记录开发关联推荐系统,使点击率和销量大幅提升;比如应用市场根据过往APP安装记录记对每个使用者进行精准推荐;再比如音乐,图书和新闻网站通过协同过滤的方式为用户呈现个性化的定制内容。要做到这些,就必须对用户的数据进行关联分析,得到精准的推荐算法


今天的格物汇,就带大家来了解关联分析理论和经典的Apriori算法。

关联分析

关联分析是数据挖掘中一项基础又重要的技术,是一种在大型数据库中发现变量之间有趣关系的方法,能从数据中挖掘出潜在的关联关系。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。比如,在著名的购物篮事务(market basket transactions)问题中,用户在超市里购物数据如下:


IDItems
1牛奶,面包
2面包,尿布,啤酒,鸡蛋
3面包,尿布,啤酒,可乐
4牛奶,面包,尿布,啤酒
5牛奶,面包,可乐,鸡蛋


关联分析则被用来找出此类规则:顾客在买了某种商品时也会买另一种商品。在上述例子中,有的关联规则是很容易理解的比如:{牛奶}→{面包},此外我们还会挖掘出另外的某些规则: {尿布} → {啤酒};即顾客在买完尿布之后通常会买啤酒。后来通过调查分析,原来妻子嘱咐丈夫给孩子买尿布时,丈夫在买完尿布后通常会买自己喜欢的啤酒。


但是,如何衡量这种关联规则是否靠谱呢?我们需要如下指标来衡量。


支持度和置信度

我们想找出这样的规律需要从两个方面考虑:这个规律中的两个商品频繁出现,两个商品关联出现的概率较大。如果两个商品不是频繁出现的,那么有可能是小众群体的个别需求。我们把两个商品一起出现的概率称为支持度


如果有一个商品A出现的非常频繁比如90%,而另一个商品B虽然跟A一起出现的概率很大,但是概率大的原因是A出现的太频繁了,这也不能反映出其关联关系,我们把A出现B则出现的条件概率称为置信度

图片 1.png


Apriori算法

Apriori算法就是为了快速的找到数据中关联的频繁集,我们用一个具体的案例来看看吧:假设我们有4种商品:商品0,商品1,商品2和商品3。那么所有可能被一起购买的商品组合都有哪些?这些商品组合可能只有一种商品,比如商品0,也可能包括两种、三种或者所有四种商品。我们并不关心某人买了两件商品0以及四件商品2的情况,我们只关心他购买了一种或多种商品。我们可以穷举出该顾客购买商品所有可能的组合:


图片 2.png


一个简单粗暴的求解方法是:我们设定支持度和置信度的阈值——min_sup,min_cof,并算出每一个可能组合的支持度和置信度,把满足要求的组合筛选出来。如果我们的商品很多,这个方法的计算量将呈指数的增长,是很难实现的。

定理:如果一个项集是频繁的,那么其所有的子集(subsets)也一定是频繁的。

这个定理显而易见,假如{A,B,C}出现的概率大,那么{A,B},{C},出现的概率肯定也很大。这看上去没什么用,其实它的逆反定理更有用。

逆反定理:如果一个项集是非频繁的,那么其所有的超集(supersets)也一定是非频繁的。

假如{A}出现的概率很小,那么{A,C},{A,B,C}出现的概率肯定也很小。根据这个逆反定理,我们可以排除很多不必要的计算。


图片 3.png

比如我们发现{2,3}是非频繁的,那么{0,2,3},{1,2,3},{0,1,2,3}肯定都是非频繁的。就可以大大减少我们计算的复杂度。


Apriori算法流程

Apriori算法的目标是找到最大的K项频繁集,这里有两层意思,首先,我们要找到符合支持度标准的频繁集。但是这样的频繁集可能有很多。当然我们可以根据上面的逆反定理减少频繁集的计算范围,第二层意思就是我们要找到最大个数的频繁集。比如我们找到符合支持度的频繁集AB和ABE,那么我们会抛弃AB,只保留ABE,因为AB是2项频繁集,而ABE是3项频繁集。那么具体的,Apriori算法是如何做到挖掘K项频繁集的呢?我们可以看下面这个图:


图片 4.png


Apriori算法采用了迭代的方法,线设定支持度的阈值0.5,先搜索出候选1项集及对应的支持度C1,剪枝去掉低于支持度的1项集,也就是图C1中的{4},得到频繁1项集L1。然后对剩下的频繁1项集进行连接,得到候选的频繁2项集,筛选去掉低于支持度的候选频繁2项集C2,也就是图中C2的{1,2}和{1,5},得到真正的频繁二项集L2,以此类推,迭代下去,直到无法找到频繁k+1项集为止,对应的频繁k项集的集合即为算法的输出结果。也就是用户的购物篮中,商品2,商品3,商品5常常一起购买。

总而言之,Apriori算法是一个非常经典的频繁项集的挖掘算法,很多算法都借用了其算法的思想,并做出了改进,我们也将在格物汇之后的文章中进行分享。


本文作者:格创东智OT团队(转载请注明作者及来源)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    为什么AGV是工业自动化必不可少

      AGV 新一代工业革命愈演愈烈,越来越多的企业加入到智能制造的浪潮中。而在智能工厂中,物流达到智能化是最基础的一个环节,为此,一个智能的AGV系统至关重要。 AGV立库 智能AGV自动化系统(Automated Guided Vehicle,简称AGV)是无人搬运车的英文缩写,通常也称为AGV小车,指装备有电磁或光学等自动导引装置,能够沿规定的导引路径行驶,具有安全保护以及各种移载功能的运输车,工业应用中不需驾驶员的搬运车。可通过电脑来控制其行进路线以及行为
    的头像 发表于 10-17 16:58 449次阅读
    为什么AGV是工业自动化<b class='flag-5'>必不可少</b>?

    京东:调用用户画像API实现千人千面推荐,提升转化率

    ​  引言 在电商领域,个性化推荐已成为提升用户粘性和转化率的核心引擎。京东通过深度整合用户画像API,实现了"千人千面"的精准推荐系统。本文将解析其技术逻辑与业务价值,揭示如何通过数
    的头像 发表于 09-12 15:08 612次阅读
    京东:调用<b class='flag-5'>用户</b><b class='flag-5'>画像</b>API实现千人千面推荐,提升转化率

    用小红书电商 API 实现小红书店铺商品用户画像精准构建

    ​ 在当今社交电商时代,小红书作为领先的内容电商平台,拥有海量用户数据和商品信息。店铺通过构建精准用户画像,能实现个性化推荐、提升转化率和用户
    的头像 发表于 08-28 15:57 426次阅读
    用小红书电商 API 实现小红书店铺商品<b class='flag-5'>用户</b><b class='flag-5'>画像</b>精准<b class='flag-5'>构建</b>

    入行嵌入式应该怎么准备?

    架构、总线协议和存储器管理等概念的理解也是必不可少的。 三、操作系统嵌入式系统通常需要运行一个实时操作系统(RTOS)或者一个精简版的操作系统。熟悉RTOS的概念和使用方法,能够编写多任务和实时
    发表于 08-06 10:34

    还在凭感觉做画像?GWI 利用大数据精准绘制核心客户群

    当前企业构建客户画像常受限于滞后的人口统计数据和模糊标签(如“都市年轻人”),导致营销精准度不足。GWI 消费者洞察工具通过整合全球实时行为数据与AI分析能力(Spark),以四步法构建
    的头像 发表于 07-29 13:28 567次阅读
    还在凭感觉做<b class='flag-5'>画像</b>?GWI 利用大数据精准绘制核心客户群

    RK3128 Android 7.1 进入深度休眠流程分析

    RK3128 Android 7.1 进入深度休眠流程分析RK3128是瑞芯微电子推出的一款低功耗四核Cortex-A7处理器,运行Android 7.1系统时进入深度休眠(Deep Sleep
    发表于 07-22 10:45

    智控激光焊缝跟踪系统助力管道行业专机埋弧焊智能化升级

    在如今的工业制造领域,智能化和自动化成为提升效率和质量的重要力量,管道行业作为基础设施建设的重要组成部分,焊接的智能化升级是必不可少的。面对传统埋弧焊中存在的诸多挑战,创智控自主研发的激光焊缝跟踪
    的头像 发表于 06-20 10:48 416次阅读
    创<b class='flag-5'>想</b>智控激光焊缝跟踪系统助力管道行业专机埋弧焊智能化升级

    存储示波器的存储深度对信号分析有什么影响?

    存储深度(Memory Depth)是数字示波器的核心参数之一,它直接决定了示波器在单次采集过程中能够记录的采样点数量。存储深度对信号分析的影响贯穿时域细节捕捉、频域分析精度、触发稳定
    发表于 05-27 14:39

    HarmonyOS5云服务技术分享--账号关联开发指南

    等)。 ? 关联账号的3种姿势(附代码) 1️⃣ 关联手机号 用户已登录其他方式(如邮箱),绑定手机号: import auth from \'@hw-agconnect/auth
    发表于 05-22 16:53

    DLP6500调用API进行自主二次开发,怎么构建开发环境?

    请问一下,我购置了DLP6500型号产品,利用该产品进行开发,实现高速投影的功能。 但是我现在只找到了GUI界面,请问一下,如果我调用API进行自主二次开发,怎么构建开发环境? 最好有相关的技术指导文件,谢谢。
    发表于 03-03 07:03

    DevEco Studio构建分析工具Build Analyzer 为原生鸿蒙应用开发提速

    Analyzer构建分析工具,该工具可显示编译构建过程的重要信息,可视化分析排查构建过程中的性能问题,从而提升
    发表于 02-17 18:06

    模拟电路分析技巧

    在现代电子技术中,模拟电路扮演着至关重要的角色。它们不仅用于信号放大、滤波和转换,还广泛应用于传感器接口和功率管理等领域。掌握模拟电路分析技巧对于电子工程师来说是必不可少的。 1. 理解电路原理 在
    的头像 发表于 01-24 09:24 1351次阅读

    混合信号分析仪的原理和应用场景

    故障的原因和位置,提高故障排除的速度。 科研与教育:混合信号分析仪也是重要的实验工具,可以帮助研究人员和学生深入了解电子信号的特性和分析方法,促进电子技术的发展和创新。 综上所述,混合信号分析仪在电子测量领域具有广泛的应用价值和
    发表于 01-21 16:45

    VirtualLab:系统建模分析

    的大多数通常在特定的域中工作,这意味着域之间的不断往返对于精确和快速的仿真是必不可少的。为了向光学工程师提供光场在系统中传播时的不同阶段的全面概述,VirtualLab Fusion配备了一个强大的工具
    发表于 01-14 09:45

    VirtualLab:系统建模分析

    的大多数通常在特定的域中工作,这意味着域之间的不断往返对于精确和快速的仿真是必不可少的。为了向光学工程师提供光场在系统中传播时的不同阶段的全面概述,VirtualLab Fusion配备了一个强大的工具
    发表于 12-19 12:36