0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习之关联分析介绍

RG15206629988 来源:行业学习与研究 2023-03-25 14:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据挖掘中应用较多的技术是机器学习。机器学习主流算法包括三种:关联分析、分类分析、聚类分析。本文主要介绍关联分析。

一、关联分析概述

关联分析可发现大量数据中隐藏的相关性(统计学的相关性分析不能直接发现数据中隐藏的相关性,需先人为猜测各变量间可能相关,再通过统计学计算相关性强弱),进而描述事物同时出现的规律和模式,被描述出的规律和模式可应用于市场营销、事务分析等领域。

例如:某超市可通过关联分析得出消费者购买牛奶和购买面包隐含的相关性。如果有关购买牛奶和购买面包衡量指标大于某一阈值,说明此二者相关,超市可以通过将售卖牛奶和面包的货架靠近或推出牛奶和面包的组合装促销。

二、置信度与支持度

置信度与支持度是关联分析的衡量指标。

置信度是指包含关联规则所有特征(个人理解:特征可被理解为变量,包括自变量和因变量)的数据数量占包含自变量数据数量的比例。置信度高表示关联规则所表示的自变量与因变量的相关性高。

支持度是指包含关联规则的所有特征的数据数量占总数据数量的比例。支持度高表示关联规则的出现频率高,该关联规则的重要性高。如果关联规则的置信度高,但支持度低,表示该关联规则出现频率低,重要性低,利用价值低。

关联分析需寻找支持度和置信度分别高于预先设定的支持度阈值和置信度阈值的关联规则,该种关联规则被称为强关联规则。不小于支持度阈值的关联规则被称为频繁规则,不小于支持度阈值的特征集被称为频繁项集(项集可被理解为特征集,项、特征的具象化事物可以是商品,个人理解:频繁规则和频繁项集是一种事物两个维度的表述)。

三、Apriori定律

在大数据关联分析中,如果采用枚举的方式找出所有的频繁项集,则计算效率较低。因此,关联分析可通过以下定律,简化频繁项集的确定过程。

Apriori定律1:频繁项集的子集也是频繁项集。如图一所示,如果{C,D,E}是频繁项集,意味着{C,D,E}在大数据中出现的频率不小于支持度阈值,那么其子集如{C,D}在大数据出现的频率也一定不小于支持度阈值,即为频繁项集。

1c18de38-cac8-11ed-bfe3-dac502259ad0.png

图一,图片来源:哔哩哔哩《数据科学导论》

Apriori定律2:非频繁项集的超集(个人理解:某集合的超集是包含该集合的集合)也不是频繁项集。如图二所示,如果{A,B}不是频繁项集,意味着{A,B}在大数据中出现的频率小于支持度阈值,那么其超集如{A,B,C}在大数据出现的频率也一定小于支持度阈值,即不是频繁项集。

1c37974c-cac8-11ed-bfe3-dac502259ad0.png

图二,图片来源:哔哩哔哩《数据科学导论》

以上两定律在Apriori算法中被应用,Apriori算法是一种关联分析算法。

四、关联规则学习步骤

(1)找出所有的频繁项集。

(2)根据频繁项集生成频繁规则。

(3)根据置信度指标进一步筛选频繁规则。

五、确定候选项集的注意事项

在选择候选项集(个人理解:候选项集指未进行置信度筛选的频繁项集)需注意:

(1)应当避免产生太多不必要的候选项集。

(2)候选项集中不遗漏频繁项集。

(3)不产生重复候选项集。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136230
  • Apriori算法
    +关注

    关注

    0

    文章

    14

    浏览量

    10729

原文标题:大数据相关介绍(24)——机器学习之关联分析

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何应对负载的关联性和动态变化?

    应对负载的关联性(多负载相互影响)和动态变化(负载新增 / 老化 / 工艺调整),需建立 “关联映射→动态监测→联动调整→持续优化” 的闭环体系,核心是从 “孤立分析单负载” 转向 “系统性管理负载
    的头像 发表于 10-10 17:06 459次阅读

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 2630次阅读

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    : 一、机器人视觉:从理论到实践 第7章详细介绍了ROS2在机器视觉领域的应用,涵盖了相机标定、OpenCV集成、视觉巡线、二维码识别以及深度学习目标检测等内容。通过
    发表于 05-03 19:41

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 619次阅读

    人工智能和机器学习以及Edge AI的概念与应用

    与人工智能相关各种技术的概念介绍,以及先进的Edge AI(边缘人工智能)的最新发展与相关应用。 人工智能和机器学习是现代科技的核心技术 人工智能(AI)和机器
    的头像 发表于 01-25 17:37 1573次阅读
    人工智能和<b class='flag-5'>机器</b><b class='flag-5'>学习</b>以及Edge AI的概念与应用

    嵌入式机器学习的应用特性与软件开发环境

    设备和智能传感器)上,这些设备通常具有有限的计算能力、存储空间和功耗。本文将您介绍嵌入式机器学习的应用特性,以及常见的机器学习开发软件与开发
    的头像 发表于 01-25 17:05 1209次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    人工智能机器学习在推荐系统中的应用

    机器学习在推荐系统中发挥着关键作用,提升用户体验和业务价值。 协同过滤算法是常用方法。基于用户行为数据,如购买记录、浏览历史,计算用户或物品间相似度。比如,用户 A 和用户 B 购买过很多相同商品
    的头像 发表于 01-21 16:19 788次阅读

    《具身智能机器人系统》第10-13章阅读心得具身智能机器人计算挑战

    章深入分析了DNN的安全威胁。逃逸攻击通过向输入数据添加人眼难以察觉的扰动,诱导模型做出错误判断。投毒攻击则通过污染训练数据集,在模型学习阶段植入后门。探索攻击更具隐蔽性,它利用模型决策边界的薄弱环节
    发表于 01-04 01:15

    【「具身智能机器人系统」阅读体验】+两本互为支持的书

    最近在阅读《具身智能机器人系统》这本书的同时,还读了 《计算机视觉PyTorch数字图像处理》一书,这两本书完全可以视为是互为依托的姊妹篇。《计算机视觉PyTorch数字图像处理》是介绍
    发表于 01-01 15:50

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多
    的头像 发表于 12-30 09:16 1969次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习

    了解具身智能机器人相关的知识,我感到十分荣幸和幸运。 全书简介 本书以循序渐进的方式展开,通过对具身智能机器人技术的全方位解析,帮助读者系统化地学习这一领域的核心知识。 首先在第一部分,介绍
    发表于 12-27 14:50

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 697次阅读

    《具身智能机器人系统》第7-9章阅读心得具身智能机器人与大模型

    医疗领域,手术辅助机器人需要毫米级的精确控制,书中有介绍基于视觉伺服的实时控制算法,以及如何利用大模型优化手术路径规划。工业场景中,协作机器人面临的主要挑战是快速适应新工艺流程。具身智能通过在线
    发表于 12-24 15:03

    zeta在机器学习中的应用 zeta的优缺点分析

    在探讨ZETA在机器学习中的应用以及ZETA的优缺点时,需要明确的是,ZETA一词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的分析: 一、ZETA在机器
    的头像 发表于 12-20 09:11 1624次阅读

    《具身智能机器人系统》第1-6章阅读心得具身智能机器人系统背景知识与基础模块

    意味着在“具身智能”领域,还没有哪一个玩家能像O社那样能站在AGI的制高点。 具身智能从字面上拆解为“具身+智能”,指的是一种将机器学习算法适配至物理实体,从而与物理世界交互的AI范式。通俗一点讲,就是
    发表于 12-19 22:26