0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习之关联分析介绍

RG15206629988 来源:行业学习与研究 2023-03-25 14:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据挖掘中应用较多的技术是机器学习。机器学习主流算法包括三种:关联分析、分类分析、聚类分析。本文主要介绍关联分析。

一、关联分析概述

关联分析可发现大量数据中隐藏的相关性(统计学的相关性分析不能直接发现数据中隐藏的相关性,需先人为猜测各变量间可能相关,再通过统计学计算相关性强弱),进而描述事物同时出现的规律和模式,被描述出的规律和模式可应用于市场营销、事务分析等领域。

例如:某超市可通过关联分析得出消费者购买牛奶和购买面包隐含的相关性。如果有关购买牛奶和购买面包衡量指标大于某一阈值,说明此二者相关,超市可以通过将售卖牛奶和面包的货架靠近或推出牛奶和面包的组合装促销。

二、置信度与支持度

置信度与支持度是关联分析的衡量指标。

置信度是指包含关联规则所有特征(个人理解:特征可被理解为变量,包括自变量和因变量)的数据数量占包含自变量数据数量的比例。置信度高表示关联规则所表示的自变量与因变量的相关性高。

支持度是指包含关联规则的所有特征的数据数量占总数据数量的比例。支持度高表示关联规则的出现频率高,该关联规则的重要性高。如果关联规则的置信度高,但支持度低,表示该关联规则出现频率低,重要性低,利用价值低。

关联分析需寻找支持度和置信度分别高于预先设定的支持度阈值和置信度阈值的关联规则,该种关联规则被称为强关联规则。不小于支持度阈值的关联规则被称为频繁规则,不小于支持度阈值的特征集被称为频繁项集(项集可被理解为特征集,项、特征的具象化事物可以是商品,个人理解:频繁规则和频繁项集是一种事物两个维度的表述)。

三、Apriori定律

在大数据关联分析中,如果采用枚举的方式找出所有的频繁项集,则计算效率较低。因此,关联分析可通过以下定律,简化频繁项集的确定过程。

Apriori定律1:频繁项集的子集也是频繁项集。如图一所示,如果{C,D,E}是频繁项集,意味着{C,D,E}在大数据中出现的频率不小于支持度阈值,那么其子集如{C,D}在大数据出现的频率也一定不小于支持度阈值,即为频繁项集。

1c18de38-cac8-11ed-bfe3-dac502259ad0.png

图一,图片来源:哔哩哔哩《数据科学导论》

Apriori定律2:非频繁项集的超集(个人理解:某集合的超集是包含该集合的集合)也不是频繁项集。如图二所示,如果{A,B}不是频繁项集,意味着{A,B}在大数据中出现的频率小于支持度阈值,那么其超集如{A,B,C}在大数据出现的频率也一定小于支持度阈值,即不是频繁项集。

1c37974c-cac8-11ed-bfe3-dac502259ad0.png

图二,图片来源:哔哩哔哩《数据科学导论》

以上两定律在Apriori算法中被应用,Apriori算法是一种关联分析算法。

四、关联规则学习步骤

(1)找出所有的频繁项集。

(2)根据频繁项集生成频繁规则。

(3)根据置信度指标进一步筛选频繁规则。

五、确定候选项集的注意事项

在选择候选项集(个人理解:候选项集指未进行置信度筛选的频繁项集)需注意:

(1)应当避免产生太多不必要的候选项集。

(2)候选项集中不遗漏频繁项集。

(3)不产生重复候选项集。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8569

    浏览量

    137355
  • Apriori算法
    +关注

    关注

    0

    文章

    14

    浏览量

    10756

原文标题:大数据相关介绍(24)——机器学习之关联分析

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 742次阅读

    硅基光波导表面粗糙度与光损耗的关联分析

    设计、提升性能的关键所在。下文,光子湾科技将详解共聚焦显微镜(CLSM)在测量硅基波导侧壁粗糙度的应用,并分析其粗糙度与光传输损耗之间的关联。#Photonixbay.
    的头像 发表于 02-03 18:03 279次阅读
    硅基光波导表面粗糙度与光损耗的<b class='flag-5'>关联</b><b class='flag-5'>分析</b>

    Moku升级实时计算并显示g(2)二阶关联函数及最新活动更新

    研究提供更高效、直观的测量手段。在本应用笔记中,我们将概述二阶关联函数及其物理意义。随后,我们将介绍如何使用Moku时间间隔与频率分析仪进行配置并采集数据,说明如何
    的头像 发表于 01-22 16:45 3724次阅读
    Moku升级实时计算并显示g(2)二阶<b class='flag-5'>关联</b>函数及最新活动更新

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 383次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    机器视觉的核心技术和应用场景

    机器视觉正通过让机器“看见”并解读视觉数据来为行业带来变革,进而提升自动化水平、质量控制效率与运营效能。本文将深入探讨机器视觉的技术核心,聚焦图像处理与机器
    的头像 发表于 12-29 16:32 1102次阅读

    电能质量在线监测装置持暂降事件关联分析吗?

    现代电能质量在线监测装置普遍支持暂降事件关联分析功能,这是其核心能力之一。 一、暂降事件关联分析的定义与功能 暂降事件关联
    的头像 发表于 12-17 16:41 463次阅读
    电能质量在线监测装置持暂降事件<b class='flag-5'>关联</b><b class='flag-5'>分析</b>吗?

    电能质量在线监测装置支持暂降事件关联分析吗?

    电能质量在线监测装置普遍支持暂降事件关联分析 ,且功能覆盖从基础参数关联到高级故障溯源的全流程分析能力,核心依据 DL/T 1227-2013、GB/T 30137-2024 等标准,
    的头像 发表于 12-12 10:52 742次阅读
    电能质量在线监测装置支持暂降事件<b class='flag-5'>关联</b><b class='flag-5'>分析</b>吗?

    如何深度学习机器视觉的应用场景

    检测应用 微细缺陷识别:检测肉眼难以发现的微小缺陷和异常 纹理分析:对材料表面纹理进行智能分析和缺陷识别 3D表面重建:通过深度学习进行高精度3D建模和检测 电子行业应用 PCB板复杂缺陷检测:连焊、虚焊、漏焊等焊接质量问题 芯
    的头像 发表于 11-27 10:19 382次阅读

    时钟周期、机器周期、指令周期介绍

    就只需要一个时钟周期完成,实际上却需要多个。机器周期是机器完成一个基本操作的时间。 指令周期:执行一条指令所需要的时间,是从取指令、分析指令到执行完指令所需的全部时间,计算机中,常把一条指令的执行
    发表于 11-17 07:54

    商品视频关联接口技术详解

    这一技术,帮助开发者快速上手。 1. 接口概述与背景 商品视频关联接口的核心功能是管理商品($product$)和视频($video$)之间的多对多关系。常见场景包括: 用户上传商品介绍视频时,自动关联到对应商品。 前台页面展示
    的头像 发表于 10-13 15:44 532次阅读
    商品视频<b class='flag-5'>关联</b>接口技术详解

    如何应对负载的关联性和动态变化?

    应对负载的关联性(多负载相互影响)和动态变化(负载新增 / 老化 / 工艺调整),需建立 “关联映射→动态监测→联动调整→持续优化” 的闭环体系,核心是从 “孤立分析单负载” 转向 “系统性管理负载
    的头像 发表于 10-10 17:06 946次阅读

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,在应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监
    的头像 发表于 09-15 11:22 826次阅读
    XKCON祥控输煤皮带智能<b class='flag-5'>机器</b>人巡检系统对监测数据进行挖掘<b class='flag-5'>分析</b>

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3158次阅读

    机器学习赋能的智能光子学器件系统研究与应用

    与应用 在人工智能与光子学设计融合的背景下,科研的边界持续扩展,创新成果不断涌现。从理论模型的整合到光学现象的复杂模拟,从数据驱动的探索到光场的智能分析机器学习正以前所未有的动力推动光子学领域的革新。据调查,目前在Nature
    的头像 发表于 06-04 17:59 804次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>赋能的智能光子学器件系统研究与应用

    渗压计基准值选取与故障诊断的关联分析

    选取与设备故障的内在关联,为工程单位提供技术管理双效解决方案。一、基准值误差与设备故障的关联特征1.异常数据溯源机制当渗压计测量值出现偏差时,需同步执行两类排查:基
    的头像 发表于 05-22 17:02 501次阅读
    渗压计基准值选取与故障诊断的<b class='flag-5'>关联</b>性<b class='flag-5'>分析</b>