0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据挖掘是什么,数据挖掘的方法主要有哪些?

jmiy_worldofai 来源:YXQ 2019-04-17 10:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘对象

根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

数据挖掘流程

定义问题:清晰地定义出业务问题,确定数据挖掘的目的。

数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

数据挖掘分类

直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。

数据挖掘的方法

神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。

遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。

覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。

统计分析方法

在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。

模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。

数据挖掘任务

关联分析

两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

聚类分析

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。

分类

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

预测

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

时序模式

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

偏差分析

在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4760

    浏览量

    97145
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24970

原文标题:大数据挖掘是什么,数据挖掘的方法主要有哪些?

文章出处:【微信号:worldofai,微信公众号:worldofai】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大数据时代下的管理变革:勤哲EXCEL服务器助力企业高效运营

    大数据高速发展的今天,先进信息技术正在潜移默化地改变现代企业的经营管理模式。实践证明,这些技术不但提升了管理效率,还为企业决策提供了科学依据。信息化建设已成为企业管理创新的重要趋势,越来越多企业
    的头像 发表于 11-19 14:29 161次阅读

    奥松电子协办第二届智能计算与数据挖掘国际学术会议

    2025年10月24日至26日,第二届智能计算与数据挖掘国际学术会议(ICDM 2025)在中国广州隆重举行。本次会议由广州航海学院、汕头大学、广东省数智科技研究会联合主办,广州奥松电子股份有限公司作为协办单位之一,携手多家产业机构,共同推动智能计算与
    的头像 发表于 11-03 14:18 398次阅读

    IMU P/N312-0755在卡特彼勒挖掘机上的应用实践

    直川科技通过持续优化IMU传感器的环境适应性与数据可靠性,为卡特彼勒挖掘机提供了兼顾精度与稳健性的姿态感知方案。其P/N312-0755产品在多个大型项目中的实践表明,基于工业标准设计的IMU已成为重型机械智能升级的关键组件。
    的头像 发表于 10-11 11:04 337次阅读
    IMU P/N312-0755在卡特彼勒<b class='flag-5'>挖掘</b>机上的应用实践

    京东商品详情接口实战解析:从调用优化到商业价值挖掘(附避坑代码)

    本文深入解析京东商品详情接口jd.union.open.goods.detail.query,涵盖核心特性、权限限制、关键参数及调用避坑指南。通过实战代码演示数据采集、促销解析与商业分析,助力开发者高效获取价格、库存、评价等全维度数据
    的头像 发表于 10-10 09:28 521次阅读
    京东商品详情接口实战解析:从调用优化到商业价值<b class='flag-5'>挖掘</b>(附避坑代码)

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,在应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监测数据进行挖掘分析,及时发现设备缺陷故障,为
    的头像 发表于 09-15 11:22 415次阅读
    XKCON祥控输煤皮带智能机器人巡检系统对监测<b class='flag-5'>数据</b>进行<b class='flag-5'>挖掘</b>分析

    无线数传模块助力挖掘机工厂实现高效无线通信系统

    应用背景​ 山东某挖掘机机械有限公司的核心产品涵盖装载机、挖掘机、道路机械及核心关键零部件等系列工程机械。为加速新旧动能转换,企业引入全新挖掘机整机装配线,并配合劳动组合调整,不仅显著提升了装配水平
    的头像 发表于 08-27 15:12 382次阅读
    无线数传模块助力<b class='flag-5'>挖掘</b>机工厂实现高效无线通信系统

    淘宝 API 接口:海量商品数据挖掘的宝藏钥匙

    高效、安全地访问和分析这些数据,为市场洞察、用户行为预测和商业决策提供强大支持。 淘宝 API 接口的核心功能 淘宝 API 接口提供了一系列标准化的服务,允许开发者通过编程方式获取平台数据主要功能包括: 商品
    的头像 发表于 08-12 14:26 584次阅读
    淘宝 API 接口:海量商品<b class='flag-5'>数据</b><b class='flag-5'>挖掘</b>的宝藏钥匙

    水晶头主要有哪几种型号

    水晶头主要有RJ-45、RJ-11和RJ-12三种型号,具体说明如下: RJ-45水晶头: 结构:有8个凹槽和8个触点(8p8c),体积相对较大。 应用:广泛用于以太网、快速以太网、千兆以太网等网络
    的头像 发表于 08-05 09:41 2821次阅读

    用树莓派挖掘5种顶级加密货币!

    加密货币是用于在线交易的数字货币。挖掘这些货币通常需要专门的硬件,如ASIC矿机或高性能GPU。然而,有些加密货币仍可用树莓派来挖掘。在本文中,我将为您介绍可在树莓派上挖掘的最佳加密货币。适合用树莓
    的头像 发表于 07-21 16:34 928次阅读
    用树莓派<b class='flag-5'>挖掘</b>5种顶级加密货币!

    测量相位差的方法主要有哪些?

    测量相位差可以用示波器测量,也可以把相位差转换为时间间隔,先测量出时间间隔,再换算为相位差,可以把相位差转换为电压,先测量出电压,再换算为相位差,还可以与标准移相器进行比较的比较法(零示法)等方法
    的头像 发表于 06-18 09:03 1437次阅读
    测量相位差的<b class='flag-5'>方法</b><b class='flag-5'>主要有</b>哪些?

    物联网感知数据挖掘:赋能万物智联的核心引擎

    背后,数据挖掘与分析技术正成为解锁设备潜能、驱动产业变革的关键钥匙。 一、从数据到洞察:六大核心价值维度 1. 价值转化器:解锁设备数据的商业密码 工业传感器产生的振动频谱、智能电表的
    的头像 发表于 06-17 16:22 494次阅读

    三一挖掘机一键启动开关易坏的原因及更换注意事项

    三一挖掘机一键启动开关易坏的原因虽然三一挖掘机的一键启动系统设计旨在提高便利性和安全性,但在实际使用中,可能会出现一些问题导致开关易坏。这些问题可能包括:频繁使用:挖掘机在施工过程中频繁启动和关闭
    发表于 03-12 09:29

    易华录智慧交管大模型实现交通数据价值的深度挖掘与应用

    易华录将多年积累的数据治理经验与DeepSeek卓越的推理能力深度融合,实现了交通数据价值的深度挖掘与应用。“DeepSeek+小易”智能引擎双驱动,让交通管控更智能、更高效,让每一位交警真切感
    的头像 发表于 03-08 13:48 1380次阅读

    大数据与云计算是干嘛的?

    大数据与云计算是支撑现代数字化技术的两大核心。大数据专注于海量数据的采集、存储、分析与价值挖掘;云计算通过虚拟化资源池提供弹性计算、存储及服务能力。两者结合,共同赋能企业决策、业务创新
    的头像 发表于 02-20 14:48 1272次阅读

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,
    的头像 发表于 12-18 09:45 1108次阅读