0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据的高级分析算法有哪些

h1654155282.3538 来源:科技世界杂谈 作者:科技世界杂谈 2021-01-17 10:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当涉及大数据和高级分析的话题时,热闹非凡。顶级分析公司就这些概念所采取的措施可以为数字时代的企业带来革命性的变化进行了广泛的撰写。世界各地的《财富》 500强公司都在大数据和高级分析方面进行了大量投资,并从中受益匪浅。问题在于,许多公司也希望取得令人难以置信的成果,但不确定确切的起点。

高级分析通常始于单个用例。这包括应用新的数据转换和分析方法来发现数据中以前未知的趋势和模式。当将此新信息应用于业务流程和操作规范时,它就有可能改变您的业务。

为了从数据中获取更大的价值,请使用以下五类算法

线性回归

线性回归是高级分析的最基本算法之一。这也使其成为使用最广泛的之一。人们可以轻松地查看其工作方式以及输入数据与输出数据的关系。

线性回归使用两组连续定量度量之间的关系。第一组称为预测变量或自变量。另一个是响应或因变量。线性回归的目标是以公式的形式识别关系,该公式根据自变量描述因变量。一旦这种关系被量化,就可以为自变量的任何实例预测因变量。

时间是最常用的自变量之一。无论您的自变量是收入,成本,客户,使用或生产力,如果您可以定义其与时间的关系,那么可以使用线性回归预测值。

 逻辑回归

Logistic回归听起来与线性回归相似,但实际上专注于涉及分类而不是定量预测的问题。在这里,输出变量值是离散且有限的,而不是连续的,并且具有无限值,就像线性回归一样。

逻辑回归的目标是对输入变量的实例是否适合类别进行分类。Logistic回归的输出值为0到1之间的值。结果接近1表示输入变量更清楚地适合类别。结果接近0表示输入变量可能不适合该类别。

Logistic回归通常用于回答明确定义的是或否问题。客户会再次购买吗?买家信用值得吗?潜在客户会成为客户吗?预测这些问题的答案会在业务流程中产生一系列动作,从而有助于增加未来的收入。

分类和回归树

分类树和回归树使用决策来对数据进行分类。每个决定都是基于与输入变量之一有关的问题。有了每个问题和相应的答案,数据实例就变得更接近以特定方式进行分类了。这组问题和答案以及随后的数据划分创建了一个树状结构。每行问题的末尾都有一个类别。这称为分类树的叶节点。

这些分类树可能变得非常大和复杂。控制复杂性的一种方法是通过修剪树或有意删除问题级别以在精确匹配和抽象之间取得平衡。对于输入值的所有实例(在训练中已知的值和在训练中未知的值)都适用的模型至关重要。要防止此模型过度拟合,就需要在精确拟合和抽象之间达到微妙的平衡。

分类树和回归树的一种变体称为随机森林。随机森林不是构建具有多个逻辑分支的单个树,而是由许多小的树和简单树组成的顶点,每个树都评估数据实例并确定分类。一旦所有这些简单的树完成了其数据评估,该过程将合并单个结果,以基于较小类别的组合来创建类别的最终预测。这通常称为合奏方法。这些随机森林通常在平衡精确匹配和抽象方面做得很好,并且已在许多业务案例中成功实现。

与侧重于是或否分类的逻辑回归相反,分类和回归树可用于预测多值分类。它们也更容易可视化并查看引导算法进行特定分类的确定路径。

 K最近邻法‬(KNN)

K最近邻法‬也是一种分类算法。它被称为“懒惰学习者”,因为该过程的培训阶段非常有限。学习过程由存储的训练数据集组成。在评估新实例时,将评估到训练集中每个数据点的距离,并且基于新数据实例与训练实例的接近程度,就该数据实例属于哪个类别达成共识。

根据训练集的大小和范围,此算法在计算上可能会很昂贵。由于必须将每个新实例与训练数据集的所有实例进行比较并得出距离,因此该过程每次运行都可以使用许多计算资源。

该分类算法允许对数据进行多值分类。另外,嘈杂的训练数据倾向于使分类倾斜。 通常选择K近邻,因为它易于使用,易于训练并且易于解释结果。当您尝试查找相似的项目时,它通常在搜索应用程序中使用。

K均值聚类

K-均值聚类专注于创建相关属性组。这些组称为群集。一旦创建了这些集群,就可以针对它们评估其他实例,以查看它们最适合的位置。

此技术通常用作数据探索的一部分。首先,分析人员指定群集的数量。K-means群集过程基于在称为“质心”的公共集线器周围找到具有相似性的数据点,将数据分解为该数量的群集。这些群集与类别不同,因为它们最初没有业务意义。它们只是输入变量的紧密相关实例。一旦识别并分析了这些集群,就可以将它们转换为类别,并提供具有业务意义的名称。

经常使用K均值聚类是因为它易于使用和解释,并且速度很快。要注意的一个方面是k均值聚类对异常值极为敏感。这些离群值会极大地改变这些聚类的性质和定义,并最终改变分析结果。

#智能制造#, 这些是高级分析计划中使用的一些最受欢迎的算法。每种方法都有优缺点,并且可以有效地利用各种方法来产生业务价值。实施这些算法的最终目标是进一步优化数据,使结果信息可以应用于业务决策。正是此过程为下游流程提供了更精细和更高价值的数据,这对于公司真正利用其数据的价值并实现其所需的结果至关重要。
责任编辑人:CC

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 分析算法
    +关注

    关注

    0

    文章

    5

    浏览量

    6845
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143067
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    组态大数据平台是什么?什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等领域。其核心
    的头像 发表于 10-30 11:29 91次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?<b class='flag-5'>有</b>什么功能?

    AES和SM4算法的可重构分析

    一、AES和SM4算法特点分析 基于前面几篇分享,我们对AES和SM4的算法流程了较为清晰的认识,接下来对AES和SM4算法的共同点进行
    发表于 10-23 07:26

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    北京华盛恒辉电磁兼容 (EMC) 大数据智能管理系统精简解析 在 EMC 大数据分析中,电磁兼容与电磁干扰(EMI)智能管理系统是保障设备稳定、提升系统可靠性的核心工具。系统整合 EMC/EMI
    的头像 发表于 09-17 14:58 443次阅读

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:58 380次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据分析</b>中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:42 591次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据分析</b>中的智能管理系统

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 490次阅读

    基于数据算法驱动的配方研发新模式

    基于数据算法驱动的配方研发新模式 随着人工智能、大数据和机器学习技术的快速发展,传统依赖经验和试错的配方研发模式正逐步向数据驱动、算法优化的
    的头像 发表于 08-06 17:25 790次阅读

    DFT算法与FFT算法的优劣分析

    一概述 在谐波分析仪中,我们常常提到的两个词语,就是DFT算法与FFT算法,那么一款功率分析仪/谐波分析仪采用DFT
    的头像 发表于 08-04 09:30 893次阅读

    协议分析仪支持哪些高级触发选项?

    协议分析仪支持多种高级触发选项,这些选项通过灵活组合协议字段、逻辑运算和时序控制,可实现复杂场景下的精准数据捕获,以下是具体分类与说明:一、基于协议字段的高级触发 精确匹配触发 功能
    发表于 07-23 14:21

    普源示波器如何连接MATLAB实现数据采集与分析

    高级算法应用等。本文将详细讲解普源示波器与MATLAB的连接方法、配置步骤、高级功能及实战案例,帮助用户快速搭建高效的数据采集与分析系统。
    的头像 发表于 05-29 09:34 703次阅读

    大数据与云计算是干嘛的?

    大数据与云计算是支撑现代数字化技术的两大核心。大数据专注于海量数据的采集、存储、分析与价值挖掘;云计算通过虚拟化资源池提供弹性计算、存储及服务能力。两者结合,共同赋能企业决策、业务创新
    的头像 发表于 02-20 14:48 1272次阅读

    大数据云计算都需要考什么证书?

    大数据和云计算领域包含多种专业证书,其中大数据领域涵盖数据分析类证书、大数据工程类证书、数据治理类证书。云计算领域领域涵盖云计算技术类证书、
    的头像 发表于 02-19 11:05 1192次阅读

    WEBENCH电源高级分析

    电子发烧友网站提供《WEBENCH电源高级分析.pdf》资料免费下载
    发表于 01-21 14:53 0次下载
    WEBENCH电源<b class='flag-5'>高级</b><b class='flag-5'>分析</b>

    工程大数据平台

    由于无人驾驶系统开发需要长期迭代优化,其过程需要大量的路试数据支撑,经纬恒润针对无人驾驶系统持续运营和持续迭代的需求,开发并在云端部署了车路云工程大数据平台,依托5G网络,具有远程数据采集、压缩、传输、解析、回放与
    的头像 发表于 01-10 17:00 936次阅读
    工程<b class='flag-5'>大数据</b>平台

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大
    的头像 发表于 12-18 09:45 1108次阅读