0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入研究数据科学家使用的常见统计和分析技术

454398 来源: 企业网D1Net 作者: Ronald Schmelzer 2021-01-14 16:09 次阅读

数据科学技术如今已在许多组织中占有一席之地,数据科学家正迅速成为以数据为中心的组织最受欢迎的角色之一。数据科学的应用程序利用机器学习等技术和大数据的力量来获取深入的见解和新的功能,其中包括预测分析、图像和对象识别、会话人工智能系统等。

事实上,那些没有在数据科学上进行充分投资的组织可能很快落后于在数据科学方面获得显著竞争优势的竞争对手。

数据科学家可以做些什么以提供这种变革性的业务收益?数据科学领域是一些关键要素的集合:准确提取可量化数据的统计和数学方法;使用先进的分析技术和方法从科学角度解决数据分析的技术和算法,有助于处理大型数据集;以及可以帮助将大量数据整理成获得高质量见解的所需格式的工具和方法。

以下将更深入地研究数据科学家使用的常见统计和分析技术。其中一些数据科学技术植根于数世纪的数学和统计工作,而另一些技术则相对较新,利用了机器学习、深度学习和其他形式的高级分析的研究成果。

数据科学如何发现数据之间的关系

当识别大量数据中的信息时,数据科学家首先需要辨别不同的数据元素如何相互关联。例如,如果在一张图上绘制了一堆数据点,那么如何知道它们是否有意义?

数据科学家最广泛使用的有三种统计和分析技术。也许数据表示两个或多个变量之间的关系,而其工作是绘制某种最能描述这种关系的曲线或多维平面。或者,它代表具有某种亲和力的集群。其他数据可能代表不同的类别。通过发现这些关系,可以使数据的其他随机性具有意义,然后可以对其进行分析和可视化,以提供组织可以用来制定决策或计划策略的信息。

以下了解可用于执行分析的各种数据科学技术和方法:

分类技术

在分类问题中,数据科学家要回答的首要问题是:“这些数据属于什么类别?”将数据分类的原因很多。也许数据是手绘的图像,人们需要知道图像代表什么字母或数字。或者代表贷款申请的数据,想知道它应该属于“已批准”还是“已拒绝”类别。其他分类可以集中在确定患者治疗方案或电子邮件是否是垃圾邮件。

数据科学家用来将数据过滤到类别中的算法和方法包括:

•决策树。这些是分支逻辑结构,使用机器生成的参数和数值树将数据分类为已定义的类别。

•贝叶斯分类器。利用概率的力量,贝叶斯分类器可以帮助将数据分为简单的类别。

•支持向量机(SVM)。支持向量机的目标是绘制一条宽边距的曲线或平面,将数据分成不同的类别。

•K-近邻算法。该技术使用一种简单的“惰性决策”方法,根据数据集中最邻近的类别来确定数据点应该属于哪个类别。

•逻辑回归。尽管使用了分类技术,但它使用将数据拟合到一条线的想法来区分每一边的不同类别。这条线的形状使数据可以移至某个类别。

神经网络。这种方法使用训练有素的人工神经网络,尤其是具有多个隐藏层的深度学习网络。神经网络已经显示出强大的分类能力,其中包含大量的训练数据。

回归技术

如果不知道数据属于哪一类,而是想知道不同数据点之间的关系该怎么办?回归的主要思想是回答以下问题:“这个数据的预测值是多少?”一个简单的概念来自“均值回归”的统计概念,它可以是一个独立变量和一个因变量之间的直接回归,也可以是一个试图找到多个变量之间关系的多维回归。

例如决策树支持向量机(SVM)和神经网络一些分类技术,也可以用来进行回归。此外,数据科学家可以使用的回归技术包括:

•线性回归。作为数据科学中应用最广泛的方法之一,这种方法试图根据两个变量之间的相关性找到最适合所分析数据的曲线。

•套索回归。Lasso(套索)是“最小绝对收缩和选择算符”的缩写,是一种通过在最终模型中使用数据子集来提高线性回归模型预测准确性的技术。

•多元回归。这涉及寻找适合可能包含多个变量的多维数据的线或平面的不同方法。

聚类和关联分析技术

另一组数据科学技术侧重于回答这样一个问题:“这些数据是如何分组的,不同的数据点属于哪些组?”数据科学家可以发现相关数据点的聚类,这些数据点具有共同的各种特征,从而在分析应用程序中产生有用的信息。

可用于聚类用途的方法包括:

•K-均值聚类。K-均值算法确定数据集中的一定数量的聚类,并找到“质心”,以标识不同聚类的位置,并将数据点分配给最接近的聚类。

•均值漂移聚类。另一种基于质心的聚类技术,它可以单独使用,也可以通过移动指定的质心来改进k-均值聚类。

•DBSCAN。DBSCAN是“基于密度的带噪空间聚类算法DBSCAN”的缩写,是另一种发现聚类的技术,它使用一种更高级的方法来识别聚类的密度。

•高斯混合模型。高斯混合模型通过使用高斯分布将数据分组在一起而不是将数据视为奇点来帮助找到聚类。

•分层聚类。与决策树类似,这种技术使用层次化的分支方法来查找聚类。

关联分析是一种相关但独立的技术。其背后的主要思想是找到描述不同数据点之间公共性的关联规则。与聚类类似,人们正在寻找数据所属的组。但是在这种情况下,试图确定何时数据点一起出现,而不是仅仅识别它们的集群。在聚类中,其目标是将大数据集划分为可识别的组,而通过关联分析,人们正在测量数据点之间的关联程度。

数据科学应用实例

数据科学工具带中的上述方法和技术需要适当地应用于特定的分析问题以及可用于解决这些问题的数据。优秀的数据科学家必须能够理解当前问题的本质——是聚类、分类还是回归?以及在给定数据特征的情况下可以产生所需答案的最佳算法。这就是数据科学实际上是一个科学过程而不是具有严格规则的过程,并允许通过编程解决问题的原因。

使用这些技术,数据科学家可以处理广泛的应用程序,其中许多应用程序通常出现在不同类型的行业和组织中。以下是一些例子:

·异常检测。如果可以找到预期或正常数据的模式,那么也可以找到那些不符合模式的数据点。金融服务、医疗保健、零售和制造业等行业组织经常采用各种数据科学方法来识别其数据中的异常情况,以用于欺诈检测、客户分析、网络安全和IT系统监控。异常检测还可以用来消除数据集中的异常值,以提高分析的准确性。

·二分类和多分类。分类技术的一个主要应用是确定某物是否属于某一特定类别。这就是所谓的二分类,因为人们可能会问诸如“图片中是否有猫?”之类的问题。实际的业务应用是使用图像识别在大量文件中识别合同或发票。在多类分类中,在数据集中有许多不同的类别,正在努力寻找最适合数据点的类别。例如,美国劳工统计局会对工伤进行自动分类。

·个性化。希望与客户进行个性化交互或向客户推荐产品和服务的组织首先需要将数据分组到具有共享特征的数据桶中。有效的数据科学工作可以使用推荐引擎和超个性化系统等技术,根据个人的具体需求和喜好量身来定制网站,推销产品及更多内容,这些技术是通过匹配人员详细资料中的数据来驱动的。

这只是数据科学应用程序的一些示例。通过采用数据分析的各种工具和方法,数据科学家可以帮助使用它们的组织获得战略和竞争优势。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98736
  • 决策树
    +关注

    关注

    2

    文章

    96

    浏览量

    13345
收藏 人收藏

    评论

    相关推荐

    量子梦

    可以模拟原子和分子之间的相互作用,帮助科学家设计新材料、药物,甚至加速新材料的发现过程。这将有助于推动科学研究的进展,加快新技术的开发。 总的来说,量子计算机的梦想是通过利用量子力学的奇特性质,解决传
    发表于 03-13 18:18

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 198次阅读

    飞腾首席科学家窦强荣获 “国家卓越工程师” 称号

    “国家卓越工程师团队” 称号。中国电子信息产业集团首席科学家、科技委副主任,飞腾信息技术有限公司首席科学家窦强博士凭借其在飞腾系列国产自主核心芯片科研攻关方面取得的卓越成就,荣获 “国家卓越工程师” 称号。 窦强博士作为飞腾系
    的头像 发表于 01-19 19:22 1074次阅读
    飞腾首席<b class='flag-5'>科学家</b>窦强荣获 “国家卓越工程师” 称号

    中国联通研究院副院长、首席科学家唐雄燕一行莅临中科驭数交流合作

    12月7日,中国联通研究院副院长、首席科学家唐雄燕莅临中科驭数参观调研, 中国联通研究院未来研究部总监曹畅、高级专家杨文聪陪同考察, 与中科驭数创始人、CEO鄢贵海以及公司管理团队就D
    的头像 发表于 12-08 18:40 303次阅读
    中国联通<b class='flag-5'>研究</b>院副院长、首席<b class='flag-5'>科学家</b>唐雄燕一行莅临中科驭数交流合作

    电导率分析仪在环境科学中的应用

    电导率分析仪是一种重要的实验室设备,常应用于环境科学领域。它能够测量溶液中可移动离子导电的能力,为环境科学家提供有关物质浓度的关键信息。 在环境科学研究中,电导率
    的头像 发表于 11-09 10:22 254次阅读
    电导率<b class='flag-5'>分析</b>仪在环境<b class='flag-5'>科学</b>中的应用

    中国科学家成功研制“九章三号” 255个光子的量子计算原型机

           中国科学家再立新功,中国科学技术大学潘建伟、陆朝阳、刘乃乐等组成的研究团队与中国科学院上海微系统与信息技术研究所、国家并行计算
    的头像 发表于 10-11 17:06 946次阅读

    NVIDIA 首席科学家 Bill Dally 将在 Hot Chips 大会发表主题演讲

    这位著名计算机科学家将分享来自 NVIDIA Research 最新研究成果,这些研究正在推动加速计算和 AI 的进步。 Bill Dally 是全球最知名的计算机科学家之一,也是 N
    的头像 发表于 08-22 19:20 385次阅读

    华为辟谣3.2万名科学家移籍

    华为辟谣3.2万名科学家移籍 对于近期网络传言的华为3.2万名科学家移籍华为方面表示,造谣者毫无根据、无中生有。 华为辟谣3.2万名科学家移籍以及其他的一些网络传言,比如“华为孟晚舟宣布23万亿
    的头像 发表于 08-22 16:51 1001次阅读
    华为辟谣3.2万名<b class='flag-5'>科学家</b>移籍

    科学家呼吁开展气候合作

    三位研究人员介绍了建立地球数字孪生的计划,该计划旨在帮助人们了解全球变暖的影响并做出应对。 三位顶尖科学家正在帮助带领计算史上最雄心勃勃的项目之一:打造地球的 数字孪生 。 Peter Bauer
    的头像 发表于 07-06 20:10 290次阅读
    <b class='flag-5'>科学家</b>呼吁开展气候合作

    微软亚洲研究院否认撤离中国,但确认部分 AI 科学家将迁至温哥华

    6 月 19 日消息,针对有消息称微软公司旗下研究机构 微软亚洲研究院(MSRA)的 AI 顶级科学家从中国转移到温哥华,6 月 19 日上午,微软亚洲研究院向钛媒体回应表示,微软将在
    的头像 发表于 06-20 08:48 547次阅读

    踏歌智行创始人、首席科学家余贵珍教授登榜“2023科创家”

    “一群跨越了科学与商业边界的人”这是科创媒体36氪对科创企业家的定义。近日, 踏歌智行创始人、首席科学家余贵珍教授从全赛道中脱颖而出, 登榜首届“2023科创家”榜单。此次共有15位教授荣登榜单
    的头像 发表于 06-16 19:15 2361次阅读
    踏歌智行创始人、首席<b class='flag-5'>科学家</b>余贵珍教授登榜“2023科创家”

    “第二十一届中国科学家论坛”圆满落幕,科兰(Clan)斩获两项荣誉大奖

    2023年4月27日,第二十一届中国科学家论坛暨第六届中国企业首席科学家论坛在首都北京圆满落下帷幕。各领域专家学者及科技界、企业界、媒体界领域代表通过为期两天的深入交流、行业研讨和成果分享,再掀行业
    的头像 发表于 05-05 10:09 359次阅读

    聚众之谋 如此“科兰” 如此精彩——科兰通讯参加第二十一届中国科学家论坛

    “汇奇智、展品牌、促发展”。4月27日,科兰通讯技术(北京)有限公司受邀出席第二十一届中国科学家论坛,Clan销售副总蒋燕作为重量级嘉宾和现代通讯行业的优秀企业代表围绕“后疫情时代科技赋能,与产业
    的头像 发表于 05-04 11:31 1253次阅读
    聚众之谋 如此“科兰” 如此精彩——科兰通讯参加第二十一届中国<b class='flag-5'>科学家</b>论坛

    科学家用银线团搭建「纳米线网络」,触电就像大脑一样运作

    这也是如今不少AI科学家们梦寐以求的特性。最近,来自悉尼大学和日本国家材料科学研究所的科学家们在自然通讯上发表论文,试着通过使用纳米线网络(NWN)来模拟人类大脑在受到电激时的反应,实验效果还不错。
    的头像 发表于 05-04 09:30 432次阅读
    <b class='flag-5'>科学家</b>用银线团搭建「纳米线网络」,触电就像大脑一样运作

    获双项荣誉:中科智云受邀出席第二十一届中国科学家论坛

    上海2023年5月1日 /美通社/ -- 第二十一届中国科学家论坛于2023年4月27-28日在北京正式召开。本届论坛以"中国式现代化与科学技术体系化创新"为主题,来自全国各地的科学家、院士、教授
    的头像 发表于 05-02 21:38 483次阅读