0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据行业必须掌握的25个大数据术语

电子设计 2018-08-30 19:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

提到大数据可能有些令人生畏。在了解一定基本概念的基础上,掌握其中一些关键术语也是至关重要的。

本文列出了 25 个必须掌握的大数据术语。

算法(Algorithm)

指用于执行数据分析的数学公式或统计过程。那么算法与大数据有什么关系呢?虽然算法是一个通用术语,但大数据分析使得这个词变得更具时代性,更受欢迎。

分析(Analytics)

你的信用卡公司会将附有你全年交易情况的年终报表寄给你。如果具体看在食物,衣服,娱乐等方面花了多少钱呢?那么你就在进行“分析”。你正在从原始数据中获得一些见解,这可以帮助你决定来年的支出。

如果你对朋友、网络或者自己的公司发的推文以及 facebook 帖子进行同样的操作,那我们现在就涉及的就是大数据分析了。它是通过使用大量数据进行推论并得出结论。共有三种不同类型的分析。

1. 描述性分析(Descriptive Analytics)

如果你告诉我,去年你的信用卡消费中 25% 用于食物,35% 用于服装,20% 用于娱乐活动,其他的用于杂物,这就是描述性的分析。当然,你也可以进行更详细的了解。

2. 预测分析(Predictive Analytics)

如果你分析了过去5年的信用卡记录,发现当中有一定的一致性,那么你可以较有把握地预测,明年的情况将与过去几年类似。值得注意的是,这并不是“预测未来”,而是“预测事情发生的可能性”。在大数据预测分析中,数据科学家会使用数据挖掘,机器学习和高级统计过程等先进技术,进行天气,经济等方面的预测。

3.规范分析(Prescriptive Analytics)

还是用信用卡的例子,你可能会想知道哪些消费目标(例如食品、娱乐、服装等)会对你的整体消费产生巨大的影响。规范分析通过包括“行为”(即减少购买食物、衣服或娱乐)和对结果进行分析,从而预测规范相应目标,从而减少你的总开销。将此扩展到大数据,你可以想象管理人员如何通过研究各种行为影响,从而做出数据驱动的决策。

批量处理(Batch processing)

尽管从大型计算机时代开始,批量处理就已经出现了。由于处理大型数据集,批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。稍后我将介绍的 Hadoop 就是专注于批量数据处理。

Cassandra

是由 Apache 软件基金会管理的一个流行的开源数据库管理系统。Apache 属于大数据技术,Cassandra 旨在处理跨分布式服务器的大量数据。

云计算(Cloud computing)

云计算已经变得无所不在,所以在这里仅处于完整性的考虑将其归纳在内。它本质上是在远程服务器上托管和运行的软件及数据,并可从互联网的任何地方进行访问。

集群计算(Cluster computing)

这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话,就会涉及到节点,集群管理层,负载平衡和并行处理等概念。

暗数据(Dark Data)

基本上指的是,由企业收集和处理的,但并不用于任何意义性目的的数据,因此它是“暗”的,可能永远不会被分析。它可以是社交网络反馈,呼叫中心日志,会议笔记等等。有很多人估计,所有企业数据中的 60-90% 可能是“暗数据”,但谁又真正知道呢?

数据湖(Data lake)

当第一次听到这个概念,我还以为是在开玩笑。但这真是一个术语。数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库,它在概念上是相似的,也是企业级数据的存储库,但在清理、与其他集成之后是以结构化格式。数据仓库通常用于常规数据(但不是专有的)。数据湖使得访问企业级数据更加容易,你需要明确你要寻找什么,以及如何处理它并明智地试用它。

数据挖掘(Data mining)

数据挖掘是通过使用复杂的模式识别技术,从而找到有意义的模式,并得出大量数据的见解。这与我们之前讨论的“数据分析”术语密切相关,因为你将通过挖掘数据进行分析。为了获得有意义的模式,数据挖掘者使用统计,机器学习算法和人工智能

数据科学家(Data Scientist)

一个热门的职业。指的是通过提取原始数据,对其进行处理,并提出自己的见解的人。数据科学家需要具备超人般的技能:分析,统计,计算机科学,创造力,故事讲述和理解环境的能力。难怪他们薪水这么高。

分布式文件系统(Distributed File System)

由于大数据太大而无法存储在单个系统上,分布式文件系统是一种数据存储系统用于存储跨多个存储设备的大量数据,并有助于降低存储大量数据的成本和复杂性。

ETL

ETL 指的是提取,转换和加载。具体指的是“提取”原始数据的过程,通过清理、丰富数据将其“转换”成适合使用的,并“加载”到适当的存储库中以供系统使用。虽然它源于数据仓库,但ETL过程也被用来从大数据系统的外部资源中获取和吸收数据。

Hadoop

当想到大数据时,人们立即会想到 Hadoop 。Hadoop(具有可爱的大象标志)是一个开源软件框架,由所谓的 Hadoop 分布式文件系统(HDFS)组成,并允许使用分布式硬件对非常大的数据集进行存储,检索和分析。如果你真的想给别人留下深刻的印象,还可以谈谈 YARN,顾名思义,这是一种资源调度程序。取名字的人真太有才了。Apache 基金会还推出了 Hadoop,Pig,Hive 以及 Spark(是的,这些都是各种软件的名称)。真是服了这些名字。


内存计算(In-memory computing)

一般来说,任何可以在不访问 I / O 的情况下完成的计算都是很快的。内存计算是一种将工作数据集完全放在集群的集体内存中,避免将中间计算写入磁盘的技术。Apache Spark 是一个内存计算系统,它在速度超过 I / O 绑定系统(如 Hadoop 的MapReduce)方面拥有巨大的优势。

物联网(IoT)

最新的流行语是物联网(IOT)。IOT 通过互联网将嵌入式对象(传感器,可穿戴设备,汽车,冰箱等)中的计算设备进行互连,并且能够发送以及接收数据。IOT 生成大量数据,提供了大量大数据分析的机会。

机器学习(Machine learning)

机器学习是指通过提供的数据,使系统能够学习,调整和改进。通过预测和统计算法,他们不断学习“正确”的行为和洞察力,随着更多的数据流通过该系统,得以不断地改进。

MapReduce

MapReduce 可能会有点难懂。MapReduce 是一个编程模型,为了更好的理解,需注意 Map 和 Reduce 其实是两个独立的部分。在这种情况下,编程模型首先将大数据数据集分解成多个部分(在技术术语中称为“元组”),因此可以分布在不同位置的不同计算机上(即前面所述的集群计算),这基本上就是 Map 部分。然后,该模型收集结果并将其“减少”为一个报告。MapReduce 的数据处理模式与Hadoop 的分布式文件系统紧密相关。

NoSQL

听起来像是 SQL (结构化查询语言)的反面,SQL 是传统关系数据库管理系统(RDBMS)的主要内容。但 NOSQL 实际上意味着不仅仅是 SQL (Not ONLY SQL)。NoSQL 实际上是指的是用于处理大量数据的数据库管理系统,它们不具有结构,或被称为“架构”(类似关系数据库)。NoSQL 数据库通常适合大型数据系统,因为它们具有大型非结构化数据库所需的灵活性和分布式的优先体系结构。

R

R 是一种编程语言,在统计计算方面很出色。如果你不知道 R,你就称不上是数据科学家。R 是数据科学中最受欢迎的语言之一。

Spark(Apache Spark)

Apache Spark 是一种快速的内存数据处理引擎,用于高效执行流,机器学习或需要快速迭代访问数据集的 SQL 工作负载。Spark 通常比我们前面提及的 MapReduce 快很多。

流处理(Stream processing)

流处理旨在对有“连续”要求的实时和流数据进行处理。结合流分析,即在流内不间断地计算数学或统计分析的能力。流处理解决方案旨在对高流量进行实时处理。

结构化 v 非结构化数据(Structured v Unstructured Data)

这是大数据中的“V”之一,即多样性。结构化数据基本上指任何可以放在关系数据库中,并以该方式组织起来,通过表与其他数据相关。非结构化数据则反之,如无法发电子邮件,发社交媒体帖子和录制的人类语音等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    黑M-狂野大数据5期|网盘无密Mp4+大数据直播课-狂野大数据

    科技重构数据生产力:狂野大数据直播实战全解析 随着数字化时代的快速发展,大数据已经渗透到我们生活的方方面面。无论是商业、教育,还是医疗、政府服务,大数据的应用都在不断创造新的价值。而在
    的头像 发表于 04-06 11:13 206次阅读

    轻松入门大数据 一站式完成核心能力构建 | 更新完结

    一站式掌握大数据查询优化实战技巧 在大数据时代,数据量从GB级跃升至TB级甚至PB级,查询性能成为数据平台的核心竞争力。一
    的头像 发表于 03-23 14:05 397次阅读

    狂野大数据(六期)课程- 资源分享

      狂野大数据6期   如果用一词来形容当下大数据领域的变革,我会选择“权力的转移”。过去,数据世界的权力掌握在少数“炼金术士”手中——那
    的头像 发表于 03-11 13:31 323次阅读

    大数据解决方案如何实施

    大数据解决方案实施的难点在于以下几点:  1.很少有优质可用的数据  在数聚股份看来,这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有数据
    的头像 发表于 12-25 18:22 1147次阅读

    最受欢迎的大数据可视化工具

     在数聚股份看来,大数据可视化是进行各种大数据分析的最重要组成部分之一。 一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了。 为了满足并超越客户的期望,大数据可视化工具应该具
    的头像 发表于 12-24 17:05 383次阅读
    最受欢迎的<b class='flag-5'>大数据</b>可视化工具

    大数据平台运营的基础是什么

    在数聚股份看来,越来越多的企业开始搭建自己的大数据平台体系,并倾注大量资源用于平台的迭代和运营。那么大数据平台作为越来越被关注的企业新兴价值点,它应该以何种方式看待,并且以什么样的方式去建设和运营
    的头像 发表于 12-23 16:07 355次阅读

    湖北大数据集团到访维智科技参观交流

    近日,湖北大数据集团有限公司党委书记、董事长汪小波率队到访维智科技。双方围绕时空数据融合、公共数据授权运营及行业应用场景开发等议题展开深入探讨。
    的头像 发表于 11-03 10:02 775次阅读

    东软集团领跑中国医疗大数据解决方案市场

    近日,国际数据公司(IDC)权威发布《中国医疗大数据解决方案市场份额,2024:全域数据支撑》(Doc#CHC53739825,2025年9月)报告。报告显示,在中国医疗大数据解决方案
    的头像 发表于 10-30 17:09 828次阅读

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等领域。其核心价值在于降低
    的头像 发表于 10-30 11:29 321次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 799次阅读

    维智科技亮相2025中国国际大数据产业博览会

    近日,全球大数据领域瞩目的盛会——2025中国国际大数据产业博览会隆重开幕。作为华为重要生态合作伙伴,维智科技作为时空人工智能与城市数字化领域的领先企业,受邀参加展览展示。
    的头像 发表于 09-04 18:03 1582次阅读

    在EZ串行的BLE“无响应写入”中, CAN一次通信中接收的最大数据包大小是多少?

    :所有数据都显示在与 ez-Serial 和 PUART 连接的 TeraTerm 上 [问题] (1)在 EZ 串行的 BLE“无响应写入”中, CAN 一次通信中接收的最大数据包大小是多少? (2
    发表于 07-07 07:33

    更改最大数据包大小时无法识别USB设备如何解决?

    将生产者 EP 端点描述符中的最大数据包大小从 1024 字节更改为 512 字节时,无法识别 USB 设备。 请告知如何解决这个问题。
    发表于 05-20 08:13

    深开鸿成为中国物流与采购联合会大数据分会“副会长单位”

    近日,深开鸿与中国物流与采购联合会规划院、中国物流与采购联合会大数据分会在北京举行合作会谈。双方围绕数据资产入表、物流规划和行业发展等相关内容进行了沟通,并达成多项合作共识。会上,李锦莹会长代表中国
    的头像 发表于 05-19 19:06 888次阅读
    深开鸿成为中国物流与采购联合会<b class='flag-5'>大数据</b>分会“副会长单位”

    接地电阻柜与云计算、大数据关系紧密

    为配合实现大数据必须筹建更多的云计算数据中心,用到很多的发电机组,如何更好的保护这些发电机组,是急需解决的一大难题。国际上广泛采用中性点经电阻接地,即在中性点和接地相中间安装接地电阻柜
    的头像 发表于 05-07 06:30 665次阅读
    接地电阻柜与云计算、<b class='flag-5'>大数据</b>关系紧密