资料介绍
每天数十亿字节的数据收集下,了解大数据的复杂内涵非常重要。为了帮助你了解这一领域,我们从最近的大数据指南中编辑了一个列表,列出了最重要的相关术语和定义。
你认为我们还应该添加哪些术语?请在评论中告诉我们。
A
算法:给予AI、神经网络或其他机器的一组规则,以帮助其自己学习;分类、聚类、推荐和回归是四种最常用的算法类型。
Apache Flink:一个开源的流数据处理框架。用Java和Scala编写,用作分布式流数据流引擎。
Apache Hadoop:开源工具,使用MapReduce处理和存储跨机器的大型分布式数据集。
Apache Kafka:一种分布式流式传输平台,通过提高吞吐量、内置分区、复制、延迟和可靠性来改进传统的消息代理。
Apache NiFi:一种开源Java服务器,可以以可扩展、可插拔、开放的方式实现系统间数据流的自动化。NiFi由国家安全局(NSA)开源。
Apache Spark:在Apache Hadoop、Mesos或云端运行的开源大数据处理引擎。
B
大数据:大量数据的通用术语。大数据的数据具有高速、多样化、海量的特征。
Blob存储:一种Azure服务,将非结构化数据存储在云中作为blob或对象。
商业智能:可视化和分析商业数据的过程,以便采取可行且明智的决策。
C
集群:共享特定特征的数据子集,也指几台机器共同解决同一问题。
约束应用协议(COAP):有限资源设备的一种互联网应用协议,可以转换成HTTP。
D
数据工程:收集、存储、处理数据,以便数据科学家查询。
数据流管理:采集原始设备数据的专门过程,同时管理成千上万生产者和消费者的流量。然后执行基本数据丰富、流分析、聚合、拆分、模式转换、格式转换等初级步骤,为进一步业务处理做数据准备。
数据治理:管理数据湖中数据的可获得性、可使用性、完整性和安全性的过程。
数据整合:组合不同来源数据并为用户提供统一视图的过程。
数据湖:一种以原始格式保存原始数据的存储库。
数据挖掘:通过检查和分析大型数据库来生成新信息的做法。
数据实现:将变量严格定义为可衡量因素的过程。
数据准备:收集、清理、整合数据到一个文件或数据表中,主要用于分析。
数据处理:机器检索、变换、分析或分类信息的过程。
数据科学:探索可重复的流程和方法,从而从数据中获取知识的领域。
数据沼泽:没有适当治理的数据湖就会变成数据沼泽。
数据验证:检查数据集以确保所有数据在处理之前是整洁、正确和有用的。
数据仓库:各种来源的大量数据,用于帮助公司做出明智的决策。
设备层:依据所处的环境和性能特征,来发送数据流的传感器、执行器、智能手机、网关和工业设备的整个范围。
G
GPU加速数据库:摄取流数据所需的数据库。
图形分析:组合和可视化一组数据中不同数据点之间的关系的方法。
H
Hadoop:用于处理和存储大数据的编程框架,特别是在分布式计算环境中。
I
摄取:从任意数量不同的来源中摄取流数据。
M
MapReduce:一种数据处理模型,在Map阶段过滤和排序数据,然后对该数据执行功能并在Reduce阶段输出。
Munging:将数据从原始格式手动转换或映射到便于使用的格式。
N
正态分布:代表大量随机变量概率的常用图,随着数据集变大,这些变量接近正态。也称为高斯分布或钟形曲线。
规范化:将数据组织到表中的过程,使得数据库的使用结果始终是明确且按计划进行的。
P
解析:将数据(如字符串)分割成更小的部分进行分析。
持久存储:创建数据进程结束后,保存数据在一个不变地点(如磁盘)。
Python:一种强调代码可读性的通用编程语言,以便程序员使用较少的代码来表达概念。
R
R:一种主要用于数据可视化和预测分析的开源语言。
实时流处理:通过并行使用机器分析数据序列的模型,但功能有所减少。
关系数据库管理系统(RDBMS):一种基于共享属性(称为关系)分组的管理、捕获和分析数据的系统。
弹性分布式数据集:Apache Spark提取数据的主要方式,数据以一种可容错方式存储在多台机器上。
S
碎片:数据库的单独分区。
智能数据:一种格式化的数码信息,可以在发送到下游分析平台进行进一步数据整合和分析之前在采集点进行操作。
流处理:数据的实时处理。数据被连续、并发和记录处理。
结构化数据:具有高度组织的信息。
T
分类:根据预先确定的系统对数据进行分类,结果目录用于提供易于访问和检索的概念框架。
遥测:远程采集有关对象的信息(例如从汽车、智能手机、医疗设备或物联网设备)。
转换:将数据从一种格式转换为另一种格式。
U
非结构化数据:不具有预定义数据模型或未以预定义方式组织的数据。
V
可视化:分析数据并以可读、图形格式(如图表)进行表达的过程。
Z
区域:数据湖中的特定区域,服务于特定目的。
- Python语言在AI、大数据方面的重要性 25次下载
- 车联网背景下大数据收集安全机制研究 10次下载
- 大数据产业链构成分析 20次下载
- 大数据在物流行业的应用 19次下载
- 大数据分解-融合研究综述 8次下载
- 车联网场景下汽车大数据应用模式综述 13次下载
- 人脸识别技术流程一览资料下载 16次下载
- 教育大数据可视化分析研究的综合分析 108次下载
- 医疗大数据面临的挑战及相应的隐私保护技术 16次下载
- 大数据时代有什么样的利与弊 11次下载
- 大数据有什么样的特点 17次下载
- 水文大数据标准化方法和水文大数据共享平台关键技术的设计和资料概述 12次下载
- 大数据的基础起源发展和处理流程应用及面临的挑战和展望 12次下载
- 大数据与推荐系统 18次下载
- Mentor术语大全 0次下载
- 大数据技术是干嘛的 大数据核心技术有哪些 536次阅读
- 如何定义大数据,大数据的特点及主流平台 883次阅读
- 云计算、大数据与物联网有什么联系呢? 8021次阅读
- 什么才是真正的大数据 关于大数据的几个特性 2615次阅读
- 互联网大数据和物联网大数据到底有什么不同之处 5770次阅读
- 大数据真的是万能的吗?人工智能和大数据的忧患是什么 1774次阅读
- 大数据是什么_大数据技术和应用的现状与前景 2.3w次阅读
- java工程师有必要转做大数据吗大数据学习路线你了解吗 7360次阅读
- 什么是大数据分析?大数据分析的含义与目前形式 1.5w次阅读
- 解读大数据的定义及运行与分析 2530次阅读
- 25个基本大数据术语,帮助你温故知新 2951次阅读
- 物联网是大数据的重要来源,大数据助力物联网 1.1w次阅读
- 国内有哪些大数据公司_最新中国大数据公司排名 5.1w次阅读
- 最新大数据概念股龙头_大数据概念龙头股有哪些 4.2w次阅读
- 医疗大数据分析深入浅出 9111次阅读
下载排行
本周
- 1东芝BiCD集成电路硅单片TB67S109AFNAG数据手册
- 1.93 MB | 5次下载 | 免费
- 2SP3060A/30120A/30160A/30320A/30520A系列数字合成扫频仪使用说明书
- 4.16 MB | 3次下载 | 1 积分
- 3具有双通道 DC-DC转换器、由串行接口控制的9通道电机驱动器TPIC2010数据表
- 1.15MB | 2次下载 | 免费
- 4USB Type-C PD快充协议智能触发芯片FS312B数据手册
- 0.75 MB | 1次下载 | 免费
- 5USB Type_C PD快充协议智能触发芯片FS8025B数据手册
- 1.29 MB | 1次下载 | 免费
- 6触摸按键PCB 设计要点V01
- 1.42 MB | 1次下载 | 免费
- 75V升压充电两串锂电池充电管理IC FS4058数据手册
- 2.98 MB | 次下载 | 免费
- 8真关断同步升压IC FS2009数据手册
- 2.08 MB | 次下载 | 免费
本月
- 1DCDC原理详解
- 0.98 MB | 63次下载 | 免费
- 2allegro快速入门教程
- 1.98 MB | 36次下载 | 免费
- 3FU-7(807)胆机原理图
- 11.93 MB | 25次下载 | 1 积分
- 4用于汽车应用的高压电源管理IC TPS65311-Q1数据表
- 1.05MB | 22次下载 | 免费
- 5电子元件基础知识介绍
- 8.76 MB | 13次下载 | 2 积分
- 6华为海思Ascend 310芯片的资料说明
- 0.12 MB | 10次下载 | 10 积分
- 7GD32F10x系列MCU用户手册
- 11.5MB | 9次下载 | 免费
- 86A 输出电流同步降压稳压器TPS65286数据表
- 2.05MB | 6次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935083次下载 | 免费
- 2开源硬件-PMP21529.1-4 开关降压/升压双向直流/直流转换器 PCB layout 设计
- 1.48MB | 420045次下载 | 免费
- 3Altium DXP2002下载入口
- 未知 | 233067次下载 | 免费
- 4电路仿真软件multisim 10.0免费下载
- 340992 | 191308次下载 | 免费
- 5十天学会AVR单片机与C语言视频教程 下载
- 158M | 183308次下载 | 免费
- 6labview8.5下载
- 未知 | 81567次下载 | 免费
- 7Keil工具MDK-Arm免费下载
- 0.02 MB | 73785次下载 | 免费
- 8NI LabVIEW中实现3D视觉的工具和技术
- 未知 | 70088次下载 | 免费
评论
查看更多