0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是大数据采集和预处理

汽车电子技术 来源:码农与软件时代 作者: 码农与软件时代 2023-02-15 14:22 次阅读

大数据导论

理顺大数据的演进路线

数据湖是个啥?

一般情况下,大数据处理的流程为:数据采集和预处理、数据存储、数据分析和数据可视化。

数据采集与预处理便是大数据流程的第一步。

首先来看, 数据是如何产生的

(1)为满足企业业务目标的达成,企业通常会建设IT系统,IT系统承载企业业务处理的同时,必然会产生交易记录、付款记录等等,这些都会保存在数据库中;

(2)为了更好地预测消费者的需求,购物网站通常也会记录消费者的网页浏览时长、点赞、收藏、购买喜好等,这些都会记录在日志文件中;

(3)为了满足消费者获取信息的便捷性,各大门户网站、短视频网站等都提供了大量的Web网页供用户浏览,Web网页中呈现大量的文本、音视频等;

那么,这些数据产生后,都 以什么形式存在

(1)以文件的形式存在,如csv文件、图像文件、视频文件、日志文件;

(2)以数据库的形式存在,如关系型数据库MySql\\oracle、非关系型数据库MongoDB;

(3)以Web网页的形式存在,如新浪、搜狐、知乎等;

(4)以实时数据的形式存在,如物联网络中各种传感器监测到的数据;

这样,具象化的数据采集就变成从数据库、Web网页、文件、物联传感器等地方获取。因数据存在形式的差异,采用的获取方法也不尽相同:

(1)文件、Web网页的抓取,通常采用直接编程的方式获取,如网页爬虫;

(2)实时消息的获取,则采用相应的协议,如MQTT、Coap、HTTPS;

(3)对数据库数据的获取,则更多采用SQL的形式提取出来;

获取的数据,还存在什么问题

获取的原生数据,可能会存在数据缺失、数据重复、数据类型和值都不对等问题,需要对数据进行加工处理,这一过程被称为“数据清洗”;

如果数据源是多个,并且要装入到同一数据仓库时,则需要进行“数据集成”;

数据集成后,往往需要更高粒度的抽象,擦除一些细节数据,如原有按交易时间记录的数据,现在需要按天进行统计,此时需要进行聚类处理,称之为“数据转换”;

同时,注意到大数据可能涉及到隐私问题,也需要去除隐私数据,这一过程称为“数据脱敏”;

而数据清洗、数据集成、数据转换、数据脱敏这一系列的过程,称为 数据预处理

经过预处理后的数据放在哪?

可以将其放入数据仓库中,如Hive\\HDFS;

也可以将其放入数据湖中,不但可以存储原始数据,也可以存储结构化、半结构化、非结构 化的数据,并且还能支撑数据的分析。具体可参考《数据湖是个啥?》

数据的采集与处理是繁琐的,也是有迹可循的,聪明的研究人员实现了一系列 工具或框架

(1)网页爬虫系统:Apache Nutch、Crawler4j、Scrapy;

(2)日志收集工具:Flume、Logstash、Filebeat、Fluentd;

(3)多源异构数据采集工具:Sqoop、Datax。

同时,也形成大数据采集的方法论,如ETL。

ETL也就是Extract-Transform-Load,对应为提取-转换-加载,充当了数据源与数据仓库之间的数据流转管道。其基本思想是:从日志、数据库、Web页面中提取数据,并数据进行转换,按照预先规划的Schema,将数据加载到数据仓库中去。

Kettle(水壶)、Sqoop(SQL-to-Hadoop)、DataX是ETL工具的代表。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据采集
    +关注

    关注

    38

    文章

    4523

    浏览量

    112313
  • 数据存储
    +关注

    关注

    5

    文章

    895

    浏览量

    50584
  • 大数据
    +关注

    关注

    64

    文章

    8649

    浏览量

    136589
收藏 人收藏

    评论

    相关推荐

    云计算与大数据_8.1数据采集概述#硬声创作季

    数据采集大数据
    Hello,World!
    发布于 :2022年10月26日 20:02:09

    云计算与大数据_8.4定向数据采集#硬声创作季

    数据采集大数据
    Hello,World!
    发布于 :2022年10月26日 20:03:06

    基于串行通信的虚拟仪器数据采集

    A/D转换和预处理,通过RS-232串行口与主机进行信息传送,插拔方便。主机通过数据处理软件对数据进行处理和分析。用户可以通过主机的软件界面对单片机(从机)进行控制,使之能按照不同的要
    发表于 03-09 15:52

    数据采集数据处理

    数据采集数据处理方面的资料,应该有用
    发表于 05-07 09:07

    多路数据采集系统

    多路数据采集系统:1,8通道的外部信号经过放大或衰减后进行采集2,将预处理后的数据通过USB2.0全速接口传送到上位机3,上位机利用LABVIEW对获取的
    发表于 04-25 13:55

    高速数据触发采集预处理

    各位大侠,本人在做数据采集处理时碰到了如下问题:使用NI的采集卡,每次触发采集500个数据点,外触发信号频率为200KHz,并对100次触
    发表于 08-11 23:42

    一种基于FPGA和DSP的高速数据采集设计方案介绍

    的信号处理任务越来越繁重,对数据采集处理系统的要求也越来越高。特别是在移动通信领域,基站和手机的物理信道处理都是实时信号处理。实时信号
    发表于 07-05 06:41

    视频大数据采集怎么选服务器?

    也就比较小。而香港机房的服务器硬件配置是比较可靠的,香港服务器选用准T4专业机房,采用全新高配置品牌硬件,支持多线程高频率的处理需求,对于跑数据采集程序是比较有帮助的。网络的要求数据采集就是一个
    发表于 07-19 09:38

    MPEG-4系统中基于FPGA实现数据采集预处理

    介绍了一种基于DSP 的MPEG-4 视频压缩系统中,利用FPGA 控制视频数据实时采集并对原始视频数据进行预处理的设计方案及实现,解决了原始视频
    发表于 08-26 08:57 14次下载

    基于FPGA的某型雷达视频采集预处理模块设计

    基于FPGA的某型雷达视频采集预处理模块设计
    发表于 08-30 15:10 34次下载

    大数据的核心有哪些?

    大数据技术的体系庞大且复杂,基础的技术包含数据采集数据预处理、分布式存储、NoSQL数据库、
    发表于 05-22 14:22 7637次阅读

    大数据技术及应用介绍1

    大数据技术体系发展至今,不断充实完善,与互联网、物联网、人工智能等其他信息通信技术融合交汇,现已较为成熟。围绕数据资源的全生命周期过程** ,大数据基础技术包含大数据采集技术、
    的头像 发表于 03-29 14:14 1181次阅读

    大数据技术有哪些 大数据前景

    大数据从字面意思来理解,就是海量数据的结合,从数据分析全流程的角度,大数据技术主要包括数据采集预处理
    的头像 发表于 04-14 17:45 3782次阅读

    每日一课 | 智慧灯杆之大数据预处理技术介绍

    2.大数据预处理技术大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。(1)抽取:因获取的
    的头像 发表于 04-07 14:38 426次阅读
    每日一课 | 智慧灯杆之<b class='flag-5'>大数据</b><b class='flag-5'>预处理</b>技术介绍

    每日一课 | 智慧灯杆之大数据采集技术简介

    大数据是一种从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。
    的头像 发表于 03-14 14:52 559次阅读
    每日一课 | 智慧灯杆之<b class='flag-5'>大数据采集</b>技术简介