0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据分析是如何进行数据采集?

如意 来源:DataFocus 作者:DataFocus 2020-07-05 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大数据的发展越来越贴近我们的生活,但是很多却依然不是很了解什么是大数据,大数据有什么作用。现在大数据不仅仅是网络资讯,技术论坛甚至新闻上都有它的身影。说明不仅仅是企业,连国家都在部署大数据战略,但是很多人却依然云里雾里不清楚这个到底是个啥?直到有一天发现,只要你无意中搜索过什么,那么网页、APP等都会跳出你搜索过得相关产品或者关联事物,淘宝推荐的商品也越来越符合你的心意。

其实大数据,就是算法!它可以“算”出你的“心意”。

那么问题来了,大数据技术是怎么样采集到信息的呢?

数据采集,又称数据获取,是通过一种设备,从系统外部采集到数据输入到系统内部的一种技术。

在如今互联网行业技术快速发展的今天,数据采集广泛应用于互联网及分布式领域,例如摄像头、麦克风等,都是数据采集的工具。数据采集系统还集合了信号传感器、激励器、信号调理、数据采集设备和软件应用。

现在是一个数据大爆炸的互联网时代,数据类型同样也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

大数据采集是大数据分析至关重要的的一个环节,也是大数据分析的入口。

我们首先来了解一下数据采集的三大要点:

(1)全面性:数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

(2)多维性:数据更重要的是能满足分析需求。

灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

(3)高效性:高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。

也就是说采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。

此外,还要考虑数据的及时性。不同应用领域的大数据其特点、数据量、用户群体均不相同,不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。

下面我们来了解一下常用的数据采集方法:

1.传感器采集方法

传感器通常用于测量物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。

2.网络爬虫采集方法

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOFA社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引模拟程序或者蠕虫。(百度百科)最常见的爬虫便是我们经常使用的搜索引擎,如百度,360搜索等。此类爬虫统称为通用型爬虫,对于所有的网页进行无条件采集。

3.系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

4.其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

数据分析数据的采集是挖掘数据“石油”的第一步,当数据量越来越大时,可发掘的有价值的信息也就更多,反应信息也就越加全面。只有更加充分的利用数据化处理平台,便可以保证分析结果的有效性和准确性,只有这样才能更加有效的助力企业实现驱动的数据化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据采集
    +关注

    关注

    42

    文章

    8405

    浏览量

    121385
  • 大数据
    +关注

    关注

    64

    文章

    9113

    浏览量

    144174
  • 大数据分析
    +关注

    关注

    1

    文章

    152

    浏览量

    18094
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    SCADA采集监控系统提供强大的数据分析与决策支持

    库与图形库 平台内置了算法库、图形库等,方便用户进行数据分析与可视化展示。这有助于企业深入挖掘数据价值,发现生产过程中的瓶颈和优化点。 2、完备的过程控制支持 本平台具备完善的过程控制分析能力,包括
    发表于 05-06 15:21

    解析AD7890:8通道12位串行数据采集系统

    解析AD7890:8通道12位串行数据采集系统 在电子设计领域,数据采集系统的性能对于整个系统的稳定性和准确性起着至关重要的作用。今天我们要深入探讨的是Analog Devices公司的AD7890
    的头像 发表于 03-30 10:40 477次阅读

    车载总线数据采集设备不会管理?TE Devices Launcher 演示# 软件开发# 数据采集# 设备

    数据采集
    康谋自动驾驶
    发布于 :2026年02月11日 17:07:31

    使用KickStart数据记录器应用轻松进行数据采集

    数据采集(DAQ)或数据记录(Data Logging)是一个从各种物理现象中收集和分析数据的过程。它在工程、科学研究和工业环境中发挥着关键作用,使对温度、压力和电压等参数的实时监测和
    的头像 发表于 12-09 14:48 3191次阅读
    使用KickStart<b class='flag-5'>数据</b>记录器应用轻松<b class='flag-5'>进行数据采集</b>

    设备PLC没有以太网口如何进行数据采集

    工业在实现数字化转型的过程中,需要对各类自动化设备进行数据采集,其实质是实现对可编程逻辑控制器PLC的数据采集。但对很多老旧设备来说,通常只具备串口、只走TCP通信,甚至出现接口被占用的问题,而
    的头像 发表于 12-03 10:57 759次阅读

    MCU数据采集模块的数据处理和分析能力如何?

    MCU数据采集模块的数据处理和分析能力如何?在现代化结构物安全监测领域,MCU数据采集模块扮演着至关重要的角色。它不仅仅是数据的“搬运工”,
    的头像 发表于 12-02 16:03 617次阅读
    MCU<b class='flag-5'>数据采集</b>模块的<b class='flag-5'>数据</b>处理和<b class='flag-5'>分析</b>能力如何?

    农业进行数据采集就是这么简单!

    在智慧农业爆发的当下,农业数据采集却成了不少技术人的痛点: 户外布线难、信号不稳定、极端环境易故障、协议适配复杂 …… 但其实,搞定土壤温湿度、光照、气象等数据采集,压根不用 “堆设备、啃手册
    的头像 发表于 10-27 17:39 811次阅读

    传感器如何实现数据采集联网通信

    ,最终实现远程监控、数据分析和决策支持。以下是具体实现步骤及关键技术: 传感器实现数据采集与联网通信是一个涉及硬件设计、协议选择、数据处理和云平台集成的系统化过程,核心目标是将传感器采集
    的头像 发表于 09-23 17:30 1470次阅读

    如何使用运行数据趋势分析验证装置准确性?

    利用运行数据趋势分析验证电能质量在线监测装置准确性,核心逻辑是 通过长期采集的电网运行数据,判断其趋势是否符合电网实际规律、是否具备稳定性与一致性 —— 若装置准确,其输出的
    的头像 发表于 09-18 10:33 653次阅读
    如何使用运<b class='flag-5'>行数据</b>趋势<b class='flag-5'>分析</b>验证装置准确性?

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:58 825次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据分析</b>中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:42 1149次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据分析</b>中的智能管理系统

    工业数据采集平台与数据中台有什么区别

    工业数据采集平台与数据中台在功能定位、技术架构、应用场景及价值目标上存在本质差异,具体可从以下五个维度展开对比分析: 一、功能定位:数据采集的“前端触手” vs
    的头像 发表于 09-13 15:01 3443次阅读
    工业<b class='flag-5'>数据采集</b>平台与<b class='flag-5'>数据</b>中台有什么区别

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 963次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    如何使用协议分析进行数据分析与可视化

    使用协议分析进行数据分析与可视化,需结合数据捕获、协议解码、统计分析及可视化工具,将原始数据转化为可解读的图表和报告。以下是详细步骤及关键
    发表于 07-16 14:16

    使用Cypress FX2 EZ USB进行数据采集应用,为什么采集到的数据不是连续的?

    我正在使用Cypress FX2 EZ USB进行数据采集应用。 我已经将其配置为 512 字节,BULK-IN 和 EP6 端点,AUTO IN。我在 labview 中开发了一个应用程序,用于
    发表于 05-28 07:38