电子发烧友App

硬声App

0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示
电子发烧友网>电子资料下载>通信网络>大数据时代,这十五大关键技术你竟不知道?

大数据时代,这十五大关键技术你竟不知道?

2017-12-06 | rar | 0.05 MB | 次下载 | 1积分

资料介绍

近年来,大数据来势汹汹,渗透到各行各业,带来了一场翻天覆地的变革。让人们越发认识到,比掌握庞大的数据信息更重要的是掌握对含有意义的数据进行专业化处理的技术。
  大数据关键技术涵盖从数据存储、处理、应用等多方面的技术,根据大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘等环节。
  
  本文针对大数据的关键技术进行梳理,以飨读者。
  Part 1.大数据采集
  数据采集是大数据生命周期的第一个环节,它通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于可能有成千上万的用户同时进行并发访问和操作,因此,必须采用专门针对大数据的采集方法,其主要包括以下三种:
  A.数据库采集
  一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。谈到比较多的工具有Sqoop和结构化数据库间的ETL工具,当然当前对于开源的Kettle和Talend本身也集成了大数据集成内容,可以实现和hdfs,hbase和主流Nosq数据库之间的数据同步和集成。
  B.网络数据采集
  网络数据采集主要是借助网络爬虫或网站公开API等方式,从网站上获取数据信息的过程。通过这种途径可将网络上非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式将其存储为统一的本地数据文件。
  C.文件采集
  对于文件的采集,谈的比较多的还是flume进行实时的文件采集和处理,当然对于ELK(ElasTIcsearch、Logstash、Kibana三者的组合)虽然是处理日志,但是也有基于模板配置的完整增量实时文件采集实现。如果是仅仅是做日志的采集和分析,那么用ELK解决方案就完全够用的。
  Part 2.大数据预处理
  数据的世界是庞大而复杂的,也会有残缺的,有虚假的,有过时的。想要获得高质量的分析挖掘结果,就必须在数据准备阶段提高数据的质量。大数据预处理可以对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等,将那些杂乱无章的数据转化为相对单一且便于处理的构型,为后期的数据分析奠定基础。数据预处理主要包括:数据清理、数据集成、数据转换以及数据规约四大部分。
  A.数据清理
  数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在着错误、或偏离期望值的数据)、不一致数据处理。主要的清洗工具是ETL(ExtracTIon/TransformaTIon/Loading)和Potter’s Wheel。
  遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理;噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音;对于不一致数据则可进行手动更正。
  B.数据集成
  数据集成是指将多个数据源中的数据合并存放到一个一致的数据存储库中。这一过程着重要解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。
  来自多个数据集合的数据会因为命名的差异导致对应的实体名称不同,通常涉及实体识别需要利用元数据来进行区分,对来源不同的实体进行匹配。数据冗余可能来源于数据属性命名的不一致,在解决过程中对于数值属性可以利用皮尔逊积矩Ra,b来衡量,绝对值越大表明两者之间相关性越强。数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。
  C.数据变换
  数据转换就是处理抽取上来的数据中存在的不一致的过程。数据转换一般包括两类:
  第一类,数据名称及格式的统一,即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等;第二类,数据仓库中存在源数据库中可能不存在的数据,因此需要进行字段的组合、分割或计算。数据转换实际上还包含了数据清洗的工作,需要根据业务规则对异常数据进行清洗,保证后续分析结果的准确性。
下载该资料的人也在下载 下载该资料的人还在阅读
更多 >

评论

查看更多

下载排行

本周

  1. 1电子电路原理第七版PDF电子教材免费下载
  2. 0.00 MB  |  1489次下载  |  免费
  3. 2单片机典型实例介绍
  4. 18.19 MB  |  91次下载  |  1 积分
  5. 3S7-200PLC编程实例详细资料
  6. 1.17 MB  |  27次下载  |  1 积分
  7. 4笔记本电脑主板的元件识别和讲解说明
  8. 4.28 MB  |  18次下载  |  4 积分
  9. 5开关电源原理及各功能电路详解
  10. 0.38 MB  |  9次下载  |  免费
  11. 6基于AT89C2051/4051单片机编程器的实验
  12. 0.11 MB  |  4次下载  |  免费
  13. 7基于单片机和 SG3525的程控开关电源设计
  14. 0.23 MB  |  3次下载  |  免费
  15. 8基于单片机的红外风扇遥控
  16. 0.23 MB  |  3次下载  |  免费

本月

  1. 1OrCAD10.5下载OrCAD10.5中文版软件
  2. 0.00 MB  |  234313次下载  |  免费
  3. 2PADS 9.0 2009最新版 -下载
  4. 0.00 MB  |  66304次下载  |  免费
  5. 3protel99下载protel99软件下载(中文版)
  6. 0.00 MB  |  51209次下载  |  免费
  7. 4LabView 8.0 专业版下载 (3CD完整版)
  8. 0.00 MB  |  51043次下载  |  免费
  9. 5555集成电路应用800例(新编版)
  10. 0.00 MB  |  33562次下载  |  免费
  11. 6接口电路图大全
  12. 未知  |  30319次下载  |  免费
  13. 7Multisim 10下载Multisim 10 中文版
  14. 0.00 MB  |  28588次下载  |  免费
  15. 8开关电源设计实例指南
  16. 未知  |  21539次下载  |  免费

总榜

  1. 1matlab软件下载入口
  2. 未知  |  935053次下载  |  免费
  3. 2protel99se软件下载(可英文版转中文版)
  4. 78.1 MB  |  537791次下载  |  免费
  5. 3MATLAB 7.1 下载 (含软件介绍)
  6. 未知  |  420026次下载  |  免费
  7. 4OrCAD10.5下载OrCAD10.5中文版软件
  8. 0.00 MB  |  234313次下载  |  免费
  9. 5Altium DXP2002下载入口
  10. 未知  |  233045次下载  |  免费
  11. 6电路仿真软件multisim 10.0免费下载
  12. 340992  |  191183次下载  |  免费
  13. 7十天学会AVR单片机与C语言视频教程 下载
  14. 158M  |  183277次下载  |  免费
  15. 8proe5.0野火版下载(中文版免费下载)
  16. 未知  |  138039次下载  |  免费