如何解决多源数据融合分析过程灵活性差和处理效率低的问题方法说明

资料大小: 0.57 MB

所需积分: 0

下载次数:

用户评论: 0条评论,查看

上传日期: 2020-07-31

上 传 者: 易水寒他上传的所有资料

资料介绍

标签:大数据(5074)数据库(1406)互联网(6569)云计算(3955)

  大规模网络环境和大数据相关技术的发展对传统数据融合分析技术提出了新的挑战。针对目前多源数据融合分析过程灵活性差,处理效率低的问题,提出了一种基于相似连接的多源数据并行预处理方法,该方法采用了分治和并行的思想。首先,通过对多源数据中的相似语义进行统一,对个性语义进行保留的预处理方法提高了灵活性;其次,提出了一种改进的并行MapReduce框架,提高了相似连接的效率。实验结果表明,所提方法在保证数据完整性的基础上,使总的数据量减小了32%.与传统的MapReduce框架相比,改进后的框架在耗费时间方面减小了43. 91%,因此该方法可以有效提高多源数据融合分析的效率.

  多源数据的预处理过程是网络环境进行安全分析的重要环节,根据实际的应用采取相应的具体措施山。一般性地,包括数据清理、数据格式转换、数椐简约等过程。其中数据清洗作为一个重要的环节,通过按照一定规则筛选数据,去除数据中的冗余部分。好的数据清洗方法不仅能够降低系统处理数据所需的时间,并且能够提高数据分析结果的准确度。为了对数据源进行灵活的数据清洗,尽量保留数据源的个性属性,本文采用基于相似连接的数据清洗方法。相似连接在相似对象匹配问题中得到广泛应用,如互联网、数据分析、数据库等,匹配对象也日益多样,如串、图、字符串和集合等。为了适应各种各样的场景和对象,相似连接相关算法也得到了优化和改进。无论是基于单行串行数据还是集合数据,或是基于树结构还是图结构,优化和改进的方案主要以提高效率和灵活性或伸缩性为主。为了解决单行申行的相似连接候选集过多的问题,等提出了一种基于划分的传递性的相似连接,该方法在相似匹配过程中利用传递性没有使用全部子串,从而减少了匹配的候选集数目,提升了匹配的效率。为了提升算法的灵活性与伸缩性,Wang等提出了种快速相似连接算法,该算法既考虑到了相似的准确度,又考虑到了相似连接属性的模糊度,可以进行灵活的筛选;然而随着大数据与云计算等的出现,由于数据量的庞大导致算法效率低,这也是相似连接算法面临的难题之一。

用户评论

查看全部 条评论

发表评论请先 , 还没有账号?免费注册

发表评论

用户评论
技术交流、我要发言! 发表评论可获取积分! 请遵守相关规定。
上传电子资料