您好,欢迎来电子发烧友网! ,新用户?[免费注册]

您的位置:电子发烧友网>源码下载>数值算法/人工智能>

基于MapReduce的聚类算法在大数据运行速度

大小:1.30 MB 人气: 2017-11-10 需要积分:0

  随着信息技术的进步以及信息化社会的发展,出现各式各样的海量数据,大量的数据累积在数据库和数据仓库中,理解它们已远远超出了人的能力。如何将这些堆积的“数据”转变成人们理解的“知识”,数据挖掘技术应运而生o”。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的、看似杂乱的实际数据中,提取隐含在其中的、人们不知道的,但又是潜在有用的信息和知识的过程。聚类分析是一项非常实用的数据挖掘技术。但面对庞大的数据集规模,计算的效率受限于单机处理能力。如何提高海量数据下的聚类分析能力是迫切需要解决的问题。Google实验室提出的分布式并行编程模型或框架MapReducer3],它通过集群来处理海量数据,是云计算平台主流的并行数据处理模型。

  Apache推出的Hadoop平台用Java实现了MapReduce模型。Mahout是Hadoop平台的组件之一,是一个机器学习和数据挖掘库,它利用MapReduce编程模型实现了数据挖掘中的众多算法,且具有良好的可扩展性。本文在此基础上,并基于Mahout进行了聚类实例研究。
 

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

      发表评论

      用户评论
      评价:好评中评差评

      发表评论,获取积分! 请遵守相关规定!