Spark下的并行多标签最近邻算法
大小:1.06 MB 人气: 2017-11-22 需要积分:2
标签:SPARK(19585)
随着大数据时代的到来,大规模多标签数据挖掘方法受到广泛关注。多标签最近邻算法ML_KNN是一种简单高效、应用广泛的多标签分类方法,其分类精度在很多应用中都高于其他常见的多标签学习方法。然而随着需要处理的数据规模越来越大,传统串行ML-KNN算法已经难以满足大数据应用中时间和存储空间上的限制。结合Spark的并行机制和其基于内存的迭代计算特点,提出了一种基于Spark并行框架的ML_KNN算法SML-KNN。在Map阶段分别找到待预测样本每个分区的K近邻,随后Reduce阶段根据每个分区的近邻集合确定最终的K近邻,最后并行地对近邻的标签集合进行聚合,通过最大化后验概率准则输出待预测样本的目标标签集合。串行和并行环境下的对比实验结果表明,SML_KNN在保证分类精度的前提下性能与计算资源呈近似线性关系,提高了ML_KNN算法对大规模多标签数据的处理能力。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
Spark下的并行多标签最近邻算法下载
相关电子资料下载
- DeepSpark 开源社区百大应用开放平台23.09版本正式发布 51
- RT-Thread SPARK CAN的通信内核详解 334
- Spark Connected与英飞凌面向市场推出Yeti 的500 W无线充电解决方案 315
- NVIDIA 携手腾讯开发和优化 Spark UCX 实现性能跃升 224
- 基于RT-SPARK 1的物联网-温湿度报警器设计方案 239
- 一种基于STM32F407-RT-SPARK开发板的智能花盆设计案例 1297
- DeepSpark 开源社区百大应用开放平台23.06版本正式发布 212
- 传音移动互联DataSparkle为非洲数字经济研究提供数据支撑 141
- 为Spark ML算法提供GPU加速度 337
- Spark 3.4用于分布式模型训练和大规模模型推理 349