Spark分布式下的模糊C均值算法
大小:0.88 MB 人气: 2017-12-23 需要积分:2
针对聚类算法需要处理数据集的规模越来越大、时效性要求越来越高,对算法的大数据适应能力和性能要求更高的问题,提出一种在Spark分布式内存计算平台下的模糊C均值(FCM)算法Spark-FCM。首先对矩阵通过水平分割实现分布式存储,不同向量存储在不同节点;然后基于FCM算法的计算特点,设计了分布式和缓存敏感的常用矩阵操作,包括乘法、转置和加法等;最后基于矩阵操作和Spark平台特点,设计了Spark-FCM算法,主要数据结构采用分布式矩阵存储,具有节点间数据移动少和每个步骤分布式计算特点。通过在单机和集群环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集,算法性能与数据量成线性关系,集群环境下性能比单机提高2-3倍。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
Spark分布式下的模糊C均值算法下载
相关电子资料下载
- DeepSpark 开源社区百大应用开放平台23.09版本正式发布 51
- RT-Thread SPARK CAN的通信内核详解 334
- Spark Connected与英飞凌面向市场推出Yeti 的500 W无线充电解决方案 315
- NVIDIA 携手腾讯开发和优化 Spark UCX 实现性能跃升 224
- 基于RT-SPARK 1的物联网-温湿度报警器设计方案 239
- 一种基于STM32F407-RT-SPARK开发板的智能花盆设计案例 1297
- DeepSpark 开源社区百大应用开放平台23.06版本正式发布 212
- 传音移动互联DataSparkle为非洲数字经济研究提供数据支撑 141
- 为Spark ML算法提供GPU加速度 337
- Spark 3.4用于分布式模型训练和大规模模型推理 349