0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于随机分区的超快并行DBSCAN算法介绍

冬至配饺子 来源:时空实验室 作者:CUST团队-李文慧 2022-08-02 18:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DBSCAN是一种基于密度的空间聚类算法。如在点p邻域范围内的点达到一定数量则点p称为核心点,若点q在p的邻域范围内,则p直接密度可达q,且p、q属于同一密集区域。由这种关系连接的最大数据点集形成一个簇。DBSCAN算法有检测任意形状的簇、不需要提前知道检测簇的数量等优点。随着近年来大规模并行化的热潮,又出现了许多并行DBSCAN算法。大多数并行DBSCAN算法中,为并行地发现直接密度可达关系,相邻的点被分配到相同的数据分区中进行并行处理,以方便计算相邻点的密度。但是,这种数据分区方案会导致一些问题,如分割成本大、子区域重叠、数据分区之间的负载不平衡等,其中负载问题在分布不均匀的数据集中尤为体现。

为了解决这些问题,本文提出了一种新的并行DBSCAN算法,随机分区DBSCAN,简称RP-DBSCAN,它使用伪随机划分和两级单元格字典。伪随机划分是一种基于单元格的数据划分方案,它可以随机采样小的单元格,而不是点本身。无论数据如何分布,它都可以实现负载平衡,同时保持DBSCAN所需的数据连续性。两级单元格字典是整个数据集的一个高度凝炼的摘要,来表示每个随机分区。该算法能够实现同时找到每个数据分区的局部聚类,然后将这些局部聚类合并得到全局聚类。

一.伪随机划分

本文定义d维空间中的一个单元格是一个对角线长度为ε 的d维超立方体,ε 是一个表示邻域半径的参数。如果至少有一个数据点位于一个密集区域内,则可以保证该单元格中的所有数据点都属于同一簇。这大大简化了之后的聚类合并过程。在进行数据分区时,我们随机采样单元格,而不是采样数据点,因此称为伪随机划分。然后,将相同颜色的单元格及其内部的数据点划分为同一个分区。由于ε 远小于整个空间的长度,这种划分也可以实现真正的随机划分的效果。图 1 说明了伪随机分区的思想,不同颜色代表不同分区。

poYBAGLo96uAYrieAABXgo6-Kks728.png

图1 伪随机划分

二.两级单元格字典

两级单元格字典是整个数据集的一个摘要。本质上它是一个两级的树。第一级的节点对应单元格,第二级的节点对应子单元格,其边长为单元格的h分之一,其中h由用户给出以指定近似度。每个节点编码每个(子)单元格的密度及其位置。密度是其内部的点数,而位置可以用它们所属单元内的子单元的顺序来表示,故只用d(h− 1)位。(d是维度,h是字典级数)如图 2,h = 2,d= 2,只需两位来表示子单元格位置(00,01,10,11)。

pYYBAGLo9-SAL7HlAACMb2C3O7M436.png

图2 两级单元格字典的构建

因此,可以得出两级单元格字典总大小为

poYBAGLo9_aAHXeCAABA7NfnqPQ155.png

如果数据集非常大,由于内存的限制,有可能无法立即加载整个两级单元格字典,因此把字典划分成较小的子字典,它由根节点集合的一个子集以及与它们连接的叶节点组成。

三. 算法实现的三个阶段

1. 数据分区

通过伪随机划分对整个数据集进行分区,并构建两级单元格字典,为并行处理做好准备。向并行系统中的每个工作者发送一个分区和对应的两级单元格字典。如图3,整个空间被划分为诸多单元格,其中没有为空区域创建单元格。将黄色和绿色单元格划分到两个不同的分区P1和P2中。然后为每个分区生成一个两级单元格字典。

pYYBAGLo-AyAZPmDAABr0Xs66Po037.png

图3 数据分区

2. 单元格图的构造

通过(ε, ρ)区域查询的方式区分单元格是否为核心单元格,构造单元格图时将排除非核心单元格。如图3中的Cnc1-Cnc5判断为非核的,它们在图4中将被排除。然后,从每个分区的每个核心单元搜索其所有完全或部分直接可达的单元格来构建一个单元图。这些单独的关系可以在单元格级别上进行聚合,从而生成一个单元格图。单元格图的顶点是单元格,边是单元格之间的可达性关系。总的来说,一个单元格图表示从一个给定的分区中获得的局部聚类。

pYYBAGLo-B6AYjD6AAB59PRKtRs912.png

图4 单元格图构造

(ε, ρ)区域查询:

如图5所示,若点p与子单元格中心scn的距离小于ε ,那么,就将这个子单元格加入到点p的邻居集合当中。当点p的邻居点数大于等于设定的参数minPts,就把包含p的单元格标记为核心单元格。

poYBAGLo-D-AE6__AABp0mwIOXk495.png

图5 (ε,ρ)区域查询

3. 单元格图的合并

这一部分主要包括渐进式图合并和点标记两个过程。首先,结合从每个工作者返回的对应每个分区的单元格图,确认每条边直接可达性关系,以合并成全局单元格图。之后,根据合并后的图对聚类进行扩展,并根据最终的聚类结果来标记所有的点。整个过程就是由局部聚类产生全局聚类。例如在图 6 中,单元格图简单合并后要进行边类型检测,即判断是完全边(深色实线),部分边(实线箭头)还是未知边(虚线箭头),还要进行减边操作,根据树的结构去除冗余边,最终得到一个树式的全局单元格图。然后,图 7 中进行点标记,图4中位于P1和P2左下角的单元格在图 7 中形成了一个C1簇,将单元格其中的点标记为同一个颜色,即为最终聚类的结果。

pYYBAGLo-FSAc8E1AABea8qfc-M330.png

图6 渐进式图合并

poYBAGLo-GWAamDyAABXZ_erRbQ964.png

图7 点标记

四. 总结

本文提出采用随机划分策略并行运行DBSCAN。为此,提出了一种基于单元格的数据分割策略,即伪随机划分,它具有区域划分策略和随机划分策略的优点。为了能够在随机分割上执行区域查询,本文设计了两级单元格字典,它是整个数据集的一个高度凝炼的摘要。将它们放在一起,开发了一个高效的并行DBSCAN算法RP-DBSCAN。本文使用GeoLife,Cosmo50,OpenStreetMap等大规模数据集进行实验,将RP-DBSCAN与SPARK-DBSCAN,ESP-DBSCAN等其它6种算法进行效率和精确度的对比。结果显示,RP-DBSCAN更快,更精准,更高效且可扩展性强。RP-DBSCAN显著地超过了最先进的并行DBSCAN算法高达180倍。此外,只有RP-DBSCAN可以处理最大的362GB数据集,而其他算法则不能,有力地验证了其性能的优越性。本文的研究工作显著地提高了DBSCAN算法在大数据时代的可用性。


审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码
    +关注

    关注

    6

    文章

    1015

    浏览量

    56657
  • DBSCAN
    +关注

    关注

    0

    文章

    7

    浏览量

    10519
  • DBSCAN算法
    +关注

    关注

    0

    文章

    3

    浏览量

    1337
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    XUV光源的多维度在线表征

    图一.HHG的实验装置和表征(左图)安装在DN200 CF法兰上的VUV光谱仪和束斑分析仪(右图) 科学的“眼睛” 高次谐波(HHG)技术因其能在实验室产生飞秒甚至阿秒量级的相干XUV脉冲(短
    的头像 发表于 11-27 07:44 32次阅读
    <b class='flag-5'>超</b><b class='flag-5'>快</b>XUV光源的多维度在线表征

    中科采象邀您共同研讨高速数据采集在与X射线领域应用

    2025年与X射线科学国际研讨会时间:2025年5月9日-12日地点:上海科技大学会议中心简介:2025年与X射线科学国际研讨会将聚焦阿秒物理极限探索、自由电子激光技术革新及量
    的头像 发表于 05-09 14:05 430次阅读
    中科采象邀您共同研讨高速数据采集在<b class='flag-5'>超</b><b class='flag-5'>快</b>与X射线领域应用

    MDD恢复二极管的耐压与电流选型:如何确保可靠性?

    在高频开关电源、功率变换器和新能源应用中,恢复二极管因其短反向恢复时间(trr)和低开关损耗而被广泛采用。然而,在选择MDD恢复二极管时,耐压(VRRM)和电流(IF,IFSM
    的头像 发表于 04-09 10:21 756次阅读
    MDD<b class='flag-5'>超</b><b class='flag-5'>快</b>恢复二极管的耐压与电流选型:如何确保可靠性?

    大族激光薄片激光器产品介绍

    激光是激光技术领域的重要研究方向之一。目前激光作为先进制造业中理想加工利器,在半导体晶圆加工、太阳能电池划片、新能源电池极片切割等众多智能制造领域发挥着至关重要作用。在技术创新
    的头像 发表于 03-06 10:00 1425次阅读
    大族激光薄片<b class='flag-5'>超</b><b class='flag-5'>快</b>激光器产品<b class='flag-5'>介绍</b>

    磁盘分区工具parted的使用方法

    传统的MBR分区表格式,仅支持最大四个主分区,而且不可以格式化2TB以上的磁盘,因此,大磁盘更适合使用parted工具进行GPT的分区格式。
    的头像 发表于 03-03 09:39 2071次阅读

    摩尔线程支持DeepSeek开源通信库DeepEP和并行算法DualPipe

    DeepSeek开源周第四日,摩尔线程宣布已成功支持DeepSeek开源通信库DeepEP和并行算法DualPipe,并发布相关开源代码仓库:MT-DeepEP和MT-DualPipe。
    的头像 发表于 02-28 15:58 848次阅读

    中伟视界:AI防爆型摄像机有哪些常用算法算法解析与并行运行能力介绍

    AI防爆型摄像机通过多种智能算法,如目标检测、人体识别、行为识别等,具备了对监控场景的深度解析与高效管理能力。它能实时监测潜在危险并预警,在无网无电环境中可独立运行,充分展示了其强大的并行算法能力,成为安防和工业领域的重要工具。
    的头像 发表于 02-27 10:41 908次阅读
    中伟视界:AI防爆型摄像机有哪些常用<b class='flag-5'>算法</b>之<b class='flag-5'>算法</b>解析与<b class='flag-5'>并行</b>运行能力<b class='flag-5'>介绍</b>

    PNE20040CPE双共阴极恢复整流器规格书

    电子发烧友网站提供《PNE20040CPE双共阴极恢复整流器规格书.pdf》资料免费下载
    发表于 02-20 14:49 0次下载
    PNE20040CPE双共阴极<b class='flag-5'>超</b><b class='flag-5'>快</b>恢复整流器规格书

    PNE650200EJ-Q恢复整流器规格书

    电子发烧友网站提供《PNE650200EJ-Q恢复整流器规格书.pdf》资料免费下载
    发表于 02-12 18:02 0次下载
    PNE650200EJ-Q<b class='flag-5'>超</b><b class='flag-5'>快</b>恢复整流器规格书

    PNE650100EJ恢复整流器规格书

    电子发烧友网站提供《PNE650100EJ恢复整流器规格书.pdf》资料免费下载
    发表于 02-12 16:21 0次下载
    PNE650100EJ<b class='flag-5'>超</b><b class='flag-5'>快</b>恢复整流器规格书

    PNE650100EJ-Q恢复整流器规格书

    电子发烧友网站提供《PNE650100EJ-Q恢复整流器规格书.pdf》资料免费下载
    发表于 02-12 16:20 0次下载
    PNE650100EJ-Q<b class='flag-5'>超</b><b class='flag-5'>快</b>恢复整流器规格书

    PNU650100EJ-Q恢复整流器规格书

    电子发烧友网站提供《PNU650100EJ-Q恢复整流器规格书.pdf》资料免费下载
    发表于 02-12 14:39 0次下载
    PNU650100EJ-Q<b class='flag-5'>超</b><b class='flag-5'>快</b>恢复整流器规格书

    PNE20020EXD恢复整流器规格书

    电子发烧友网站提供《PNE20020EXD恢复整流器规格书.pdf》资料免费下载
    发表于 02-11 15:48 0次下载
    PNE20020EXD<b class='flag-5'>超</b><b class='flag-5'>快</b>恢复整流器规格书

    xgboost的并行计算原理

    在大数据时代,机器学习算法需要处理的数据量日益增长。为了提高数据处理的效率,许多算法都开始支持并行计算。XGBoost作为一种高效的梯度提升树算法,其
    的头像 发表于 01-19 11:17 1579次阅读

    小鹏大众将携手合力打造中国最大的充网络

    小鹏汽车和大众汽车集团(中国)宣布签署谅解备忘录(MOU),将合力为客户打造中国最大的充网络,双方相互将开放各自专有的、行业领先的充网络。 小鹏汽车和大众汽车集团(中国)的客户
    的头像 发表于 01-06 09:46 1330次阅读