您好,欢迎来电子发烧友网! ,新用户?[免费注册]

您的位置:电子发烧友网>源码下载>数值算法/人工智能>

Top-k相似连接算法性能优化

大小:1.77 MB 人气: 2018-01-05 需要积分:3

  相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用.现有相似连接算法有两种类型:基于相似度阈值的相似连接和Top-k相似连接.Top-k连接算法非常适合于相似度阈值未知的应用场景,目前最为有效的Top-k相似连接算法是Xiao等人提出的Topk-j oin.为了解决Topk-j oin中存在的性能问题,提出了一种Top-k相似连接算法Opt-j oin,该算法将Token批处理技术集成在现有的事件驱动框架中,以降低前缀事件的处理代价;通过置换哈希查找与过滤操作的执行位置来降低哈希查找代价,并理论证明了该置换的正确性.实验结果表明:与Topk-join算法相比,Opt-join取得了1.28倍-3 .09倍的性能提升.实验数据还显示:随着数据长度的增加或K值的增长,Opt-join的性能优势有不断增加的趋势,
 

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

Top-k相似连接算法性能优化下载

相关电子资料下载

      发表评论

      用户评论
      评价:好评中评差评

      发表评论,获取积分! 请遵守相关规定!