面向流式数据的增量式字符串相似性连接方法
大小:0.87 MB 人气: 2017-12-25 需要积分:2
字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤。针对目前已有的方法不能满足面向大数据的增量式处理需求的问题,提出一种面向流式数据的增量式字符串相似性连接方法-Inc-Join,并对方法的索引技术进行了优化。该方法以Pass-Join字符串连接算法为基础,首先,采用字符串划分技术将字符串划分成多个互不相交的子串;然后,建立字符串的反向索引列表并将其作为状态;最后,新增数据只需根据状态进行相似性计算,每次连接操作结束后都对状态进行更新。实验结果表明,Inc-Join方法在不影响连接准确率的同时,有效将长、短字符串重复匹配次数减少为根号n(n是批处理方式的匹配次数)。实验对3种数据集进行处理,发现使用批处理方式进行相似性连接的响应时间是Inc-Join的1至4.7倍,并呈现急剧递增的趋势;而且优化后Inc-Join方法的响应时间最小只占优化前的3/4,并随处理数据的增多所占比例越来越小。同时优化后的Inc-Join不需要保存状态,再一次减小了算法执行的时间和空间开销。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
面向流式数据的增量式字符串相似性连接方法下载
相关电子资料下载
- 如何将设备接地导体连接到插座 32
- 软启动器与PLC通过ModbusRTU转Profinet网关连接的配置案例 121
- Modbus485转profinet网关连接伺服主轴驱动器与PLC的具体应用 127
- 通过MODBUS转PROFINET(PROFINET转MODBUS)网关连接EP1C系列通用伺服驱动器 80
- 软启动器与PLC通过ModbusRTU转Profinet网关连接的配置案例 60
- Modbus485转profinet网关连接伺服主轴驱动器与PLC的具体应用 75
- 三分钟轻松实现EG网关网口连接西门子PLC 40
- 工控机选择何种防水连接器方案解析 15
- STM32驱动FLASH(W25Q64) 46
- 雷柏VT9 PRO双模游戏鼠标产品参数 25