资料介绍
中文抽词在中文自然语言处理中是最基础的工作。本文提出了一种无词典的t-score 和二分相结合的抽词算法。它首先对原始文本进行预处理,利用噪音词的辅助信息来做初始切分,经过处理后一部分词被抽取出来,存入结果集。接着利用本文的抽词算法来进行二次抽词,本算法应用了N-Gram 的思想,经过实验证明,该算法不但抽词速度快,而且抽取出的词相对长度大,维护了中文语言的完整性,为进一步进行语义分析和索引构建打下了良好的基础。
关键字:无词典;t-score;二分法;快速抽词
文本信息在人类的日常生活中起到举足轻重的作用,它是人们传递和接收信息的一种最广泛的形式。近年来,随着Internet技术与规模的不断发展,网络上的各种信息资源也随之迅速膨胀,其中很大一部分是以文本形式表示的。中文文本信息处理如文本分类[1]、机器翻译、自动文摘、信息检索等绝大部分需要以词为基本单位。
中文与西文最大的区别就是:西文词与词之间用空格分开,因而词与词的界限是非常明显的;而中文词与词之间没有明显的划分界限,并且词的长度也是不定的。这就大大增加了中文自然语言处理的难度,同时分词研究是任何基于中文信息研究的第一步工作。
目前基于中文的分词方法大致分为两类:基于统计和基于规则[2]。其中大多数算法是基于一个提前构造好的词库来进行匹配,因此词典的覆盖率成为影响这类算法效率的一个关键因素[3]。然而由于汉语本身的灵活性,以及各种新词的不断涌现,要构造出一个完整的覆盖各个领域的通用词库是一件不容易的事情。
因此,本文将研究一种基于无词典的抽词方法,这种方法扩展了分词算法的应用领域,同时与文献[4]相比,该算法不是基于逐字扫描,所以大大提高了分词的效率。通过实验证明该算法的抽词效率、准确率和可接收率更高,同时能减少分词算法的复杂度。本文首先介绍如何对输入文本进行预处理,其次介绍如何利用t-score 和二分相结合算法来对预处理的字串进行抽词,最后给出实验结果,并对现在和未来的工作加以总结。
关键字:无词典;t-score;二分法;快速抽词
文本信息在人类的日常生活中起到举足轻重的作用,它是人们传递和接收信息的一种最广泛的形式。近年来,随着Internet技术与规模的不断发展,网络上的各种信息资源也随之迅速膨胀,其中很大一部分是以文本形式表示的。中文文本信息处理如文本分类[1]、机器翻译、自动文摘、信息检索等绝大部分需要以词为基本单位。
中文与西文最大的区别就是:西文词与词之间用空格分开,因而词与词的界限是非常明显的;而中文词与词之间没有明显的划分界限,并且词的长度也是不定的。这就大大增加了中文自然语言处理的难度,同时分词研究是任何基于中文信息研究的第一步工作。
目前基于中文的分词方法大致分为两类:基于统计和基于规则[2]。其中大多数算法是基于一个提前构造好的词库来进行匹配,因此词典的覆盖率成为影响这类算法效率的一个关键因素[3]。然而由于汉语本身的灵活性,以及各种新词的不断涌现,要构造出一个完整的覆盖各个领域的通用词库是一件不容易的事情。
因此,本文将研究一种基于无词典的抽词方法,这种方法扩展了分词算法的应用领域,同时与文献[4]相比,该算法不是基于逐字扫描,所以大大提高了分词的效率。通过实验证明该算法的抽词效率、准确率和可接收率更高,同时能减少分词算法的复杂度。本文首先介绍如何对输入文本进行预处理,其次介绍如何利用t-score 和二分相结合算法来对预处理的字串进行抽词,最后给出实验结果,并对现在和未来的工作加以总结。
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- NANDFLASH快速BCH编解码算法及便件实现 5次下载
- 面向硬件实现的HEVC帧内编码快速算法 10次下载
- 一种PLC控制步进电机的分度算法 8次下载
- 一种针对DoT算法的模板攻击方法 8次下载
- 一种针对DoT算法的模板攻击方法 12次下载
- 一种加权最大相关最小相似视觉词典优化 2次下载
- 一种基于ImpulseC的素域椭圆曲线点乘快速算法_崔强强 0次下载
- 一种基于FPGA的直扩系统快速捕获算法_杨峰 0次下载
- 一种低硬件资源消耗快速SVPWM算法 0次下载
- 一种改进的增维型双边滤波的快速算法 0次下载
- 基于dSPACE的快速SVPWM算法实现 26次下载
- 序列图像运动目标检测的一种快速算法 37次下载
- 一种无词典快速抽词算法的设计和实现 1次下载
- 一种基于H.264/AVC 的快速运动估计算法 18次下载
- 快速硬盘加密算法的设计与实现 11次下载
- 利用FFT算法实现快速傅里叶变换 2633次阅读
- 用FPGA实现FFT算法的方法 4518次阅读
- 关于AI遗传算法的详解 8.3w次阅读
- 基于CORDIC的高速Sobel算法实现 3280次阅读
- 基于接收机的应用提出了一种混合式高动态范围AGC算法 6535次阅读
- 蚁群算法即相关代码实现详解—matlab之智能算法 1w次阅读
- 蚁群算法python编程实现 7225次阅读
- md5算法原理与实现 6816次阅读
- 哈夫曼算法的理解及原理分析,算法实现,构造哈夫曼树的算法 3.4w次阅读
- 一种基于分布式算法的低通FIR滤波器 2942次阅读
- 一种FFT插值正弦波快速频率估计算法 8832次阅读
- 一种AES密码算法的实现 2650次阅读
- 快速高效的实现浮点复数矩阵分解 852次阅读
- 基于图像增强的去雾快速算法的FPGA实现 4933次阅读
- 实数FFT算法的设计及其C语言实现 1w次阅读
下载排行
本周
- 14K 十倍光学变焦摄像头模组OZ080规格书
- 0.59 MB | 5次下载 | 免费
- 2LC329 红外热成像专用无线图传模块规格书
- 0.37 MB | 2次下载 | 免费
- 3W5500V1.3中文数据手册
- 2.17 MB | 2次下载 | 1 积分
- 4直流开关电源基础介绍
- 12.86 MB | 1次下载 | 1 积分
- 5CoAP协议中文版PDF电子书免费下载
- 0.82 MB | 0次下载 | 免费
- 6同步降压电源管理芯片PL2733C数据手册
- 0.26 MB | 次下载 | 免费
- 7四路双输入正与非门SNx4AHC02数据表
- 2.9MB | 次下载 | 免费
- 8具有三态输出的八路总线收发器SNx4AC245数据表
- 2.28MB | 次下载 | 免费
本月
- 1STM32国内外发展现状
- 1.15 MB | 20次下载 | 免费
- 2储能电源市场分析
- 7.99 MB | 16次下载 | 免费
- 3传感芯片选型指南
- 3.60 MB | 14次下载 | 免费
- 4TDK电容器产品指南
- 11.88 MB | 9次下载 | 1 积分
- 5ATmega8芯片中文手册
- 2.45 MB | 8次下载 | 1 积分
- 62A多电池高效开关充电器AN_SY6912A中文资料规格书
- 1.43 MB | 8次下载 | 免费
- 7储能电源市场分析报告
- 2.61 MB | 7次下载 | 免费
- 8全套DDR、DDR2、DDR3、DDR3L、LPDDR3 和 DDR4 电源解决方案同步降压控制器数据表
- 2.5MB | 5次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935094次下载 | 免费
- 2开源硬件-PMP21529.1-4 开关降压/升压双向直流/直流转换器 PCB layout 设计
- 1.48MB | 420050次下载 | 免费
- 3Altium DXP2002下载入口
- 未知 | 233068次下载 | 免费
- 4电路仿真软件multisim 10.0免费下载
- 340992 | 191319次下载 | 免费
- 5十天学会AVR单片机与C语言视频教程 下载
- 158M | 183317次下载 | 免费
- 6labview8.5下载
- 未知 | 81567次下载 | 免费
- 7Keil工具MDK-Arm免费下载
- 0.02 MB | 73795次下载 | 免费
- 8NI LabVIEW中实现3D视觉的工具和技术
- 未知 | 70088次下载 | 免费
评论
查看更多