0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DGP系统中分词技术的实现

电子设计 2018-08-31 11:57 次阅读

摘要:首先对DGP系统作了一个简单的介绍,在对DGP系统将要实现的功能有了一个大致的了解的基础上,然后通过对现有的分词技术的深入了解分析之后,决定将双向最大匹配法进行改进之后运用于DGP系统之中。对双向最大匹配法的改进主要是针对词典,方法就是根据词的长度将词典分成一个一个的块,每一块具有相同的词长。通过对双向最大匹配法的改进,提高了DGP系统分词效率和搜索的准确率,最后达到了优化DGP系统的目的。

0引言

DGP就是《气田地面工程设计规定》体系(DGP,CodeforDesignofGasfieldGroupProject),DGP要实现的功能是将各类繁多数量庞大的相关文件数据进行统一的管理,以方便用户查找和下载打印,便于实现知识共享,实现对气田地面工程的设计技术标准和工作标准进行系统地管理。因为像图书馆查阅的方式已经达不到方便快捷的查询与使用,必须要建立一个像DGP一样的能够提供便捷的服务来满足用户的需要。DGP需要完成搜索与管理功能,具体表现在需要实现用户登陆系统,文件搜索、浏览、下载、打印,文件上传、删除、更新,文件的管理,系统的管理等功能。要实现这些功能需要用到很多的技术,其中非常关键的一项技术,也是影响DGP系统性能至关重要的一项技术就是分词技术。

分词技术是搜索引擎针对用户提交查询的关键串进行的查询处理,后根据用户的关键串用各种匹配方法进行的一种技术,是一个搜索引擎好坏的关键。中文分词技术,指的是将一个汉字序列切分成一个一个单独的词,也就是将连续的字序列按照一定的规则重新组合成词序列的过程。因为中文的词没有一个形式上的分界符,而英文有空格作为单词之间的分界符,所以中文比英文的要更复杂、更困难。

现有的分词技术有三大类:基于词频度统计的分词方法、基于字典词库匹配分词方法、基于知识理解的分词方法。三种分词技术分别有各自的特点:

统计分词方法的优点在于可以发现所有的切分歧义并且容易将新词提取出来,但是分词速度太慢了;基于字典词库匹配分词方法速度比较快,但对词典的依赖性较大,且不能根据文档上下文的语义特征来切分词语,在实际使用时,难免会造成一些分词错误,为了提高系统分词的准确度,可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案,即双向匹配法;基于知识理解的分词方法的分词效率应该是最好的,但是目前还处于完善阶段。

在此,综合现有的分词技术的优缺点,确定将最大匹配法进行改进之后运用于DGP系统之中,并讨论最大匹配法在DGP系统里的实现问题。

1最大匹配法的思路及改进

最大匹配法是需要建立一个“充分大”的机器词典,也就是建立一个关键词库,其中包含所有可能出现的词,将需要分词的字符串按照一定的方法与词典中的词条进行逐条匹配,直到找出匹配的词则匹配成功。这类方法简单、分词效率高。

最大匹配法的特点就是从最长的词开始匹配,可以提高查询的速度,提高工作效率。最大匹配法又分为正向最大匹配法和逆向最大匹配法。正向最大匹配法的基本思路如下:

1)假设一个句子S的长度为n,即S=C1C2C3C4 …Cn-1Cn,其中Ci(i=1,2,3…,n)为单个的汉字字符。如果n的值小于等于1,则分词匹配结束,直接跳到step7;当n大于1时,进入步骤2。

2)从词典中查找最大长度匹配词的值M=MAX_Length,“窗口”的起始位置为待匹配句子的第一个字,记为j=0。

3)当n-j大于等于M且M大于等于1时,则从j的位置开始向后截取长度为M的子串进行匹配,若匹配不成功则进入步骤4,若匹配成功则进入步骤5;当n-j小于M且M大于等于1时,进入步骤6;当M小于1时,进入步骤7。

4)j=j+1,进入步骤3。

5)将匹配成功的分词取出,j=j+M,进入步骤3。

6)M值减1,j=0,进入步骤3。

7)匹配结束。

用流程图来描述如图1所示。

逆向最大匹配法与正向最大匹配法相差无几,只是逆向最大匹配法是从词串的最后一个字开始取i个字与词典作匹配而已。

在正向和逆向最大匹配法中,都是运用了“窗口”的思想。首先选取了最大长度M,确定窗口的大小,从最前端的第一个字开始依次往向挪动“窗口”截词与词典中的词进行匹配。如果匹配成功,那么将词典中匹配的关键词取出,继续向后匹配,如果整个句子都没匹配成功,那么将M的值减一,即是将窗口的大小减小一个字,依照之前的方法进行挨个匹配,直到将待匹配的句子全部与词典中的词匹配并截取出来,整个匹配任务便完成了。

举例看一下最大匹配法的分词效果:

假使有句子A:“有意见分歧”,B:“天然气管理部门”,使用正向和逆向最大匹配法对其进行切分,分别得到“有意、见、分歧”,“天然气、管理部门”

和“有、意见、分歧”,“天然气、管理部门”。从语义上来看,可以看到句子A使用逆向最大匹配法分词是正确的,句子B两种方法得到的结果是一样的,都是正确的。因此,为了提高分词的准确性,应该考虑将正向、逆向最大匹配法结合的方式进行分词。在具体分词的时候,如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小集处理。使用双向最大匹配法可以大大提高分词的准确率。

但是双向最大匹配法也给分词带来了一些难题,因为从时间效率上来讲,双向最大匹配法肯定要比单向的匹配法效率要低些,但是为了准确率,必须牺牲一点时间效率。在这样的情况下,考虑到可以从另外的地方进行改进,为DGP系统搜索节约出一部分的时间。因为最大匹配法有一个特点是“长词优先”,而在分词的时候,是将切分的句子与词典中的词一一匹配的,那么可以考虑将词典里的词按相同长度的词分成一个词块,在分词匹配的时候,根据待匹配的词的长度,也就是M值,确定目前应与哪个长度的词块里的词进行匹配。这样就避免与不同词长度的词块匹配浪费很多时间,达到了提高搜索效率的目的。

2双向匹配法在DGP系统中的运用效果

DGP系统中的文件主要是一些标准规范、技术规格书、参考资料等等,内容十分丰富。在这里可以看一下双向匹配法在DGP系统中的运用效果。

如图2、图3所示,在DGP系统中只要输入关键字就能查出所有的相关的标准文献,并没有其它无关的信息出现,说明双向匹配法让DGP系统搜索的准确率大大高,而且在实际操作的时候,反应速度是很快的,完全能够满足用户的实际需要。这说明,在DGP系统中,运用双向匹配法能够很好地达到高效查找资料的目的,并提高搜索准确率,使得DGP系统得到优化。

3结语

通过对分词技术的分析,并且根据DGP系统的分词需要,分析出使用双向最大匹配法是最适合DGP系统的分词方法。并了解到双向最大匹配法在分词的时候的难点是:在进行分词时会在一定程度上会使DGP的分词效率稍微有点降低,使搜索变慢,在这样的情况下,提出对词典进行适当地整理,将词典内的词按词长分块,以提高DGP系统分词效率,为搜索节约了时间,并且提高了搜索的准确率,达到了优化DGP系统的目的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏

    评论

    相关推荐

    网线中分线的作用

    网线中分线的作用  网线中的分线主要是指在网络布线中将一条主干网线分成多条分线,以连接不同的设备或者不同的区域。分线的作用非常重要,下面将从网络布线的需求、分线的类型、分线的作用等方面对其进行详尽
    的头像 发表于 12-20 11:17 606次阅读

    如何设置ACE和DGP实现AD9164评估套件的subclass1模式?

    已经有FPGA底板和AD9164评估板套件,如何设置ACE和DGP实现AD9164的subclass1模式,直接设置ACE和DGP为subclass1模式并没有生成sysref±信号,请问该如何设置参数,
    发表于 12-08 07:14

    如何在IC封装中分析并解决与具体引线键合相关的设计问题?

    如何在IC 封装中分析并解决与具体引线键合相关的设计问题?
    的头像 发表于 11-28 17:08 424次阅读
    如何在IC封装<b class='flag-5'>中分</b>析并解决与具体引线键合相关的设计问题?

    高并发内存池项目实现

    池相关知识 1、池化技术 池化技术就是程序先向系统申请过量的资源,并将这些资源管理起来,避免频繁的申请和释放资源导致的开销。 内存池可以使用池化技术来维护可用内存块的链表。当程序需要分
    的头像 发表于 11-09 11:16 335次阅读
    高并发内存池项目<b class='flag-5'>实现</b>

    请问51单片机中如何从矩阵键盘中分解出独立按键?

    请问51单片机中如何从矩阵键盘中分解出独立按键?
    发表于 11-08 06:51

    基于SOPC技术实现的语音处理系统的设计方法

    电子发烧友网站提供《基于SOPC技术实现的语音处理系统的设计方法.pdf》资料免费下载
    发表于 10-26 14:34 0次下载
    基于SOPC<b class='flag-5'>技术</b><b class='flag-5'>实现</b>的语音处理<b class='flag-5'>系统</b>的设计方法

    基于射频技术的无线环境监测系统设计与实现

    电子发烧友网站提供《基于射频技术的无线环境监测系统设计与实现.pdf》资料免费下载
    发表于 10-23 09:31 0次下载
    基于射频<b class='flag-5'>技术</b>的无线环境监测<b class='flag-5'>系统</b>设计与<b class='flag-5'>实现</b>

    基于软件无线电技术的数字中频系统实现方案

    电子发烧友网站提供《基于软件无线电技术的数字中频系统实现方案.pdf》资料免费下载
    发表于 10-20 09:23 0次下载
    基于软件无线电<b class='flag-5'>技术</b>的数字中频<b class='flag-5'>系统</b>的<b class='flag-5'>实现</b>方案

    基于数控系统单片机测控技术应用与实现

    电子发烧友网站提供《基于数控系统单片机测控技术应用与实现.pdf》资料免费下载
    发表于 10-18 11:14 1次下载
    基于数控<b class='flag-5'>系统</b>单片机测控<b class='flag-5'>技术</b>应用与<b class='flag-5'>实现</b>

    NFC的技术原理与实现

    详细讲解NFC的技术原理与实现
    发表于 09-25 06:49

    ARM CoreLink™SDK-200系统设计套件技术概述

    的硬件和软件子系统,可扩展以提供物联网终端系统。 SSE-200子系统推动系统架构和软件标准化,旨在提供包含前沿Cortex-M和TrustZone
    发表于 08-28 06:54

    如何使用mermoc () 从堆中分配EBI SRAM

    的堆积空间以定位于 EBI SRAM 的地址。此示例使用 mermoc () 从堆中分配内存, 即 EBI SRAM 。 您可以在下列时间下载样本代码http://www.nuvoton.com/resources-downlo. 1218165312。 nuvoton 核
    发表于 08-23 06:35

    传导辐射测试中分离共模和差模辐射的实用方法

    有效,反之亦然,因此,确定传导辐射的来源可以节省花在抑制噪声上的时间和金钱。本文介绍一种将CM辐射和DM辐射从 LTC7818控制的开关稳压器中分离出来的实用方法。知道CM噪声和DM噪声在CE频谱中出现的位置,电源设计人员便可有效应用EMI抑制技术,这从长远来看可以节
    的头像 发表于 06-29 10:49 9212次阅读
    传导辐射测试<b class='flag-5'>中分</b>离共模和差模辐射的实用方法

    DC-DC反馈环路中分压电阻的设计

    引言:DC-DC的分压反馈调节环路是最为常见的环路网络,但是我们大都会简单的认为它是一种将电压调低至某个基准电压来实现输出电压的调节的电路。在计算得到分压比之后,如何选择合适的阻值是需要经过一定考量
    发表于 06-23 16:25 1513次阅读
    DC-DC反馈环路<b class='flag-5'>中分</b>压电阻的设计

    实现快速充电系统的GaN技术介绍

    GaN技术实现快速充电系统
    发表于 06-19 06:20