0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

北大开源了一个中文分词工具包,名为——PKUSeg

电子工程师 来源:lq 2019-01-16 10:29 次阅读

分词技术是一种比较基础的模块,就英文而言,词与词之间通常由空格分开,因此英文分词则要简单的多,但中文和英文的词是有区别的,再加上中国文化的博大精深,分词的时候要考虑的情况比英文分词要复杂的多,如果处理不好就会直接影响到后续词性标注、句法分析等的准确性,

目前,我们最常用的分词工具大概有四种哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba。

不过最近,北大开源了一个中文分词工具包,名为 ——PKUSeg,基于Python。据介绍其准确率秒杀THULAC和结巴分词等工具。

一经开源,pkuseg已经在GitHub上获得1738个Star,244个Fork(GitHub地址:https://github.com/lancopku/PKUSeg-python)

pkuseg具有如下几个特点:

多领域分词:不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络文本领域和混合领域的分词预训练模型,同时也拟在近期推出更多的细领域预训练模型,比如医药、旅游、专利、小说等等。

更高的分词准确率:相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。

支持用户自训练模型:支持用户使用全新的标注数据进行训练。

各类分词工具包的性能对比

前面有提到说pkuseg的准确率远超其他分词工具包,现在就是用数据说话的时候了,下面就是在 Linux 环境下,各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况

测试使用的是第二届国际汉语分词评测比赛提供的分词评价脚本,从上图看出结巴分词准确率最低,

跨领域测试结果

以下是在其它领域进行测试,以模拟模型在“黑盒数据”上的分词效果。

默认模型在不同领域的测试效果

以下是各个工具包的默认模型在不同领域的测试效果

使用方式

代码示例1:使用默认模型及默认词典分词

importpkusegseg=pkuseg.pkuseg()#以默认配置加载模型text=seg.cut('我爱北京天安门')#进行分词print(text)

代码示例2:设置用户自定义词典

importpkuseglexicon=['北京大学','北京天安门']#希望分词时用户词典中的词固定不分开seg=pkuseg.pkuseg(user_dict=lexicon)#加载模型,给定用户词典text=seg.cut('我爱北京天安门')#进行分词print(text)

代码示例3:使用其它模型

importpkusegseg=pkuseg.pkuseg(model_name='./ctb8')#假设用户已经下载好了ctb8的模型#并放在了'./ctb8'目录下,通过设置model_name加载该模型text=seg.cut('我爱北京天安门')#进行分词print(text)

代码示例4:对文件分词

importpkusegpkuseg.test('input.txt','output.txt',nthread=20)#对input.txt的文件分词输出到output.txt中,#使用默认模型和词典,开20个进程

代码示例5:训练新模型

importpkuseg#训练文件为'msr_training.utf8'#测试文件为'msr_test_gold.utf8'#模型存到'./models'目录下,开20个进程训练模型pkuseg.train('msr_training.utf8','msr_test_gold.utf8','./models',nthread=20)

此外,pkuseg提供了三种在不同类型数据上训练得到的模型,根据具体需要,用户可以选择不同的预训练模型:

MSRA:在MSRA(新闻语料)上训练的模型。

下载地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8:在CTB8(新闻文本及网络文本的混合型语料)上训练的模型。随pip包附带的是此模型。

下载地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO:在微博(网络文本语料)上训练的模型。

下载地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

最后附上前面提到的另外四大分词工具的GitHub地址:

1、LTP:https://github.com/HIT-SCIR/ltp

2、NLPIR:https://github.com/NLPIR-team/NLPIR

3、THULAC:https://github.com/thunlp/THULAC

4、jieba:https://github.com/yanyiwu/cppjieba

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux
    +关注

    关注

    87

    文章

    10942

    浏览量

    206545
  • 开源
    +关注

    关注

    3

    文章

    2960

    浏览量

    41602
  • python
    +关注

    关注

    51

    文章

    4657

    浏览量

    83379

原文标题:准确率秒杀结巴分词,北大开源全新中文分词工具包PKUSeg

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    求助,请问有没有labview opc ua工具包 2018 啊

    如题,求助,请问有没有labview opc ua工具包 2018 啊。只要2018的哦
    发表于 01-25 20:14

    labview工具包下载

    求助labview2020控制仿真工具包,官网下载不了,这个说能免注册下载网址我打开也是空白,求助好心人帮帮忙分享 https://download.ni.com/#evalua
    发表于 01-16 15:07

    FoolNLTK:简单好用的中文NLP工具包

    FoolNLTK — 作者号称“可能不是最快的开源中文分词,但很可能是最准的开源中文分词”。 这
    的头像 发表于 11-01 10:41 217次阅读

    FoolNLTK:简单好用的中文NLP工具包

    FoolNLTK — 作者号称“可能不是最快的开源中文分词,但很可能是最准的开源中文分词”。 这
    的头像 发表于 10-30 09:40 644次阅读

    【LuckFox Pico Plus开发板免费试用】+ADB工具包的使用

    ADB工具包种较为使用的工具软件,这里就介绍下它的基本用法。 在使用前,需下载ADB工具包软件。 在解压后,其内容如图1所示,该
    发表于 10-20 15:23

    ARM KEIL™MDK工具包的操作流程

    本笔记介绍ARM®KEIL™MDK工具包的操作流程,该工具包采用了μVision®和MicroSemi(Actel™)包含嵌入式ARM®Cortex™-M3处理器的全新智能融合2(SF2)系列
    发表于 09-04 06:16

    ARM KEIL™MDK工具包的操作流程

    本笔记介绍ARM®KEIL™MDK工具包的操作流程,该工具包采用了μVision®和MicroSemi的SmartFusion2(™)系列,该系列包含嵌入式ARM®Cortex™-M3处理器
    发表于 08-29 07:39

    ARM软件开发工具包2.50版参考指南

    ARM软件开发工具包(SDT)由套应用程序以及支持文档和示例组成,使您能够为ARM系列RISC处理器编写和调试应用程序。 您可以使用SDT来开发、生成和调试C、C++或ARM汇编语言程序。
    发表于 08-21 07:17

    如何在OpenVINO trade工具包中推断两图像?

    无法在OpenVINO™工具包中对两输入图像运行推理。
    发表于 08-15 08:24

    如何在OpenVINO工具包中使用带推理引擎的blob?

    无法确定如何在OpenVINO™工具包中使用带推理引擎的 blob。
    发表于 08-15 07:17

    c++对于ARM软件开发工具包用户及参考指引

    这本书描述armc++ 1.0版本的ARM软件开发工具包,以下简称为armc++。ARM c++是工具,当与ARM软件开发工具包2.1
    发表于 08-08 06:29

    利用OpenVINO工具包检测汽车品牌

    地检测品牌、车标和形状。 OpenVINO TM的Intel&Distribution工具包全面的工具包,用于快速开发模拟人类视觉的应用程序和解决方案。该
    发表于 08-04 07:36

    如何访问已与eIQ工具包起安装的python版本?

    我正在尝试在远程 SSH 板上安装 eIQ 工具包,DEBIX Model A 板具有 I.MX 8M Plus EdgeVerse 处理器和 Ubuntu 20.04。 我下载 eIQ 工具包
    发表于 06-07 06:46

    求分享构建简单的ESP8266 wifi电路板要用到的工具包和任何可用的源代码?

    构建简单的 ESP8266 wifi 电路板。 使用典型的 3.7V 锂离子 USB 可充电电池。 显示剩余电池电量百分比的 Android 应用程序。 任何演示套件随时可用? 请告诉我们在哪里可以找到这种简单的工具包和任何
    发表于 06-01 12:34

    想要构建简单的wifi温度计,在哪里可以找到这样简单的工具包和源代码?

    我们正计划构建简单的 wifi 温度计。内置热电偶。可充电电池。Android 应用程序以 F 和 C 显示温度。电池百分比。任何演示套件随时可用?请告诉我们在哪里可以找到这样简单的工具包和源代码?
    发表于 06-01 09:15