0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FoolNLTK:简单好用的中文NLP工具包

科技绿洲 来源:Python实用宝典 作者:Python实用宝典 2023-11-01 10:41 次阅读

FoolNLTK — 作者号称“可能不是最快的开源中文分词,但很可能是最准的开源中文分词”。

这个开源工具包基于BiLSTM模型训练而成,功能包含分词,词性标注,实体识别。并支持用户自定义词典,可训练自己的模型及批量处理文本。

1.准备

开始之前,你要确保Pythonpip已经成功安装在电脑上,如果没有,可以访问这篇文章:超详细Python安装指南 进行安装。

如果你用Python的目的是数据分析,可以直接安装Anaconda:Python数据分析与挖掘好帮手—Anaconda,它内置了Python和pip.

此外,推荐大家用VSCode编辑器,它有许多的优点:Python 编程的最好搭档—VSCode 详细指南

请选择以下任一种方式输入命令安装依赖

  1. Windows 环境 打开 Cmd (开始-运行-CMD)。
  2. MacOS 环境 打开 Terminal (command+空格输入Terminal)。
  3. 如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install foolnltk

2.使用说明

2.1 分词功能

通过 fool.cut 函数,能够实现分词功能:

import fool

text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

命令行针对文件进行分词操作:

python -m fool [filename]

2.2 用户自定义词典

词典格式格式如下,词的权重越高,词的长度越长就越越可能出现,权重值请大于1:

难受香菇 10
什么鬼 10
分词工具 10
北京 10
北京天安门 10

加载词典:

import fool
fool.load_userdict(path) # path 为词典路径
text = ["我在北京天安门看你难受香菇", "我在北京晒太阳你在非洲看雪"]
print(fool.cut(text))
#[['我', '在', '北京', '天安门', '看', '你', '难受', '香菇'],
# ['我', '在', '北京', '晒太阳', '你', '在', '非洲', '看', '雪']]

删除词典:

fool.delete_userdict()

2.3 词性标注

词性标注只需要使用 pos_cut 函数,生成的数组结果中,第一个维度是对应字符串的识别结果。第二个维度是分词后的每个词语及对应的词性。

import fool

text = ["一个傻子在北京"]
print(fool.pos_cut(text))
#[[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]]

2.4 实体识别

实体识别的结果元素中,第一二个元素是关键词的起始坐标和结束坐标,第三个元素是实体类别,最后一个元素是实体关键词。

import fool

text = ["一个傻子在北京","你好啊"]
words, ners = fool.analysis(text)
print(ners)
#[[(5, 8, 'location', '北京')]]

3.定制自己的模型

你可以在 linuxPython3 环境定制自己的模型。

git clone https://github.com/rockyzhengwu/FoolNLTK.git
cd FoolNLTK/train
  1. 训练。 模型训练 data_dir 存放训练数据格式如 datasets/demo 下。下载与训练的模型,我这里是将下载的模型软链接到 pretrainmodel 下
python ./train_bert_ner.py --data_dir=data/bid_train_data 
  --bert_config_file=./pretrainmodel/bert_config.json 
  --init_checkpoint=./pretrainmodel/bert_model.ckpt 
  --vocab_file=./pretrainmodel/vocab.txt 
  --output_dir=./output/all_bid_result_dir/ --do_train
  1. 导出模型 。模型导出 predict 同时指定 do_export 就能导出 pb 格式的模型,用于部署:
python ./train_bert_ner.py --data_dir=data/bid_train_data 
  --bert_config_file=./pretrainmodel/bert_config.json 
  --init_checkpoint=./pretrainmodel/bert_model.ckpt 
  --vocab_file=vocab.txt 
  --output_dir=./output/all_bid_result_dir/ --do_predict --do_export
  1. 预测 。在 bert_predict.py 中指定下面三个参数就能加载训练好的模型完成预测:
VOCAB_FILE = './pretrainmodel/vocab.txt'
LABEL_FILE = './output/label2id.pkl'
EXPORT_PATH = './export_models/1581318324'
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47688
  • 工具包
    +关注

    关注

    0

    文章

    45

    浏览量

    9458
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21823
收藏 人收藏

    评论

    相关推荐

    PID工具包

    新手求助:PID工具包怎么用?
    发表于 05-06 09:57

    PIC 语言工具包问题

    大家好,PIC 我是新手,有个简单的问题请教一下,就是我导入一个mcp的,mplab会报语言工具包不对,这个要如何处理,因我导的是网上下下来的,所以不知道之前用的是什么语言
    发表于 04-19 14:00

    fastrbf工具包

    求matlab中fastrbf的工具包 ,有谁有这个工具包呢?求分享?急需
    发表于 03-05 20:05

    关于labview工具包

    请问各位大神一个问题,LabVIEW的工具包如何下载,比如声音和振动工具包,官网上只有下载界面。
    发表于 09-04 19:27

    Labview 处理图片的工具包

    现在需要对图片进行识别和处理,比如将bmp图像化成二位数组进行处理,用数组处理起来非常慢,有没有好用工具包
    发表于 11-13 11:50

    Labview PDF工具包 SAI_PDF_API不能显示中文

    使用 SAI_PDF_API工具包生成PDF文件,不能显示中文,可设置的字形也很少,请问这么才能生成可以显示中文的PDF文件?谢谢!
    发表于 02-10 17:25

    谁有labview声音和振动工具包中文用户手册

    如题,现在想用labview对音频信号进行测试,用到了声音和振动工具包,但里面的帮助全是英文的.看起来有些吃力.谁有中文的帮助说明.这里先谢过!
    发表于 03-05 17:49

    工具包

    谁有labview视觉工具包2013适用的??分享一下,不胜感激
    发表于 04-27 23:28

    同一版本labview英文和中文版的工具包有区别吗

    之前用的英文版,现在想卸了装中文版,不知道工具包还能用吗
    发表于 08-03 16:40

    跪求sound and vibration工具包中文手册。

    跪求sound and vibration工具包中文手册。
    发表于 09-24 10:46

    LabVIEW中PID、模糊逻辑控制工具包中文手册

    LabVIEW中PID、模糊逻辑控制工具包中文手册
    发表于 10-22 11:29

    LabVIEW工具包里有没有关于stc单片机的

    之前看LabVIEW里有arduino的工具包,很方便,做上位机很好用,连下位机的程序都有,请问关于单片机的工具包有没有~~
    发表于 11-24 10:46

    LabView 2018中文版32位,以及2018工具包大全,DSC2018工具包,VISION2018视觉工具包附下载地址

    ://url.elecfans.com/u/78643b3008LabView 2018中文版32位,以及2018工具包大全,DSC2018工具包,VISION2018视觉工具包。La
    发表于 05-09 15:19

    请问NI的声音与振动工具包中文的说明吗?

    请问NI的声音与振动工具包中文的说明吗?本人英语太差。。。软件翻译的有些生硬。
    发表于 03-22 11:48

    FoolNLTK简单好用中文NLP工具包

    FoolNLTK — 作者号称“可能不是最快的开源中文分词,但很可能是最准的开源中文分词”。 这个开源工具包基于 BiLSTM模型 训练而成,功能包含分词,词性标注,实体识别。并支持用
    的头像 发表于 10-30 09:40 676次阅读