0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

两个跟中文相关的资源工具介绍

电子工程师 来源:未知 作者:李倩 2018-09-17 09:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】平常为大家推荐的资源中,以英语语言占据大多数。今天 特别要为大家推荐两个跟中文相关的资源工具。先简单介绍下这两个资源工具都是什么。第一个,汉字转拼音的工具——即将中文字符转换成它的拼音。除了支持 JavaScript,还可以支持 Python、Go、Rust 等多种语言。可以说是非常 nice 的一个中文资源工具了。第二个是新华字典的 API,收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。有需要的同学可以收藏留着用,觉得不错记得分享点赞。

汉字转拼音工具

▌功能

将中文字符转换为拼音。可用于汉字注音、排序、检索任务。

▌特性

根据词组智能匹配最正确的拼音。

支持多音字。

简单的繁体支持, 注音支持。

支持多种不同拼音/注音风格。

▌支持版本

1.Node.js/JavaScript 版

注:这个版本同时支持在 Node 和 Web 浏览器环境运行;

作者:hotoo;来源:GitHub

https://github.com/hotoo/pinyin

2.Python 版

作者:mozillazg;来源:GitHub

https://github.com/mozillazg/python-pinyin

3.Go 版

作者:mozillazg;来源:GitHub

https://github.com/mozillazg/go-pinyin

4.Rust 版

作者:mozillazg;来源:GitHub

https://github.com/mozillazg/rust-pinyin

▌一些注意事项

1.为什么没有 y, w, yu 几个声母?

1>>>frompypinyinimportStyle,pinyin2>>>pinyin('下雨天',style=Style.INITIALS)3[['x'],[''],['t']]

因为根据《汉语拼音方案》, y,w,ü (yu) 都不是声母。

声母风格(INITIALS)下,“雨”、“我”、“圆”等汉字返回空字符串,因为根据《汉语拼音方案》, y,w,ü (yu) 都不是声母,在某些特定韵母无声母时,才加上 y 或 w,而 ü 也有其特定规则。 —— @hotoo

如果你觉得这个给你带来了麻烦,那么也请小心一些无声母的汉字(如“啊”、“饿”、“按”、“昂”等)。 这时候你也许需要的是首字母风格(FIRST_LETTER)。 —— @hotoo

参考:

hotoo/pinyin#57,#22,#27,#44

如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定strict=False, 这个可能会符合你的预期,详见strict 参数的影响

1>>>frompypinyinimportStyle,pinyin2>>>pinyin('下雨天',style=Style.INITIALS)3[['x'],[''],['t']]4>>>pinyin('下雨天',style=Style.INITIALS,strict=False)5[['x'],['y'],['t']]

2.拼音数据

单个汉字的拼音使用pinyin-data的数据

词组的拼音使用phrase-pinyin-data的数据

3.node 版和 web 版有什么异同?

pinyin目前可以同时运行在 Node 服务器端和 Web 浏览器端。 API 和使用方式完成一致。但 Web 版较 Node 版稍简单,拼音库只有常用字部分,没有使用分词算法, 并且考虑了网络传输对词库进行了压缩处理。

由于分词和繁体中文的特性,部分情况下的结果也不尽相同。由于这些区别,测试不同运行环境的用例也不尽相同。

更多详细安装与使用教程可访问 GitHub 链接进行访问~

各版本 GitHub 地址:

https://github.com/hotoo/pinyin

https://github.com/mozillazg/python-pinyin

https://github.com/mozillazg/go-pinyin

https://github.com/mozillazg/rust-pinyin

新华字典 API

▌介绍

作者本来的目的是想可以实现成语接龙,苦于没有现成可用的数据库,自己就从各个网站抓取整理了一份。所有的数据都作者从网上找的。放在 Github 是为了方便自己的使用,同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的脚本都在仓库里。

中华新华字典数据库和 API 。收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。所有的数据放在 data/ 目录。

▌数据库与 API 介绍

1.成语(idiom.json)

2.词语(ci.json)

3.汉字(word.json)

4.歇后语(xiehouyu.json)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络传输
    +关注

    关注

    0

    文章

    149

    浏览量

    18326
  • python
    +关注

    关注

    57

    文章

    4858

    浏览量

    89598

原文标题:汉语转拼音工具、新华字典API——两个支持Python的中文资源

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    两个MOS管串联接法的应用

    本文是关于两个MOS 管串联组成反向电流阻断电路的介绍
    发表于 07-19 15:46 4.2w次阅读
    <b class='flag-5'>两个</b>MOS管串联接法的应用

    控件中出现的中文如何变为英文?例如visa资源名称下拉里的刷新两个字,去掉也行。

    本帖最后由 jiutianshenjian 于 2017-7-20 15:52 编辑 visa资源名称下拉里的刷新两个字,去掉也行。不能显示中文,我labview2013中文版的
    发表于 07-20 15:24

    ML之MLiR:输入两个向量,得出两个向量之间的相关

    ML之MLiR:输入两个向量,得出两个向量之间的相关
    发表于 12-24 11:54

    有什么方法能够在lineoutheadphone两个输出通道实现不同信号的输出?

    我现在需要输出两个不同的信号,我一直用aic23的命令:while (!DSK6713_AIC23_write(hCodec, x[sample])) 来实现输出,不过lineout
    发表于 08-15 10:16

    最全面的PCB设计工具资源汇总

    主流的PCB设计工具Altium Designer:国内外最普及的PCB设计工具,设计资源丰富,社区完善,目前已经更新到了AD19,并提供一月的免费试用,目前仅提供Windows版本
    发表于 08-29 17:58

    两个阻抗的并联和复数的化简

    这是本人自己编写的常用软件工具两个阻抗并联的阻抗值和阻抗角计算及复数的化简,希望可以帮到大家。
    发表于 04-06 11:13 27次下载

    合并两个排序的链表

    合并两个排序的链表一、题目要求 输入两个单调递增的链表,输出两个链表合成后的链表,当然我们需要合成后的链表满足单调不减规则。 二、我的思路 1、比较两个链表的头结点大小,哪个小就将其作
    发表于 01-16 22:02 699次阅读

    两个设计要点+三技术资源:加速度传感器应用必读!

    两个设计要点+三技术资源:加速度传感器应用必读!
    的头像 发表于 07-02 11:40 3152次阅读

    电路有两个电源如何分析

    两个电源共用同一参考点(地),所以每个电源流出的电流一样用这个参考点回路,又每个电源流出的电流每个电阻上的电流都有一定的关系。
    发表于 12-20 09:28 5.1w次阅读
    一<b class='flag-5'>个</b>电路有<b class='flag-5'>两个</b>电源如何分析

    两个网络相关的开源项目详解

    今天介绍两个(only two)网络相关的开源项目。 Alex的verilog-ethernet之前在介绍PCIe项目时有介绍过Alex的项
    的头像 发表于 10-27 09:20 3632次阅读
    <b class='flag-5'>两个</b>网络<b class='flag-5'>相关</b>的开源项目详解

    分享两个一键启停电路

    在很多想让操作简单化的项目中,都会用到一键启停,即通过一按钮来实现设备的运行和停止,今天新手朋友分享两个电路。
    的头像 发表于 10-10 11:12 4704次阅读

    两个LED和两个按钮的使用

    电子发烧友网站提供《两个LED和两个按钮的使用.zip》资料免费下载
    发表于 01-30 16:04 1次下载
    <b class='flag-5'>两个</b>LED和<b class='flag-5'>两个</b>按钮的使用

    关于两个Python开源识别工具的效果

    回复希望出一篇 OCR 相关的文章,今天尝试了一下 cnocr 和 tesseract 两个 Python 开源识别工具的效果,给大家分别讲讲两个
    的头像 发表于 10-17 11:36 1488次阅读
    关于<b class='flag-5'>两个</b>Python开源识别<b class='flag-5'>工具</b>的效果

    两个硬盘2系统开机切换

    切换两个硬盘上的系统是一种常见的行为,可以让用户在不同的操作系统之间进行切换,以满足不同的需求。在本文中,我们将详细介绍如何配置和使用两个硬盘上的系统进行切换。本文将分为以下几个部分进行讨论:硬件
    的头像 发表于 11-28 15:08 1.2w次阅读

    arcgis中如何关联两个属性表

    在ArcGIS中,关联两个属性表是一重要的操作,可以通过此操作将两个表中的数据关联起来,以便进行分析和查询。下面是详细介绍如何在ArcGIS中实现属性表的关联。 首先,我们需要明确
    的头像 发表于 02-25 11:01 6777次阅读