0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorFlow现在可以支持Unicode,这是一种标准编码系统

Tensorflowers 来源:lq 2018-12-31 11:37 次阅读

TensorFlow 现在可以支持 Unicode,这是一种标准编码系统,可以表示几乎所有语言的字符。处理自然语言时,了解字符的编码方式非常重要。在像英语这样的小字符集的语言中,每个字符都可以使用 ASCII 进行表示。但是这种方法对于其他语言来说并不实用,例如中文,这些语言有数千个字符。即使处理英文文本,Emojis 等特殊字符也不能用 ASCII 表示。

定义字符及其编码的最常用标准是 Unicode,它几乎支持所有语言。对于 Unicode,每个字符使用唯一的整数 code point 表示,其值介于 0 和 0x10FFFF 之间。当按顺序放置 code point 时,将形成 Unicode 字符串。

Unicode tutorial colab展示了如何在 TensorFlow 中表示 Unicode 字符串。使用 TensorFlow 时,有两种标准方式来表示 Unicode 字符串:

作为整数向量,其中每个位置包含单个 code point

作为字符串,使用字符编码将 code point 序列编码到字符串中。有许多字符编码,其中一些最常见的是 UTF-8,UTF-16 等

以下代码分别使用 code point、UTF-8 和 UTF-16 显示字符串 “语言处理” 的编码。

当然,您可能需要在各种表示方式之间进行转换,而 TensorFlow 1.13 已添加了执行此操作的函数:

tf.strings.unicode_decode: 将字符串标量转换为 code point 的向量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)

tf.strings.unicode_encode: 将 code point 向量转换为字符串标量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)

tf.strings.unicode_transcode: 将字符串标量转换为不同的编码(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_transcode)

因此,如果要将上述示例中的 UTF-8 解码为 code point 向量,则可以执行以下操作:

当解码包含多个字符串的 Tensor 时,字符串可能具有不同的长度。 unicode_decode 将结果作为 RaggedTensor 返回,其中内部维度的长度根据每个字符串中的字符数而变化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码
    +关注

    关注

    6

    文章

    835

    浏览量

    54458
  • Unicode
    +关注

    关注

    0

    文章

    23

    浏览量

    12511
  • tensorflow
    +关注

    关注

    13

    文章

    313

    浏览量

    60242

原文标题:TensorFlow 支持 Unicode 编码

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    RTT使用unicode编码,编译不通过是为什么?

    1、我们为了设备兼容俄语,就需要使用到unicode编码,将字符串保存文件保存为unicode编码,但是编译之后出现大堆错误。 2、编译器
    发表于 03-27 08:01

    一种新的IEEE 802.16系统调制编码模式切换方案

    IEEE 802.16系统支持多种调制编码模式以实现通信质量和传输速率最优化.为了降低无线信道衰减时变性和随机性的影响,提高系统的最大吞吐量,提出了一种新的调制
    发表于 05-13 09:11

    STM32是否支持汉字的Unicode码储存??

    在STM32里储存个“中”字,是不是按Unicode码储存的? 例如“冰”字,是不是51B0?如果是,那是不是分开51与B0两个字节来储存? 如果不支持,那它支持
    发表于 08-18 15:50

    Unicode和GB2312编码互转VI

    因为在写GSM短信收发数据上位机软件,需要用到Unicode和GB2312编码转换。搞了很长时间,直没头序。后来参考网上个例程,基于查表方式,自己修改了终于成功了。
    发表于 03-21 17:09

    第17章 STemWin外语支持

    。 本章将介绍些基本知识,比如定义全球所有可用字符的Unicode标准,以及UTF-8编码方案,emWin使用该方案来解码以Unicode
    发表于 10-14 08:01

    Labview GBK字符转Unicode编码支持混合字符)

    labview字符控件中的汉字编码是GBK,应用中如需用到Unicode编码,labview没有直接的函数可以调用,现分享下我编写的基于查表方式实现互转的程序。先前做的版本只
    发表于 10-28 11:50

    TensorFlow常用Python扩展包

    安装: OS:这包括在基本的 Python 安装中。它提供了一种使用操作系统相关功能(如读取、写入及更改文件和目录)的简单便携方式。Pandas:这提供了各种数据结构和数据分析工具。使用 Pandas
    发表于 07-28 14:35

    一种开放性的SoC总线标准

    (Advanced Microprocessor Bus Architecture)是ARM公司提出的一种开放性的SoC总线标准现在已经广泛的应用于RISC的内核上了。 AMBA定义了一种
    发表于 08-05 07:02

    一种支持TTL协议设备与CAN协议设备通信的电路

    本实用新型涉及通信电路,尤其是一种支持TTL协议设备与CAN协议设备通信的电路。背景技术:CAN是一种标准化的串行通信协议,CAN属于现场总线的范畴,它是
    发表于 08-23 08:31

    一种基于GSM和Zigbee技术的无线安防系统

    和接收短消息,利用GSM模块和手机之间进行信息交换,首先就要对信息进行PDU格式的编码和解码。本系统采用Unicode编码形式。Unicode
    发表于 12-01 09:36

    UNICODE,GBK,UTF-8区别

    Unicode编码,简要解释UCS、UTF、BMP、BOM等名词。这是一篇程序员写给程序员的趣味读物
    发表于 03-28 10:28 2335次阅读

    Unicode编码介绍

    Unicode有两套标准,一套叫UCS-2(Unicode-16),用2个字节为字符编码,另一套叫UCS-4(Unicode-32),用4个
    发表于 04-18 08:35 1353次阅读

    字符Unicode标准编码计算器免费下载

    字符标准编码计算器可以计算出任意字符的Unicode码,尤其是汉字的Unicode码计算对我们的实际开发有一定的帮助意义。使用此软件
    发表于 09-16 10:14 41次下载
    字符<b class='flag-5'>Unicode</b><b class='flag-5'>标准</b><b class='flag-5'>编码</b>计算器免费下载

    ascii和utf8的区别_ASCII编码与UTF-8的关系

    UTF-8是一种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 362
    的头像 发表于 01-30 13:34 2.8w次阅读
    ascii和utf8的区别_ASCII<b class='flag-5'>编码</b>与UTF-8的关系

    unicode如何转GBK字库制作

    UTF-8(8 位元,Universal Character Set/Unicode Transformation Format)是针对 Unicode一种可变长度字符编码。UC
    发表于 08-14 10:45 14次下载