0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA NeMo进行文本规范化和反向文本规范化

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-10-11 11:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

文本规范化( TN )将文本从书面形式转换为口头形式,是文本到语音( TTS )之前的一个重要预处理步骤。 TN 确保 TTS 可以处理所有输入文本,而不会跳过未知符号。例如,“ 123 美元”转换为“一百二十三美元”

反向文本规范化( ITN )是自动语音识别( ASR )后处理管道的一部分。 ITN 将 ASR 模型输出转换为书面形式,以提高文本可读性。例如, ITN 模块将 ASR 模型转录的“ 123 美元”替换为“ 123 美元。”

ITN 不仅提高了可读性,还提高了下游任务(如神经机器翻译或命名实体识别)的性能,因为这些任务在训练期间使用书面文本。

pYYBAGNE5dmAPcpOAACvpftVosU813.png

图 1.会话 AI 管道中的 TN 和 ITN

TN 和 ITN 任务面临几个挑战:

标记的数据稀缺且难以收集。

由于 TN 和 ITN 错误会级联到后续模型,因此对不可恢复错误的容忍度较低。改变输入语义的 TN 和 ITN 错误称为不可恢复。

TN 和 ITN 系统支持多种 semiotic classes ,即口语形式不同于书面形式的单词或标记,需要规范化。例如日期、小数、基数、度量等。

许多最先进的 TN systems in production 仍然使用 加权有限状态传感器 ( WFST )基于规则。 WFST 是 finite-state machines 的一种形式,用于绘制正则语言(或 regular expressions )之间的关系。对于这篇文章,它们可以由两个主要属性定义:

用于文本替换的已接受输入和输出表达式之间的映射

直接图遍历的路径加权

如果存在歧义,则选择权重总和最小的路径。在图 2 中,“二十三”被转换为“ 23 ”而不是“ 203 ”

poYBAGNE5duAY_g6AACZe7ntwds780.jpg

图 2.输入“二十三”的 WFST 格子

目前, NVIDIA NeMo 为 TN 和 ITN 系统提供以下选项:

Context-independent WFST-based TN and ITN grammars

Context-aware WFST-based grammars + neural LM for TN

Audio-based TN for speech datasets creation

Neural TN and ITN

基于 WFST 的语法(系统 1 、 2 和 3 )

NeMo 文本处理包是一个 Python 框架,它依赖于 Python 包 Pynini 来编写和编译规范化语法。有关最新支持的语言的更多信息,请参阅 Language Support Matrix 。有关如何扩展或添加语言语法的更多信息,请参阅 语法定制 。

Pynini 是一个构建在 OpenFst 之上的工具包,它支持将语法导出到 OpenFST Archive File (FAR) 中(图 3 )。 FAR 文件可以在基于 Sparrowhawk 的 C ++生产框架中使用。

pYYBAGNE5d6AdgDWAADcR5Wldv8789.png

图 3. NeMo 反向文本规范化开发和部署示意图

我们最初版本的 TN / ITN 系统# 1 没有考虑上下文,因为这会使规则更加复杂,这需要广泛的语言知识,并降低延迟。如果输入不明确,例如,与“ 1 / 4 个杯子”相比,“火车在 1 / 4 上出发”中的“ 1 / 4 ”,则系统# 1 会在不考虑上下文的情况下确定地选择归一化。

该系统扩展了系统# 1 ,并在规范化期间合并了上下文。在上下文不明确的情况下,系统输出多个规范化选项,使用预处理语言模型使用 Masked Language Model Scoring 重新搜索(图 4 )。

poYBAGNE5d-Aeu8KAACE1FkLtwQ378.png

图 4.WFST + LM 浅熔管线

WFST 生成所有可能的标准化表格,并为每个选项分配权重。

修剪权重高于阈值“ 401.2 ”的标准化选项。在本例中,我们删除了“ 1 / 4 ”。它的权重更高,因为它没有完全归一化。

LM 重新排序在其余选项中选择了最佳选项。

这种方法类似于 ASR 的浅层融合,并结合了基于规则和神经系统的优点。 WFST 仍然限制了不可恢复的错误,而神经语言模型在不需要大量规则或难以获取数据的情况下解决了上下文模糊性。有关详细信息,请参阅 Text normalization 。

表 1 比较了 WFST + LM 方法在句子准确性方面与之前的系统# 1 ( DetWFST )和三个数据集上的纯神经系统( Duplex )。在本文后面,我们将提供有关系统# 4 的更多详细信息。

总的来说, WFST + LM 模型是最有效的,特别是在 EngConf 上,这是一个具有模糊示例的自收集数据集。

图 5 显示了这三种方法对错误的敏感性。虽然神经方法受不可恢复错误(如幻觉或遗漏)的影响最大,但 WFST + LM 受这些错误和类歧义的影响最小。

pYYBAGNE5d-AC4NHAAGl3a8ZE3A118.png

图 5.上下文无关的 WFST 、 Duplex 和 WFST + LM 系统的错误模式

基于音频的 TN (系统 3 )

在创建新的语音数据集时,文本规范化也很有用。例如,“六二七”和“六二十七”都是“ 627 ”的有效规范化选项。但是,您必须选择最能反映相应音频中实际内容的选项。基于音频的文本规范化提供了此类功能(图 6 )。

poYBAGNE5eCAEQBtAAE-G9ySJZA471.png

图 6.基于音频的标准化分辨率示例

神经 TN 和 ITN 模型(系统 4 )

与基于规则的系统相比,神经系统的一个显著优势是,如果存在新语言的训练数据,那么它们很容易扩展。基于规则的系统需要花费大量精力来创建,并且由于组合爆发,可能会在某些输入上工作缓慢。

作为 WFST 解决方案的替代方案, NeMo 为 TN / ITN 提供了 seq2seq Duplex 模型,为 ITN 提供了基于标记器的神经模型。

双重 TN 和 ITN

Duplex TN and ITN 是一个基于神经的系统,可以同时进行 TN 和 ITN 。在较高的层次上,该系统由两个组件组成:

DuplexTaggerModel: 基于 transformer 的标记器,用于识别输入中的符号跨度(例如,关于时间、日期或货币金额的跨度)。

DuplexDecoderModel :基于变压器的 seq2seq 模型,用于将符号跨度解码为适当的形式(例如, TN 的口语形式和 ITN 的书面形式)。

术语“双工”指的是这样一个事实,即该系统可以训练为同时执行 TN 和 ITN 。但是,您也可以专门针对其中一项任务对系统进行培训。

图特莫斯塔格

双工模型是一种顺序到顺序模型。不幸的是,这种神经模型容易产生幻觉,从而导致无法恢复的错误。

Thutmose Tagger 模型将 ITN 视为一项标记任务,并缓解了幻觉问题(图 7 和 8 )。 Thutmose 是一个单通道令牌分类器模型,它为每个输入令牌分配一个替换片段,或将其标记为删除或复制而不做更改。

NeMo 提供了一种基于 ITN 示例粒度对齐的数据集准备方法。该模型在谷歌文本规范化数据集上进行训练,并在英语和俄语测试集上实现了最先进的句子准确性。

表 2 和表 3 总结了两个指标的评估结果:

Sentence accuracy :将每个预测与参考的多个可能变体相匹配的自动度量。所有错误分为两组:数字错误和其他错误。当至少有一个数字与最接近的参考变量不同时,会发生数字错误。其他错误意味着预测中存在非数字错误,例如标点符号或字母不匹配。

Word error rate ( WER ): ASR 中常用的自动度量。

d- BERT 代表蒸馏 BERT 。
默认值是默认的 Google 文本规范化测试集。
Hard 是一个测试集,每个符号类至少有 1000 个样本。

标签和输入词之间的一对一对应提高了模型预测的可解释性,简化了调试,并支持后期处理更正。该模型比序列到序列模型更简单,更容易在生产设置中进行优化。

pYYBAGNE5eGAGMAiAAC8Zz7ko5c597.png

图 7.ITN 作为标记:推理示例

输入单词的序列由基于 BERT 的标记分类器处理,给出输出标记序列。简单的确定性后处理提供最终输出。

poYBAGNE5emANzzBAAR_57DglUg026.png

图 8.错误示例:(左) Thutmose tagger ,(右) Duplex 模型

结论

文本规范化和反向文本规范化对于会话系统至关重要,并极大地影响用户体验。本文结合 WFST 和预处理语言模型的优点,介绍了一种处理 TN 任务的新方法,以及一种处理 ITN 任务的基于神经标记的新方法。

关于作者

Yang Zhang 是英伟达人工智能应用集团的一名深度学习软件工程师。她目前的重点是自然语言处理、对话管理和文本(去规范化)。在过去,她一直致力于大型 ASR 模型和语言模型预培训的可扩展培训。她在卡内基梅隆大学获得机器学习硕士学位,在德国卡尔斯鲁厄理工学院获得计算机科学学士学位。

Evelina Bakhturina 是 Nvidia 的一个深学习应用科学家,专注于自然语言处理任务和英伟达 NeMo 框架。她毕业于纽约大学,获得数据科学硕士学位

Alexandra Antonova 是 NVIDIA Conversational AI 团队( NeMo )的高级研究科学家,致力于 ASR 模型。她在莫斯科国立大学学习理论和应用语言学,在莫斯科物理技术学院深造。在加入 NVIDIA 之前,她曾在几家俄罗斯科技公司工作。在空闲时间,她喜欢读书。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2574

    文章

    54382

    浏览量

    786126
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109097
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广凌标准考场整体解决方案解析:构建智慧考场新标杆

    在国家教育考试日益规范化的背景下,标准考点建设已成为保障考试公平、提升管理效率的关键举措。广凌科技(广凌股份)深耕教育信息领域27年,凭借AI、5G、物联网等前沿技术,推出标准
    的头像 发表于 10-31 15:17 843次阅读
    广凌标准<b class='flag-5'>化</b>考场整体解决方案解析:构建智慧考场新标杆

    《中国数字医疗发展蓝皮书》在京发布

    凝聚行业共识,助力中国数字医疗生态体系规范化升级 北京2025年9月15日 /美通社/ -- 在2025年中国国际服务贸易交易会召开之际,以 "开放、合作、共建、共享" 为主题的首都国际医学大会
    的头像 发表于 09-15 17:48 545次阅读
    《中国数字医疗发展蓝皮书》在京发布

    云翎智能高精度巡检执法记录仪:铁路巡检全流程数字管控实践

    云翎智能高精度巡检执法记录仪通过“事前-事中-事后”全流程数字管控,结合高精度定位、AI智能识别、多模态数据采集等技术,实现铁路巡检的规范化、智能与闭环管理。以下从全流程各阶段拆解其管控逻辑:云
    的头像 发表于 08-22 21:33 371次阅读
    云翎智能高精度巡检执法记录仪:铁路巡检全流程数字<b class='flag-5'>化</b>管控实践

    农村供水智慧管理平台怎么建设?

    《乡村全面振兴规划(2024—2027年)》提到:强化供水安全保障,因地制宜推进城乡供水一体、集中供水规模发展,实施小型供水工程规范化建设和改造,加强中小型水源保障工程建设,实施水质提升行动
    的头像 发表于 08-14 15:35 386次阅读
    农村供水智慧<b class='flag-5'>化</b>管理平台怎么建设?

    ESP32驱动SPIFFS进行文件操作

    本篇文章介绍如何在ESP32开发板上使用SPIFFS(SPI Flash File System)进行文件操作。看下如何初始SPIFFS文件系统、读取文件、列出文件、删除文件,并查看存储的剩余空间。
    的头像 发表于 08-05 18:11 3908次阅读
    ESP32驱动SPIFFS<b class='flag-5'>进行文</b>件操作

    飞书开源“RTV”富文本组件 重塑鸿蒙应用富文本渲染体验

    近日,飞书正式将其自研的富文本组件库 RichTextVista(简称“RTV”)开源,并上线OpenHarmony 三方库中心仓。该组件以领先的性能、流畅的渲染体验与高度的开放性,为鸿蒙生态提供了
    的头像 发表于 07-11 15:20 455次阅读
    飞书开源“RTV”富<b class='flag-5'>文本</b>组件 重塑鸿蒙应用富<b class='flag-5'>文本</b>渲染体验

    Allegro Skill工艺辅助之导入叠层模板

    在PCB设计中,导入叠层模板能够确保设计的标准规范化,避免因手动设置叠层参数而可能出现的错误或不一致情况。
    的头像 发表于 07-10 17:10 2842次阅读
    Allegro Skill工艺辅助之导入叠层模板

    镭神智能深度参与两项激光雷达国家标准制定 引领行业规范化发展新征程

    ,深圳市镭神智能系统有限公司在董事长胡小波先生的带领下,深度参与标准制定工作,为推动激光雷达技术规范化、产业发展贡献了核心力量。国家标准《车载激光雷达性能要求及
    的头像 发表于 05-09 18:57 870次阅读
    镭神智能深度参与两项激光雷达国家标准制定 引领行业<b class='flag-5'>规范化</b>发展新征程

    众合云科林枚参编的人力资源AI领域团体标准正式发布,助推行业数字人才能力规范化建设

    专家组成员,参与该标准的起草、研讨、修订及技术审核工作,为人工智能与人力资源数字应用技能领域的人才能力规范化建设提供专业支持。 (众合云科人力资源副总裁林枚受邀担任《标准》编委) 本次《标准》共有9个章节,规定AI+人力资源数字
    的头像 发表于 05-09 15:05 321次阅读
    众合云科林枚参编的人力资源AI领域团体标准正式发布,助推行业数字<b class='flag-5'>化</b>人才能力<b class='flag-5'>规范化</b>建设

    企业使用NVIDIA NeMo微服务构建AI智能体平台

    已发布的 NeMo 微服务可与合作伙伴平台集成,作为创建 AI 智能体的构建模块,使用商业智能与强大的逻辑推理模型 (包括 NVIDIA Llama Nemotron) 处理更多任务。
    的头像 发表于 04-27 15:05 1001次阅读

    共建标准,共享未来:狄耐克积极参与脑机产业规范化建设

    感化智能家居控制等突破性发展。作为人工智能与神经科学的交叉前沿,脑机领域将是全球科技竞争的制高点。 近年来,中国脑机市场仍处于快速发展期,技术路径多元、应用场景分散、行业标准缺失等问题制约着产业进程。为应对这些挑战,国家层面也不断推出政策,以
    的头像 发表于 04-25 09:58 805次阅读
    共建标准,共享未来:狄耐克积极参与脑机产业<b class='flag-5'>规范化</b>建设

    把树莓派打造成识别文本的“神器”!

    在许多项目中,RaspberryPi被用作监控摄像头或执行机器学习任务。在这些场景中,图像中经常包含应用程序感兴趣的文本信息。我们希望提取这些信息并将其转换,以便通过程序分析文本
    的头像 发表于 03-25 09:30 756次阅读
    把树莓派打造成识别<b class='flag-5'>文本</b>的“神器”!

    华为支付接入规范

    。 涉及支付方式说明(如涉及根据系统语言环境做国际,也请对该支付方式说明一并做处理),请统一使用:华为支付(中文)、Huawei Pay(英文)。 华为支付提供了支付图标设计规范,以此保证用户在
    发表于 01-23 09:27

    NVIDIA NeMo Guardrails引入三项全新NIM微服务

    NVIDIA NeMo Guardrails 包含全新 NVIDIA NIM 微服务,能够为各行业构建 AI 的企业提高 AI 的准确性、安全性和可控性。
    的头像 发表于 01-18 09:39 1138次阅读

    污水处理的数字改造

    明达云平台的智慧水务解决方案在农村污水处理领域展现出显著成效,不仅解决了农村污水处理的运维管理难题,更在整个水处理行业中展现出广阔应用前景。它助力城市水务、工业废水、村镇水务企业实现专业、全面的信息管理,推动企业向集约
    的头像 发表于 01-09 17:34 631次阅读