0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

20多年专注语音合成芯片公司分享:TTS芯片端是如何达到100%精准合成的

智能语音 来源:智能语音 作者:智能语音 2024-05-06 15:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我国汉字文化博大精深,虽然现在语音合成技术发展较为成熟,但仍无法做到100%的智能分析和识别,来满足人们的需求习惯。
例如汉字“一”,在不同语境下有3种读法,“一五一十”“一路平安”“一言为定”,大家可以读读看。
再例如数字“1”,电话号码“010-62986600、15321801789”,日期“2018-01-01”,在电话号码中大家习惯读成“幺”,而在日期里又习惯性的读成“一”。
这样的场景还有很多很多,本文将向大家介绍在TTS芯片端,如遇到无法智能识别播报的情况下,利用“文本控制标记”,使文本合成准确率达到100%的。
我们以市场常见的TTS语音芯片VTX316为例,它支持10多种文本控制标记,下面我们一一列举,并加以说明。
控制标记统一格式为“[XX]”,“XX”=标记参数,使用时只要将标记放在需要调整的文本前即可。

1. 数字处理标记[nX]

默认设置下芯片会自动识别数字的含义,是按“号码方式" OR "数值方式"进行解读
备注:“X”=0、1、2
[n0]=自动判断
[n1]=按号码方式
[n2]=按数值方式
举例文本1:拨打62986600。有123公斤重。
说明:“62986600”会读作“六二九八六六零零”。“123”读作“一百二十三”
举例文本2:[n2]拨打62986600。[n1]有123公斤重。
说明:“62986600”会读作“六千二百九十八万六千六百”。“123”读作“一二三”

2. 数字“1”的处理标记[yX]

默认设置下芯片会自动识别数字"1"的读法,是读“幺" OR "一"进行解读
备注:“X”=0、1
[y0]=读成“幺”
[y1]=读成“一”
举例文本1:[y0]拨打010-62986600
说明:读作“拨打零幺零,六二九八六六零零”
举例文本2:[y1]拨打010-62986600
说明:读作“拨打零一零,六二九八六六零零”

3. 标点符号处理标记[bX]

默认情况下标点符号的名称是不进行播报的
备注:“X”=0、1
[b0]=不播报标点符号
[b1]=播报标点符号
举例文本:[b1]欢迎光临,请进!
说明:读作“欢迎光临 逗号 请进 感叹号”

4. 改变汉字读音标记[=X]

当我们想改变原来汉字的读音时可以用到这个标记策略,比如更换一个字的发音或是多音字”
备注:“X”=要改变的读音,格式为“汉语拼音”+“声调”,声调=1、2、3、4、5(轻声)
举例文本1:欢迎他们,欢迎他[=ni3]们,欢迎他[=wo3]们
说明:读作“欢迎他们,欢迎你们,欢迎我们”
举例文本2:解[=xie4]放涛用语音合成芯片,单位的单[=shan4]小虎也在用
说明:“解”会读成“谢”,“单”会读成“善”

5. 发音人设置标记[mX]

VTX316TTS芯片支持8种发音人(音色),可通过[mX]标记随意切换。
备注:“X”=3、51、52、53、54、55、56、57,对应的发音人如下
[m3]=晓玲,女声(默认设置)
[m51]=尹小坚,男声
[m52]=易小强,男声
[m53]=田蓓蓓,女声
[m54]=唐老鸭,卡通声
[m55]=小燕子,女童声
[m56]=贝童,男童声
[m57]=晓可,男童声
举例文本:[m3]你好,[m54]这是发音人设置的举例。
说明:“你好”的发音人为女声晓玲,“这是发音人设置的举例”的发音人是卡通声唐老鸭

6. 语速调节标记[sX]

TTS芯片支持30级语速调节
备注:“X”=0~30,默认设置为5,数值越大语速越快
举例文本:欢迎使用[s10]宇音天下语音合成芯片
说明:“欢迎使用”的语速为5级,“宇音天下语音合成芯片”的语速为10级

7. 语调调节标记[tX]

语音合成芯片可控制10级语调调整
备注:“X”=0~10,数值越大语调越高
举例文本:欢迎使用[t8]宇音天下语音合成芯片
说明:“欢迎使用”的语调为5级,“宇音天下语音合成芯片”的语调为8级

8. 音量调节标记[vX]

TTS语音芯片支持10级音量调整
备注:“X”=0~10,数值越大音量越大
举例文本:欢迎使用[v8]宇音天下语音合成芯片
说明:“欢迎使用”的音量为5级,“宇音天下语音合成芯片”的音量为8级

9. 提示音处理标记[xX]

语音合成芯片通常内置多首提示音,例如"sound901",具体格式参芯片数据手册。
备注:"X"=0、1
[x0]=不按提示音处理
[x1]=按提示音处理
举例文本:[x0]sound901
说明:读作“sound901”,会按照字母加数字的读法播报

10. 中文拼音识别标记[iX]

判断是否将文本识别成拼音
备注:“X”=0、1
[x0]=不识别汉语拼音
[x1]=识别成拼音
举例文本:[i1]欢迎shi3yong4宇yin1tian1xia4[i0]语音合cheng2系统
说明:读作“欢迎使用宇音天下语音合cheng2系统”,“cheng2”会按照字母和数字逐字播报

11. 停顿(静音)时间标记[pX]

在有需要停顿的文本中插入该标记,可灵活控制停顿时间
备注:“X”=停顿时间,单位毫秒(ms)
举例文本:欢迎使用[p800]宇音天下[p350]TTS语音芯片
说明:播报“欢迎使用”后,停顿800毫秒,播报“宇音天下”,停顿350毫秒,播报“TTS语音芯片”

12. 恢复默认合成参数标记[d]

本参数标记将合成参数恢复成默认设置,除发音人标记参数
举例文本:[n1]123,[y1]010-62986600[d]123, 010-62986600
说明:读作“一二三,零一零,六二九八六六零零,一百二十三,零幺零,六二九八六六零零”

经过上面的介绍,在语音合成芯片端如何达到100%的准确率,各位的思路是否已经非常清晰了呢?

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53610

    浏览量

    460043
  • TTS
    TTS
    +关注

    关注

    0

    文章

    62

    浏览量

    11461
  • 语音合成芯片

    关注

    0

    文章

    27

    浏览量

    7798
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于开源鸿蒙的语音识别及语音合成应用开发样例

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用sherpa_onnx开源三方库进行ASR语音识别与TTS语音合成应用开发的流程。
    的头像 发表于 08-25 14:26 3673次阅读
    基于开源鸿蒙的<b class='flag-5'>语音</b>识别及<b class='flag-5'>语音</b><b class='flag-5'>合成</b>应用开发样例

    TTS文字合成语音芯片的使用场景

    TTS文字合成语音播报芯片的使用场景非常广泛,可以适用于各行各业,主要应用于复杂的语音播报场景,下面小编带大家一起来了解一下。 传统的语音
    的头像 发表于 08-22 17:11 849次阅读

    开源TTS应用:打破技术垄断,让语音合成成为每个人的创造力工具

    传统语音合成技术往往被巨头垄断,成本高且定制难。开源TTS应用的诞生,彻底改变游戏规则。其开放源代码让中小企业、个人开发者乃至普通用户都能低成本接入并改造语音技术,将
    的头像 发表于 08-15 14:03 453次阅读
    开源<b class='flag-5'>TTS</b>应用:打破技术垄断,让<b class='flag-5'>语音</b><b class='flag-5'>合成</b>成为每个人的创造力工具

    一颗TTS语音芯给产品增加智能语音播报能力

    一颗TTS语音芯片给产品增加智能语音播报能力 传统语音播报芯片可以设置一些固定的
    的头像 发表于 08-14 16:33 482次阅读

    从开发工程师视角看TTS语音合成芯片

    从开发工程师视角看TTS语音合成芯片语音交互领域,TTS
    的头像 发表于 08-13 14:52 676次阅读

    Air8000 TTS开源,语音合成从此“零距离”!

    技术不应有围墙,创新需要共生长。Air8000宣布TTS应用源代码全面开放,开发者可自由定制语音风格、优化合成效果,让文字与声音的对话,不再受限于黑箱算法。 TTS (Text-to-
    的头像 发表于 07-03 16:33 480次阅读
    Air8000 <b class='flag-5'>TTS</b>开源,<b class='flag-5'>语音</b><b class='flag-5'>合成</b>从此“零距离”!

    智能收银语音交互新标杆—WT3000T8语音合成芯片TTS技术应用解析

    一、行业应用背景在零售业态智能化转型的浪潮中,收银设备正经历从功能型向服务型转变的关键阶段。WT3000T8语音合成芯片应运而生,专为满足新零售场景下智能收银终端的语音交互需求而设计。
    的头像 发表于 04-24 08:45 640次阅读
    智能收银<b class='flag-5'>语音</b>交互新标杆—WT3000T8<b class='flag-5'>语音</b><b class='flag-5'>合成</b><b class='flag-5'>芯片</b><b class='flag-5'>TTS</b>技术应用解析

    WT3000TX语音合成芯片介绍V1

    WT3000TX是一系列功能强大的高品质语音芯片,采用了高性能32位处理器、最高频率可达240MHz。WT3000TX高集成度的语音合成芯片
    发表于 04-17 08:43 0次下载

    芯资讯|WT3000T8语音合成芯片TTS在智能收款机中的创新应用设计方案介绍

    体验的关键模块。厂家广州唯创电子推出的WT3000T8作为新一代高性能语音合成芯片,凭借其优异的处理能力和灵活的功能配置,正在为收款机智能化升级提供核心技术支持。
    的头像 发表于 04-15 08:55 652次阅读
    芯资讯|WT3000T8<b class='flag-5'>语音</b><b class='flag-5'>合成</b><b class='flag-5'>芯片</b><b class='flag-5'>TTS</b>在智能收款机中的创新应用设计方案介绍

    YX5p多功能单芯片CMOS语音合成4位微控制器中文手册

    深圳市骏旺微电子有限公司的 YX5P 系列语音芯片数据手册,详细介绍了芯片的各项特性、功能、应用及相关参数,为使用者提供全面的技术参考。 产品概述:YX5P 系列是多功能单
    发表于 04-03 11:18 1次下载

    【CW32模块使用】语音合成播报模块

    SYN6288E 中文语音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/价比更高的 SYN6288 芯片的基础上更改封装
    的头像 发表于 03-29 17:25 1022次阅读
    【CW32模块使用】<b class='flag-5'>语音</b><b class='flag-5'>合成</b>播报模块

    芯资讯|WT3000T8语音合成芯片:高性价比语音交互解决方案

    在智能终端设备快速普及的当下,语音交互已成为提升用户体验的关键功能。广州唯创电子推出的WT3000T8语音合成芯片,凭借其卓越的语音处理能力
    的头像 发表于 03-24 09:05 879次阅读
    芯资讯|WT3000T8<b class='flag-5'>语音</b><b class='flag-5'>合成</b><b class='flag-5'>芯片</b>:高性价比<b class='flag-5'>语音</b>交互解决方案

    芯知识|WT3000T8语音合成芯片:功能解析与应用指南

    在人工智能与物联网技术蓬勃发展的今天,语音交互已成为智能设备的重要功能。广州唯创电子推出的WT3000T8语音合成芯片凭借其高性能、低功耗和灵活的控制方式,广泛应用于智能家居、工业设备
    的头像 发表于 03-24 08:42 763次阅读
    芯知识|WT3000T8<b class='flag-5'>语音</b><b class='flag-5'>合成</b><b class='flag-5'>芯片</b>:功能解析与应用指南

    WT3000T8-32N语音合成TTS芯片:小体积、强性能,重塑智能语音交互体验

    在万物互联的智能化浪潮中,语音交互已成为人机交互的核心入口。广州唯创电子推出的WT3000T8-32N语音合成芯片,凭借其4×4mm超小封装、240MHz超强算力与多场景
    的头像 发表于 03-21 09:20 840次阅读
    WT3000T8-32N<b class='flag-5'>语音</b><b class='flag-5'>合成</b><b class='flag-5'>TTS</b><b class='flag-5'>芯片</b>:小体积、强性能,重塑智能<b class='flag-5'>语音</b>交互体验

    在线VS离线TTS语音合成芯片)有哪些优势-AIOT智能语音产品方案

    离线 TTS 存在语音质量欠佳、音色选择有限、语言支持单一更新困难、占用资源多、适应性差、难以个性化定制等痛点 01更新维护困难 由于是离线模式,难以及时获取最新的语音数据和算法更新
    的头像 发表于 02-25 17:08 705次阅读
    在线VS离线<b class='flag-5'>TTS</b>(<b class='flag-5'>语音</b><b class='flag-5'>合成</b><b class='flag-5'>芯片</b>)有哪些优势-AIOT智能<b class='flag-5'>语音</b>产品方案