20多年专注语音合成芯片公司分享：TTS芯片端是如何达到100%精准合成的-电子发烧友网

我国汉字文化博大精深，虽然现在语音合成技术发展较为成熟，但仍无法做到100%的智能分析和识别，来满足人们的需求习惯。
例如汉字“一”，在不同语境下有3种读法，“一五一十”“一路平安”“一言为定”，大家可以读读看。
再例如数字“1”，电话号码“010-62986600、15321801789”，日期“2018-01-01”，在电话号码中大家习惯读成“幺”，而在日期里又习惯性的读成“一”。
这样的场景还有很多很多，本文将向大家介绍在TTS芯片端，如遇到无法智能识别播报的情况下，利用“文本控制标记”，使文本合成准确率达到100%的。
我们以市场常见的TTS语音芯片VTX316为例，它支持10多种文本控制标记，下面我们一一列举，并加以说明。
控制标记统一格式为“[XX]”，“XX”=标记参数，使用时只要将标记放在需要调整的文本前即可。

1. 数字处理标记[nX]

默认设置下芯片会自动识别数字的含义，是按“号码方式" OR "数值方式"进行解读
备注：“X”=0、1、2
[n0]=自动判断
[n1]=按号码方式
[n2]=按数值方式
举例文本1：拨打62986600。有123公斤重。
说明：“62986600”会读作“六二九八六六零零”。“123”读作“一百二十三”
举例文本2：[n2]拨打62986600。[n1]有123公斤重。
说明：“62986600”会读作“六千二百九十八万六千六百”。“123”读作“一二三”

2. 数字“1”的处理标记[yX]

默认设置下芯片会自动识别数字"1"的读法，是读“幺" OR "一"进行解读
备注：“X”=0、1
[y0]=读成“幺”
[y1]=读成“一”
举例文本1：[y0]拨打010-62986600
说明：读作“拨打零幺零，六二九八六六零零”
举例文本2：[y1]拨打010-62986600
说明：读作“拨打零一零，六二九八六六零零”

3. 标点符号处理标记[bX]

默认情况下标点符号的名称是不进行播报的
备注：“X”=0、1
[b0]=不播报标点符号
[b1]=播报标点符号
举例文本：[b1]欢迎光临，请进！
说明：读作“欢迎光临逗号请进感叹号”

4. 改变汉字读音标记[=X]

当我们想改变原来汉字的读音时可以用到这个标记策略，比如更换一个字的发音或是多音字”
备注：“X”=要改变的读音，格式为“汉语拼音”+“声调”，声调=1、2、3、4、5（轻声）
举例文本1：欢迎他们，欢迎他[=ni3]们，欢迎他[=wo3]们
说明：读作“欢迎他们，欢迎你们，欢迎我们”
举例文本2：解[=xie4]放涛用语音合成芯片，单位的单[=shan4]小虎也在用
说明：“解”会读成“谢”，“单”会读成“善”

5. 发音人设置标记[mX]

VTX316TTS芯片支持8种发音人（音色），可通过[mX]标记随意切换。
备注：“X”=3、51、52、53、54、55、56、57，对应的发音人如下
[m3]=晓玲，女声（默认设置）
[m51]=尹小坚，男声
[m52]=易小强，男声
[m53]=田蓓蓓，女声
[m54]=唐老鸭，卡通声
[m55]=小燕子，女童声
[m56]=贝童，男童声
[m57]=晓可，男童声
举例文本：[m3]你好，[m54]这是发音人设置的举例。
说明：“你好”的发音人为女声晓玲，“这是发音人设置的举例”的发音人是卡通声唐老鸭

6. 语速调节标记[sX]

TTS芯片支持30级语速调节
备注：“X”=0~30，默认设置为5，数值越大语速越快
举例文本：欢迎使用[s10]宇音天下语音合成芯片
说明：“欢迎使用”的语速为5级，“宇音天下语音合成芯片”的语速为10级

7. 语调调节标记[tX]

语音合成芯片可控制10级语调调整
备注：“X”=0~10，数值越大语调越高
举例文本：欢迎使用[t8]宇音天下语音合成芯片
说明：“欢迎使用”的语调为5级，“宇音天下语音合成芯片”的语调为8级

8. 音量调节标记[vX]

TTS语音芯片支持10级音量调整
备注：“X”=0~10，数值越大音量越大
举例文本：欢迎使用[v8]宇音天下语音合成芯片
说明：“欢迎使用”的音量为5级，“宇音天下语音合成芯片”的音量为8级

9. 提示音处理标记[xX]

语音合成芯片通常内置多首提示音，例如"sound901"，具体格式参芯片数据手册。
备注："X"=0、1
[x0]=不按提示音处理
[x1]=按提示音处理
举例文本：[x0]sound901
说明：读作“sound901”，会按照字母加数字的读法播报

10. 中文拼音识别标记[iX]

判断是否将文本识别成拼音
备注：“X”=0、1
[x0]=不识别汉语拼音
[x1]=识别成拼音
举例文本：[i1]欢迎shi3yong4宇yin1tian1xia4[i0]语音合cheng2系统
说明：读作“欢迎使用宇音天下语音合cheng2系统”，“cheng2”会按照字母和数字逐字播报

11. 停顿（静音）时间标记[pX]

在有需要停顿的文本中插入该标记，可灵活控制停顿时间
备注：“X”=停顿时间，单位毫秒（ms）
举例文本：欢迎使用[p800]宇音天下[p350]TTS语音芯片
说明：播报“欢迎使用”后，停顿800毫秒，播报“宇音天下”，停顿350毫秒，播报“TTS语音芯片”

12. 恢复默认合成参数标记[d]

本参数标记将合成参数恢复成默认设置，除发音人标记参数
举例文本：[n1]123,[y1]010-62986600[d]123, 010-62986600
说明：读作“一二三，零一零，六二九八六六零零，一百二十三，零幺零，六二九八六六零零”

经过上面的介绍，在语音合成芯片端如何达到100%的准确率，各位的思路是否已经非常清晰了呢？

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
463

文章
54686

浏览量
471273
TTS

TTS

+关注

关注
0

文章
66

浏览量
11619
语音合成芯片

语音合成芯片

+关注

关注
0

文章
29

浏览量
7862

搜索历史

20多年专注语音合成芯片公司分享：TTS芯片端是如何达到100%精准合成的

评论