0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能语音前沿技术——发音检错纠错和语音转换

h1654155972.5709 来源:未知 作者:邓佳佳 2018-03-22 15:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近年来,人工智能在国内外掀起了新一轮技术创新的浪潮,人工智能正在成为产业革命的新风口。据BBC预测,到2020年,全球人工智能市场规模可达到1190亿元。艾瑞咨询预测,到2020年,中国人工智能市场规模约91亿元。

目前,政策、经济、人才、技术各方面都为人工智能提供了很好的条件:

(1) 政策:人工智能进入国家战略层面。国务院在《关于积极推进“互联网+”行动的指导意见》中将人工智能推上国家战略层面。在国家“十三五”规划的“科技创新-2030项目”中,智能制造和机器人被列为重大发展工程。2016年,为加快人工智能产业发展,国家发展改革委、科技部、工业和信息化部、中央网信办制定了《“互联网+”人工智能三年行动实施方案》。2016年科大讯飞、华为等行业知名企业,在深圳共同发布中国《人工智能深圳宣言》,积极探索政、产、学、研、用合作机制,推动人工智能产业的协同发展。2017年十二届全国人大会议中,国务院******提出,要推动内地与港澳深化合作,研究制定“粤港澳大湾区”城市群发展规划,提升在国家经济发展和对外开放中的地位与功能。

(2)经济:互联网经济高速发展,据艾瑞咨询估计,2015年中国网络经济增长约33%,市场规模超过千亿,并有持续增长趋势。2014年开始,投资机构在人工智能领域投资金额,数量均大幅度增加。据咨询公司Venture Scanner统计,2016年全球人工智能公司已突破1000家,融资高达48亿美元。

(3) 人才:在中国科研投入占全球的20%,仅次于美国,信息技术互联网领域是国家的重点投入对象,近五年,科研人员保持20%的持续增长,为人工智能的发展提供了充足的人才支撑。

(4)技术:目前我国已在计算机视觉,智能语音等领域实现了技术突破,处于国际领先水平。国内具有代表性的公司或机构包括:百度,阿里巴巴,腾讯,科大讯飞,旷视科技,商汤科技等。

在人工智能技术中,智能语音技术是一个重要的分支,是人机交互过程中不可或缺的部分。语音技术包含:语音识别、语音合成、声纹识别、语音评测、语音转换等,其中发音检错纠错和语音转换技术近期有了新的突破。

发音检错纠错

英语是当今世界上最为通用的语言,其重要性已为所有人深刻领会。由于英语的强势地位,目前被超过100个国家作为外语教学的第一外语。据EF英孚教育发布的《2015年英语熟练度指标报告》显示,中国人每年花费千亿元用于英语培训,但实际效果依然不佳,在全球70个国家和地区中,中国大陆排名47位。虽然英语水平仍处于低熟练程度,但近年来呈现明显增长趋势。据中国社会调查所公布的中国居民消费调查报告统计,中国已成为全球英语培训领域增长速度最快的市场,年增长率高达12%。在如此广阔的英语培训市场下,线下英语培训面临着师资数量短缺,教师口语水平参差不齐、“添鸭式”与“应试式”教学以及无法有效改善口语听力水平等存在诸多矛盾。

另外,中文拼音与英语音标发音方法和位置有所区别,但许多中国学生在刚接触英语时习惯用熟悉的中文拼音来标注、记忆英语单词的发音。久而久之,养成了不良的发音习惯,同时还由于中国学生普遍腼腆,上课口语训练时间不足,课后口语练习得不到反馈,以及大部分英语老师的发音不标准等因素造成了中国学生的发音不标准。由于发音一直是中国学生学习英语时一个难关,有许多人愿意为了纠正发音,支付高昂的学费,请外教纠正自己的发音。随着移动在线语言学习的兴起,催生了AI语音评测,促进了AI纠音技术的发展。

虽然目前市场上有许多在线的英语学习软件,但大多数都只是简单地播放音视频学习资料,学生跟读,系统播放录音。只有为数不多的软件,具备打分评测的功能,而评测的准确性,一直为学生所诟病。因此,市场迫切需要能提供高可靠的打分评测技术。

图1 目前市面相关产品

另外,除了提供高可靠的打分评测技术,学生也迫切需要具体的发音诊断的反馈建议。因为单纯的打分评测技术,只能够指出学生的发音不够好,但学生并不理解自己的发音错误在哪里,及应该如何改进发音。比如把读错的单词标红出来,需反复对比原声才能分析出错误的细节,这在明显读错的情况下还好实现,如:steak/steik/,读错为/sti:k/。

但以下情况就非常困难了,特别是学习者不熟悉英语的拼读发音规则,语法的条件下。

(1)如records/'rekɔːdz/,读错为/'rekɔːds/。

(2)如the apple /ði/,读错为/ðə/(the在辅音前发/ðə/,元音前发/ði/)。

(3)长短音如book/bʊk/,读错为/buːk/;Lily/'lɪli:/,读错为/'li:li:/。

如果学习者在反复练习过程中不能及时发现具体的错误细节,会降低学习效率和兴趣,甚至反复错误发音,产生错误的肌肉记忆。这个问题,在学术研究上被称为“错误发音检测及诊断”。为了解决这个问题,在过去的十多年中,世界上的许多顶级科研机构都投入了大量的人力物力,其中最具影响力的包括香港中文大学,清华大学,台湾大学,美国麻省理工大学,新加坡资讯通信研究院,微软亚洲研究院,IBM等等。

图2多任务学习的声学音素模型

“错误发音检测及诊断”的难点在于它们不同于一般的语音识别技术,对于训练模型和训练数据有着更严格的要求,并且不同母语的人群在学习英语的过程中易出现的错误也不同。因此要收集大量以中文为母语的人群的英文录音,并邀请专业人士对数据进行了人工标注。随着深度学习的发展,和多年的技术积累,声希科技李坤博士等人实现了此领域的重大突破,利用深度神经网络对声学特征和标准发音进行预测,输出后验概率(如图2所示)。不仅实现了对错误发音的检错和诊断,还能对重音,语调,流利度等实现评测(如图3所示)。

图3 发音,重音,音调检错纠错技术展示

语音评测技术的突破让AI系统成为私人发音老师成为可能。当系统知道学生具体的错误后,就能自动匹配相应的教学内容和练习题目,实现更精准的自适应推荐。如果新技术能得到普及,那将大大改善中国学生的发音现状,特别是解决农村乡镇地区的教育资源和语言环境问题。

另外,随着中国在国际上地位的提升,特别是一带一路的推动,愈来愈多外国人开始学习汉语,资料显示全球学习汉语的外国人已经超过1亿。而中文发音是中文学习中的重大难题,发音评测的新技术能针对外国中文学习者的发音错误的特点,利用可靠的发音自动评测方法及时、准确地纠正发音错误,可以大大提高中文辅助语音教学系统的教学效果。

语音转换

随着语音信号处理技术(包括语音识别和语音合成)的发展,在人机交互中语音已成为最自然最方便交互方式之一。语音不仅可以传递信息,也可以传递情感、态度和说话人的个人特征。其中,说话人的个人特征在我们日常交流中扮演重要角色,它允许我们在电话、广播节目、电影等媒体中区分说话人。除此之外,智能语音助手变得越来越流行,比如 Apple Siri、Microsoft Cortana、Amazon Alexa。大多数人对语音助手的音色有很强的偏好,因此生成具有特别音色的语音在人机交互领域非常重要。

图4 语音转换示意图

上述场景可归结为语音转换(VoiceConversion)问题,目标在于修改非目标说话人Non-target(NT)Speaker的语音音色,使其听起来像是目标说话人Target(T)Speaker的语音,但同时保持说话的内容T- Content不变(如图4所示)。

深度学习是人工智能领域划时代的革命技术,随着深度学习的应用,合成语音和转换语音的自然度和流畅度都有很大的提升。在语音合成领域,Google Deepmind 在2016年提出的Wavenet模型将自然度提高了50%。2017年Yoshua Bengio等提出端对端合成模型,使得模型可以从文本直接生成语音而不需要前端预处理。在国内,康世胤等在2013年将深度信念网络(Deep Belief Networks)用于语音合成,为学界业界最早之一。2017年,百度研究院提出Deep Voice模型改进了语音合成速度,实验证明该模型可以用于实时语音合成。

语音转换技术的最早尝试在1988年由Abe等学者完成。在1988年到2013年期间,大部分算法基于Codebook Mapping、Frequency Warping、Unit Selection、Gaussian Mixture Models。2013年开始,深度学习被应用到语音转换中,Nakashika等将深度神经网络(Deep Neural Networks)用于在高维空间中,将非目标说话人语音映射到目标说话人语音。虽然语音转换技术较以前有很大提升,但是语音自然度和音色相似度方面仍有很大的改善空间,另外在实用适用性方面不够完善比如只能支持特定人到特定目标人的转换(一转一),以及需要严苛的数据条件,需要目标人上千句的语音数据。

图5 深度循环神经网络(DBLSTM-RNNs)示意图

在2015年,声希科技联合创始人孙立发博士团队等利用深度循环神经网络(DBLSTM-RNNs)来改进转换语音的自然度和流畅度(如图5所示),传统的深度神经网络DNN只能映射单一帧到单一帧之间的关系忽略了语音连续信号帧之间的相关性,DBLSTM-RNNs很好的解决了这个问题从而可以提升自然度和流程度。

图6 非平行语句多对一语音转换框架图

在2016年,孙立发博士等利用从语音识别模型提取到的后验概率来映射非目标说话人和目标说话人(如图6所示),可以实现多对一的转换并且降低了对训练数据的要求,大大提高了语音转换技术的实用性。语音转换具有广泛的应用:

(1)个性化语音合成。将语音转换技术与现有的语音合成系统结合,生成用户想要的音色。

(2)计算机辅助语言学习中的个性化语音反馈。目前语言学习者在学习的过程中参照的标准发音是统一的录音,语音转换系统可以合成出具有用户自己音色的标准发音,帮助用户进行跟读对比。

(3)机器翻译。机器翻译技术可以将一句语音从一种语言翻译到另外一种语言,而语音转换技术可以辅助机器翻译,让翻译后的语音仍然保持说话人的音色。

(4)语言障碍患者的个性化辅助。语言障碍为中风、帕金森等疾病的常见后遗症。语言障碍会影响患者的日常交流和个性化和情感表达。语音转换技术加上语音合成技术可以辅助患者进行正常的语音沟通,并且找回自己声音的音色。

(5)娱乐领域。潜在应用包括电影电视配音,游戏配音,导航配音等。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49785

    浏览量

    261901
  • 智能语音
    +关注

    关注

    11

    文章

    823

    浏览量

    50074

原文标题:智能语音前沿技术——发音检错纠错和语音转换

文章出处:【微信号:SRA2009,微信公众号:深圳市机器人协会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音识别系统的技术核心:从声音到文字的智能转换

          语音识别技术,也称为自动语音识别(ASR),其核心目标是将人类语音信号转换为对应的文本或指令。随着人工
    的头像 发表于 09-05 14:04 580次阅读

    Google Cloud展示一系列前沿技术更新

    在 2025 Google 谷歌开发者大会上,Google Cloud 展示了一系列前沿技术更新——不仅是模型升级,更是智能体、创意、行业应用的全面进化。这些前沿技术,正为出海开发者提供强大的
    的头像 发表于 08-29 09:38 916次阅读

    一种抗辐射加固检错纠错电路的设计

    电子发烧友网站提供《一种抗辐射加固检错纠错电路的设计.pdf》资料免费下载
    发表于 08-11 15:38 0次下载

    智芯科超低功耗离线语音唤醒芯片的应用场景

    想让设备无需联网也能秒速响应语音指令?我们的超低功耗离线语音唤醒芯片正是答案!采用前沿技术,待机能耗近乎“休眠”,续航焦虑一扫而空,智能穿戴、智能
    的头像 发表于 07-08 10:24 1027次阅读

    语音识别芯片选型有哪些技术参数要注意

    能参数 1. 识别准确率 定义:芯片对语音指令的正确识别比例,通常以百分比表示(如 95% 以上)。 影响因素:环境噪声、发音清晰度、方言适配性等。 应用场景:智能家居、车载系统需≥95%,工业控制等高精度场景需≥98%。 2.
    的头像 发表于 06-23 17:31 696次阅读
    <b class='flag-5'>语音</b>识别芯片选型有哪些<b class='flag-5'>技术</b>参数要注意

    蓝牙语音遥控器:智能家居的智慧控制核心

    和低功耗特性,成为理想选择。 蓝牙语音遥控器不仅是智能家居控制的枢纽,更是技术进步的缩影。其便捷的操作、智能语音交互和低功耗设计,为用户
    发表于 06-01 20:24

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    在人工智能快速发展的今天,语音机器人逐渐成为人们生活和工作中的得力助手。明远智睿SSD2351开发板凭借强大性能与丰富功能,为语音机器人的发展注入新动力,成为该领域的变革力量。 SSD2351开发板
    发表于 05-28 11:36

    大模型时代的新燃料:大规模拟真多风格语音合成数据集

    以大模型技术为核心驱动力的人工智能变革浪潮中,语音交互领域正迎来广阔的成长空间,应用场景持续拓宽与延伸。 其中,数据作为驱动语音大模型进化的关键要素,重要性愈发凸显。丰富多样的高质量数
    的头像 发表于 04-30 16:17 551次阅读

    智能收银语音交互新标杆—WT3000T8语音合成芯片TTS技术应用解析

    一、行业应用背景在零售业态智能化转型的浪潮中,收银设备正经历从功能型向服务型转变的关键阶段。WT3000T8语音合成芯片应运而生,专为满足新零售场景下智能收银终端的语音交互需求而设计。
    的头像 发表于 04-24 08:45 637次阅读
    <b class='flag-5'>智能</b>收银<b class='flag-5'>语音</b>交互新标杆—WT3000T8<b class='flag-5'>语音</b>合成芯片TTS<b class='flag-5'>技术</b>应用解析

    智能语音交互方案在客服领域的应用

    着客服行业的面貌,为企业和用户带来了全新的体验。 语音识别模型优化私部署 方案:精准高效,定制专属服务 语音识别技术作为智能语音交互的基础,
    的头像 发表于 04-11 14:35 649次阅读

    MediaTek在MWC 2025展示前沿技术

    MediaTek 在 MWC 2025 上展示了超多领域的前沿技术,让我们一起来回顾一下吧!
    的头像 发表于 04-08 14:43 864次阅读

    HarmonyOS NEXT 应用开发练习:AI智能语音播报

    (Text-To-Speech,文本转语音技术将文本转换语音进行播报。 当然除了基本的文本输入和播报功能外,我们还增加了语音识别的功能,
    发表于 01-06 15:33

    【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

    语音命令Q 识别,适用于智能家居控制、玩具、人机交互等多个领域。该模块以其高识别率、低功耗和易于集成的特点受到广大开发者的青睐。 主要技术及功能有: 磁力搅拌、重量采集、语音识别、
    发表于 01-02 18:15

    解锁个性化语音交互新时代:九芯智能语音云平台,让创意声音触手可及!

    九芯智能语音云平台提供全面高效安全的智能语音服务,支持自定义语音内容,简化烧录流程,依托AI技术
    的头像 发表于 01-02 16:51 1469次阅读
    解锁个性化<b class='flag-5'>语音</b>交互新时代:九芯<b class='flag-5'>智能</b><b class='flag-5'>语音</b>云平台,让创意声音触手可及!

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别和语音合成领域有着多项大型企业合作案例,标贝与多个智能会议系统厂商合作,成功将
    的头像 发表于 12-20 10:35 914次阅读