语音识别下一步发展如何？哪些技术可以使用？哪些价值可以发掘？-电子发烧友网

2020科大讯飞全球1024开发者节今天正式拉开帷幕，伴随着AI的发展，我们得以更全面和细致地洞察人们的生活习惯，并为人们提供更加智能和便捷的服务。在人工智能的应用场景中，最重要的一个就是语音交互。针对这一点，科大讯飞AI研究院常务副院长刘聪做了细致的讲解，让我们对当前语音交互技术有了更清晰和深入的了解。

我们知道语音识别是讯飞的传统强项，从早期的呼叫、导航到2010年发布的讯飞超脑语音云和输入法，从而开启了中文语音输入的新时代。通过深度学习等框架持续的迭代效果，我们又陆续推出了方言识别、远场交互、多麦克风阵列等相关的功能。2015年，我们又将人机交互的场景拓展到人人对话的场景。为此我们总结出三点，我们将语音听写从简单场景的可用做到了通用。这种场景的好用，语音转写从原来的不好用，做到了像演讲、会议、庭审等很多复杂场景的好用。像语音控制、命令唤醒，我们也是从简单场景的可用，做到了复杂场景的好用。

随着现在语音识别在更多场景的应用，语音识别的下一步发展方向是什么？又有哪些技术可以从实验室场景走向成熟，还有哪些价值得我们发掘？

首先，我们认为语音识别需要持续的去挑战更加复杂的场景，去实现从语音到声音，从单纯的文字内容识别到音频的全场景解析。例如现在我们在泛娱乐当中，直播、短视频，我们可以看到这里面有很多的更加复杂的声音场景需要我们去解决。例如在直播的过程中，背景可能是复杂多样的，可能有视频声、游戏声或者音乐声。此外直播连麦的时候还会经常出现多人混叠的对话，这些对我们的语音识别都会有很大的影响。除此之外，这些视频当中还会包含像笑声、掌声、各种音效等声音，所以我们需要提出一些新的方案。当前的框架已经难以去解决这样一个复杂的问题。

针对这样一个场景，我们一方面需要降低各种背景的噪声对识别精度的影响。另外一方面，要有针对性的将我们感兴趣的声音提取出来。这里我们也是展示了全场景音频解析的整体方案。首先我们是通过多分辨率特征提取的声音检测方案，再结合我们的序列训练，对一些相似声音进行精细建模，可以实现将笑声、音效等非语音的声音和语音内容分离。针对包含语音的有效内容，我们也使用了语音降噪和分离的方案，综合利用我们的声音、文本、说话等信息，以及在有条件的情况下，还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。以上这些才能保证我们能够持续保持语音合成以及语音识别技术的领先。

与此同时，我们也和合作伙伴一起，不断提升在直播等复杂场景上的语音识别效果，并且准确率从60%提到了85%。未来我们相关的技术也会在我们的开放平台——讯飞听见等上线。未来，我们会做得更好，请大家继续期待。
责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能

智能

+关注

关注
8

文章
1680

浏览量
116934
AI

AI

+关注

关注
87

文章
26407

浏览量
264011
语音识别技术

语音识别技术

+关注

关注
0

文章
52

浏览量
12780

STM32F207擦除片内FLASH，退出DEBUG无法执行下一步程序是怎么回事？

由于项目需求，需要擦除片内指定空间，然后从SPI_FLASH中加载程序运行问题如下:: 在DEBUG模式下，执行擦除程序后，则退出DEBUG，无法执行下一步程序擦除代码如下: 1

发表于 04-23 07:46

车内语音识别数据在智能驾驶中的价值与应用

车内语音识别数据在智能驾驶中的价值与应用一、引言随着智能驾驶技术的不断发展，车内语音

发表于 02-19 11:47 •245次阅读

Prevayl的下一步是什么

Prevayl的下一步是什么2022年，Prevayl推出了SmartWear——这是世界上第一款采用临床级心电图增强的高性能服装，其准确性无与伦比。生物识别先驱还创建了一个功能齐全的智能服装

发表于 02-17 18:10 •168次阅读

传感器技术的下一步

】链接可阅读原文档。 SE：传感器技术的下一步是什么？ Malinowski：我们正在尝试寻找一种制造图像传感器的新方法，因为我们希望摆脱硅光电二极管的限制。硅是一种完美的材料，特别是如果您想重现人类视觉，因为它对可见光波长敏感，这意味着您

发表于 01-06 08:43 •94次阅读

传感器<b class='flag-5'>技术</b>的<b class='flag-5'>下一步</b>

离线语音识别及控制是怎样的技术？

引言：　随着人工智能的飞速发展，离线语音识别技术成为了一项备受瞩目的创新。离线语音

发表于 11-24 17:41

情感语音识别技术的挑战与未来发展

情感语音识别技术作为人工智能领域的重要分支，已经取得了显著的进展。然而，在实际应用中，情感语音识别技术

发表于 11-16 16:48 •210次阅读

情感语音识别技术的发展趋势与前景

的发展趋势深度学习技术的进一步应用：情感语音识别技术的发展

发表于 11-16 16:13 •245次阅读

情感语音识别技术的应用与未来发展

的应用、未来发展趋势以及面临的挑战。二、情感语音识别技术的应用人机交互：情感语音识别

发表于 11-12 17:30 •363次阅读

离线语音识别和控制的工作原理及应用

：　　1.信号采集　　离线语音识别系统的第一步是信号采集。声音信号通过麦克风（传感器）以电信号的形式被捕捉到，这是后续处理的基础。　　2.预处理　　预处理阶段包括去除噪声、回声消除、降噪等处理

发表于 11-07 18:01

语音识别技术的行业应用与发展趋势

一、引言随着科技的不断发展，语音识别技术已经渗透到各个行业中，并逐渐改变着人们的生活方式。本文将探讨语音

发表于 10-18 16:10 •371次阅读

语音识别技术的优化与发展趋势

一、引言语音识别技术是一种将人类语音转化为计算机可理解数据的技术。随着人工智能和深度学习的发展

发表于 10-12 18:33 •408次阅读

语音识别技术的应用及优化

一、引言语音识别技术是一种能够让计算机“听懂”人类语言的技术。随着科技的不断发展，语音

发表于 10-10 17:26 •992次阅读

STLINK可以连接设备后进行自动识别下载程序吗？

STlink可以连接设备后进行自动识别下载程序吗

发表于 10-10 07:50

【触觉智能 Purple Pi OH 开发板体验】40PIN接口的GPIO测试以及下一步的适配计划

上一个帖子的问题搞定了，ubuntu烧录好，老规矩adb进去先看下资源再看下CPU 按照手册，先测试一下GPIO，可以看到初始电平为低用杜邦线拉高，再看下可以见到成功的被拉高

发表于 08-08 22:36

语音识别技术的概念及应用前景

解决的问题，就是使得设备可以用听觉感知周围的世界，用声音和人做最自然的交互，让操控和生活更为便捷。智能语音的基础在于通过神经网络技术，提升语音识别

发表于 05-27 09:41

搜索历史

语音识别下一步发展如何？哪些技术可以使用？哪些价值可以发掘？

评论

STM32F207擦除片内FLASH，退出DEBUG无法执行下一步程序是怎么回事？

车内语音识别数据在智能驾驶中的价值与应用

Prevayl的下一步是什么

传感器技术的下一步

离线语音识别及控制是怎样的技术？

情感语音识别技术的挑战与未来发展

情感语音识别技术的发展趋势与前景

情感语音识别技术的应用与未来发展

离线语音识别和控制的工作原理及应用

语音识别技术的行业应用与发展趋势

语音识别技术的优化与发展趋势

语音识别技术的应用及优化

STLINK可以连接设备后进行自动识别下载程序吗？

【触觉智能 Purple Pi OH 开发板体验】40PIN接口的GPIO测试以及下一步的适配计划

语音识别技术的概念及应用前景