研究证明：商业语音识别系统的错误率非常高-电子发烧友网

某些语音识别系统（ASR）的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称，词错误率（Word Error Rate， WER）（一种常见的语音识别性能指标）要显著高于最佳报告结果，这可能表明自然语言处理（NLP）领域存在更多待克服的问题。

据了解，目前ASR已广泛应用于诸多场景中，如电话会议、电子邮件、智能设备等。ASR模型的综合基准中，标准语料库的WER仅有2%~3%，而正是这一统计数据遭到了上述作者的质疑。他们声称，大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的，说话人往往因为意识到跟他们的交互对象是聊天机器人，因此通常会将命令简化成结构紧凑的简短词语，而非正常的自然对话。作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时，其中2.2个小时是对话。通过测试，作者发现ASR系统的错误率基本在15%以下，这与基准测试中的2%相悖。

研究证明：商业语音识别系统的错误率非常高

而基于保险、通信、预定等金融行业的语料库中，作者发现其WER的测试结果高达23.31%。其中，预定和通信的错误率最高，可能是因为对话涉及特定的日期、时间、订单金额、地点、产品和公司名称等。但在所有领域的测试中，其错误率均高于13.73%。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料，例如Librispeech（1000小时英语有声读物录音）、WSJ（新闻口述的谈话）和Switchboard（电话交谈），这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且，尽管他们试图刻意模仿真实、自发的对话，但本质上还是受约束的，比如需要配音演员，就某一合适主题进行脚本/半脚本对话，而且正是由于配音演员的存在，几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施，研究人员建议ASR和NLP社区收集和注释音频数据集，使其更好地与ASR系统的实际应用场景保持一致，他们还呼吁建立更具包容性的声学模型，更广泛的方言语料库，这些改变将会促进音频信号处理的技术改进。

因此，这些问题并非无法克服。“学界和工业界应该深思熟虑，考虑可以创建高质量的测试数据集。我们认为，对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

软件

软件

+关注

关注
67

文章
4348

浏览量
85621
语音识别

语音识别

+关注

关注
37

文章
1635

浏览量
111834
ASR

ASR

+关注

关注
2

文章
34

浏览量
18620

解决方案：智能公交识别系统无线传输方案

无线传输识别系统

北京东用科技有限公司

发布于 :2023年12月13日 11:59:34

Achronix推出基于FPGA的加速自动语音识别解决方案

提供超低延迟和极低错误率（WER）的实时流式语音转文本解决方案，可同时运行超过1000个并发语音流

发表于 11-29 15:18 •425次阅读

基于DSP的车载语音识别系统方案设计

电子发烧友网站提供《基于DSP的车载语音识别系统方案设计.pdf》资料免费下载

发表于 11-08 09:14 •0次下载

基于DSP的车载<b class='flag-5'>语音</b><b class='flag-5'>识别系统</b>方案设计

离线语音识别和控制的工作原理及应用

：　　1.信号采集　　离线语音识别系统的第一步是信号采集。声音信号通过麦克风（传感器）以电信号的形式被捕捉到，这是后续处理的基础。　　2.预处理　　预处理阶段包括去除噪声、回声消除、降噪等处理

发表于 11-07 18:01

远程RFID自动识别系统的研究

电子发烧友网站提供《远程RFID自动识别系统的研究.pdf》资料免费下载

发表于 11-06 10:24 •0次下载

远程RFID自动<b class='flag-5'>识别系统</b>的<b class='flag-5'>研究</b>

ADSP-BF531在嵌入式语音识别系统中的应用

电子发烧友网站提供《ADSP-BF531在嵌入式语音识别系统中的应用.pdf》资料免费下载

发表于 10-23 10:45 •2次下载

ADSP-BF531在嵌入式<b class='flag-5'>语音</b><b class='flag-5'>识别系统</b>中的应用

语音识别系统的单片机控制

电子发烧友网站提供《语音识别系统的单片机控制.pdf》资料免费下载

发表于 10-13 11:22 •8次下载

<b class='flag-5'>语音</b><b class='flag-5'>识别系统</b>的单片机控制

DSP嵌入式识别系统应用研究

电子发烧友网站提供《DSP嵌入式识别系统应用研究.pdf》资料免费下载

发表于 10-12 10:23 •0次下载

DSP嵌入式<b class='flag-5'>识别系统</b>应用<b class='flag-5'>研究</b>

LD3320的嵌入式语音识别系统的应用电路原理图

电子发烧友网站提供《LD3320的嵌入式语音识别系统的应用电路原理图.pdf》资料免费下载

发表于 10-11 09:38 •4次下载

LD3320的嵌入式<b class='flag-5'>语音</b><b class='flag-5'>识别系统</b>的应用电路原理图

深度学习在语音识别中的应用及挑战

的挑战。二、深度学习在语音识别中的应用 1.基于深度神经网络的语音识别：深度神经网络（DNN）和循环神经网络（RNN）是深度学习在语音

发表于 10-10 18:14 •498次阅读

语音识别技术的挑战与机遇

1.噪音干扰：现实环境中的噪音是影响语音识别准确性的重要因素。许多语音识别系统在安静的环境下表现良好，但在嘈杂环境中性能下降严重。为解决这个问题，

发表于 10-10 17:10 •583次阅读

基于OMAP5912的嵌入式非特定人连续语音识别系统

电子发烧友网站提供《基于OMAP5912的嵌入式非特定人连续语音识别系统.pdf》资料免费下载

发表于 10-09 15:21 •0次下载

基于DTW算法语音识别系统仿真及DSP实现

电子发烧友网站提供《基于DTW算法语音识别系统仿真及DSP实现.pdf》资料免费下载

发表于 10-08 11:52 •0次下载

语音识别唤醒词：让智能设备主动“听”你的声音

，为用户提供更加便捷、智能的交互体验。本文将深入探讨语音识别唤醒词的意义、技术原理以及在家庭生活、商业和物联网等领域的广泛应用前景。一、语音识别

发表于 08-07 20:21 •1239次阅读

浅析三种主流深度神经网络

深层神经网络的迅速发展应用致使语音识别错误率上较传统语音识别方法错误率减少30%(20年来最大降

发表于 05-15 14:18 •712次阅读

搜索历史