语音识别行业的发展现状分析-电子发烧友网

因为资本的涌入、智能家居的火热和人工智能的崛起，市场对语音市场的关注度迅速提升。尤其是近年来随着亚马逊、谷歌、华为和BAT等厂商入局智能音箱，争先押宝这个智能家居的关键入口之后，语音市场变得空前拥挤。

根据 ReportLinker的预测，到2024年，全球智能语音市场规模将跃升到215亿美元，而在当中AI语音芯片就扮演了一个关键角色。不同于过往的芯片只考虑PPA，开发者在选择语音芯片的时候更多是考虑其体验，但这是很多过往的硬件解决方案所不具备的。这就吸引了众多传统厂商或者初创企业开始纷纷涌入AI语音芯片这个赛道，用MCU、DSP或者ASIC的方案来解决现有，有些厂商甚至还推出了颠覆传统的新架构去抢占市场。

但在行业专家看来，这些方案或多或少都存在一些问题。要了解这一点，就必须从语音识别行业的一些现状说起。

语音识别面临的几大挑战

以智能音箱为例，现在的语音识别产品在厂商的智能家居规划蓝图中是扮演一个人与机器交流的桥梁，那在实际应用中就要求音箱能够听得到人说的话，同时还要求它听得清晰和听得准。这就提出了第一个挑战——那就是信噪比。

所谓信噪比，就是目标信号与干扰信号强度比值的对数，我们需要一定的信噪比，才能让机器听得清楚。但根据声音的传播特性，它在空气中衰减会非常大，但人在与智能音箱交流的过程中，可能会处在不同的位置和距离。这就给相关的方案提供商提出了一个难题，这也是语音识别所面临的最大挑战。

第二个问题是非稳态的噪声影响。如果我们面对的是规律的噪声，应对的办法无疑会简单很多。但在实际的使用环境中，我们经常会面对的是带有突发性和不可预见性的噪音，这给供应商也带来了不小的挑战。

第三，多声源的问题。智能音箱在使用的过程中，只会听从一个声源的指令，但在人机交流的过程中，必然会出现干扰源。如何处理这个干扰的问题，也困扰着相关供应商和开发者。

而其实面对这些问题，产业链已经想了不少应对之法。例如麦克风阵列、波束成形和降噪的引入，更强的人工智能芯片加持，但这依然没有能彻底解决问题。

语音识别行业的发展现状分析

如上图所示，在传统方案中，系统最后识别的信号是在波束成形之后做的，因为波束成形依赖于声源定位（即DOA），但DOA一般用单MIC信号来做检测。换而言之，我们这样设计的目的原本是为了提升唤醒率和识别率，但依赖于单MIC信号的检测之后，两者之间就存在相互依赖的关系，这就会给设备的唤醒率造成影响。

其次，传统方案里面有多个模块和多个环节，但他们并不都是以降低识别率为优化目标，这就让降噪、信号增强和最后的识别可能会出现不适配的情况，使得系统虽然降了噪，但没有得到想要的识别率的提升。

再者，传统的流程对硬件要求非常高，对MIC的一致性以及电容元器件的一致性要求非常高。这就节能会导致大家在实验室和在量产线上取得不同的结果。量产场景下的识别率非常差。这主要与波束成形和声源定位要求高，一旦出现波动会影响识别效果有关。

此外，波束成形算法原理是增强设定波束内的信号强度，衰减波束外的信号幅度。那就意味着当干扰声源和目标声源方向非常接近的时候，信号和噪声是会同时增强，这是传统波束成形算法也不能解决的问题。

单从芯片的角度看，也有不少的困难要面对。如算力问题、冯诺依曼架构带来的内存墙问题，还有基于浮点训练出来的模型与定点推理之间的不匹配引致的重新训练和精度丢失等问题。其他如对神经网络支持不够、功耗过高和开发复杂等也是当下很多语音识别芯片的掣肘所在。

市场渴求更好的解决方案。

基于创新架构开辟新路径

面对以上种种挑战，由Marvell中国芯片研发部门前高管鲁勇创立的探境科技正在从架构、芯片、软件和算法等多维度创新入手，帮助语音识别方案客户解决其问题。而其颠覆性创新的SFA（storage First Architectur）架构则是他们“全栈”式服务的基础。

探境科技CEO鲁勇先生首先告诉半导体行业观察记者，他们的SFA架构并不是大家所认为的存算一体架构。在他看来，现在很多所谓的存算一体架构存在着成本、可靠性、算法兼容性等问题。

“我们的SFA从架构上也是将计算和存储单元分开，但是我们的做法是以存储来驱动计算，并且将传统AI运算时要在数据在存储和计算单元中来回搬回多次的过程压缩到一次却又不影响结果精度。这是我们的核心竞争力所在，这也能很多AI语音识别芯片碰到的问题迎刃而解”，鲁勇说。

从实际测试上看，探境科技AI语音芯片的表现优越。据鲁勇介绍，在实际测试中，探境科技的AI语音识别芯片的数据访问可降低10~100倍，存储子系统功耗下降10倍，而基于28nm工艺打造的芯片系统能效超过4T OPS/W。

语音识别行业的发展现状分析

SFA架构芯片与其他芯片的对比

注：在28nm专用测试芯片上得到的对比数据，测试方法为带有卷积加速器扩展指令的DSP模式与SFA架构模式的对比，乘法器数目相同，DRAM为LPDDR4

除了高性能的能耗比之外，这个架构还有非常好的易用性和通用性。

鲁勇指出，基于SFA架构打造的AI芯片不是针对某一个神经网络做的优化，可以支持所有已知的神经网络，并且能让所有神经网络在其上面都能跑出最高的效率；同时它对参数也没有限制，可以用任意的参数；此外，基于SFA架构打造的芯片对数据类型也没有限制，可以支持定点数、位点数。针对常见的稀疏数据，这个芯片也有自适应的支持，而不用人工干预。“探境科技提供的工具链可以让开发者能够零基础切入SFA架构芯片的开发。”鲁勇强调。

基于SFA架构，探境科技开辟出了语音和图像两条产品线，其中语音产品已经获得了客户的高度认可。其中音旋风611功不可没。

据了解，这是探境科技针对智能家居市场推出的一款语音识别芯片，是目前市面上综合性能最好，性价比最高的一款芯片。如下图所示，它能够支持200条的命令词，能够做到99%的唤醒率和极低的误唤醒率。

至于探境科技的另一条产品线图像芯片也已经流片成功，期待探境科技用其给市场带来更多的赋能。

音旋风611

虽然基于SFA打造的芯片拥有多项优势。但正如上文所说，语音识别方案是一个涉及多个模块的项目，芯片只是当中的一环。为此，探境科技从多个角度入手，为语音识别方案商提供了一个交钥匙方案。

针对前文提到的传统麦克风阵列信号增强算法的缺点，探境科技提出了一个新的处理方法，把增强和识别一体化处理，做了一个端到端的识别流程。

据探境科技的技术副总裁李同治介绍，他们在这个识别流程里放弃了用传统数字信号处理算法来做语音增强的做法，而是用一套基于神经网络的AI算法来做信号增强。他指出，这个方案的处理算法所有的参数都是和神经网络一起训练的，这样整体优化的目标都是为了降低最后的识别错误率，而不仅仅是提升信号质量。

端对端的处理算法是最前沿的处理算法

“我们这套降噪算法与传统的降噪算法不一样，我们的降噪算法是基于深度学习的AI降噪算法，不仅可以处理常见的稳态噪声，对一些非稳态的噪声和突发性的噪声也可以很好地处理。”，李同治补充说。

除了这个降噪算法以外，探境科技还开发出了专门用来做语音识别的高计算强度的神经网络HONN。据了解，高强度神经网络的参数量不大，仅为DNN的五分之一，这就让探境科技可以用更少的参数量和更少的存储达到了更好的效果。

与此同时，高强度计算神经网络的算力需求量很大，但DNN只有个位数的计算强度，两者之间差了30倍。这也是为什么其他厂商并没有使用效果更好的HONN，而是DNN的原因。因为这个算力要求对基于SFA打造的AI芯片来说是绰绰有余，但对很多其他架构芯片来说，是难以应付的，李同治告诉记者。

“SFA不仅仅是适配于终端，也适配于云端、推理、训练，可以组合成各种不同的产品形态，适合于终端、推理、训练”，鲁勇最后说，但他也强调，将SFA应用到云端会是一个很漫长的过程。我们现在可以看到的是，探境科技正在用他们的全栈实力在拥挤的语音AI芯片赛道上找到了属于他们的”捷径”。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音识别

语音识别

+关注

关注
37

文章
1635

浏览量
111831
AI芯片

AI芯片

+关注

关注
17

文章
1648

浏览量
34379

STM32国内外发展现状

电子发烧友网站提供《STM32国内外发展现状.docx》资料免费下载

发表于 04-08 15:56 •13次下载

光伏行业发展现状与发展趋势报告

2023年12月15日，由中国光伏行业协会和宿迁市人民政府共同主办的“2023光伏行业年度大会”在江苏宿迁成功举办。中国光伏行业协会名誉理事长王勃华出席会议并作光伏行业

发表于 12-26 11:32 •293次阅读

光伏<b class='flag-5'>行业</b><b class='flag-5'>发展现状</b>与<b class='flag-5'>发展</b>趋势报告

从融资看通信行业发展现状

电子发烧友网站提供《从融资看通信行业发展现状.pdf》资料免费下载

发表于 12-13 10:15 •1次下载

从融资看通信<b class='flag-5'>行业</b><b class='flag-5'>发展现状</b>

工业机器人的发展现状和趋势

工业机器人的发展现状和趋势。一、工业机器人的发展现状 1.1 工业机器人的概念及历史工业机器人指的是一种可以自动完成各种工业生产任务的机器人。最早的工业机器人广泛应用于汽车、电子、金属加工等行业。随着技术的进步和成

发表于 12-07 17:27 •3031次阅读

浅谈情感语音识别：技术发展与未来趋势

一、引言情感语音识别是一种新兴的人工智能技术，它通过分析人类语音中的情感信息，实现人机之间的情感交互。本文将探讨情感语音

发表于 11-30 11:06 •371次阅读

情感语音识别的现状与未来趋势

情感语音识别是一种涉及多个学科领域的前沿技术，包括心理学、语言学、计算机科学等。它通过分析人类语音中的情感信息，实现更加智能化和个性化的人机交互。本文将探讨情感

发表于 11-28 17:22 •367次阅读

情感语音识别：现状、挑战与解决方案

一、引言情感语音识别是人工智能领域的前沿研究课题，它通过分析人类语音中的情感信息，实现更加智能化和个性化的人机交互。然而，在实际应用中，情感语音

发表于 11-23 11:30 •331次阅读

情感语音识别：现状、挑战与未来趋势

的现状、挑战与未来趋势。二、情感语音识别的现状技术发展：随着深度学习技术的不断进步，情感语音

发表于 11-22 11:31 •364次阅读

情感语音识别技术的现状与未来

一、引言情感语音识别技术是近年来人工智能领域的研究热点之一，它通过分析人类语音中的情感信息，为智能客服、心理健康监测、娱乐产业等多个领域提供了重要的支持。本文将探讨情感

发表于 11-15 16:36 •279次阅读

语音识别技术的行业应用与发展趋势

一、引言随着科技的不断发展，语音识别技术已经渗透到各个行业中，并逐渐改变着人们的生活方式。本文将探讨语音

发表于 10-18 16:10 •371次阅读

语音识别技术：现状、挑战与未来发展

一、引言语音识别技术是一种将人类语音转化为计算机可读文本的技术，它在许多领域都有广泛的应用，如智能助手、智能家居、医疗诊断等。本文将探讨语音识别

发表于 10-12 16:57 •1203次阅读

语音识别技术的现状及发展趋势

一、引言随着科技的快速发展，语音识别技术得到了广泛应用。语音识别技术是一种人机交互的关键技术，它使得计算机能理解和解析人类语言。本文将探讨

发表于 09-28 16:55 •1914次阅读

语音识别技术：现状、前景与挑战

一、引言随着科技的快速发展，语音识别技术已经逐渐融入我们的日常生活，且在各个领域展现出广阔的应用前景。本文将探讨语音

发表于 09-22 18:23 •900次阅读

人工智能的发展现状及前景

。人工智能始于上世纪六十年代，随着计算能力、数据累积和算法进步不断提升，人工智能得到了飞速发展。 发展现状 1.应用场景日益广泛人工智能技术广泛运用于医疗、金融、物流、交通、教育、安全等生产和生活领域。如人脸识别、智能客服、自

发表于 08-17 12:37 •7242次阅读

深度解读工控安全技术发展现状与应用趋势

本文将分析工控安全技术发展现状，盘点国内外工控安全主流厂商发展态势，分析我国工控安全市场发展现状，展望未来工控安全技术的

发表于 05-25 10:42 •2908次阅读

搜索历史

语音识别行业的发展现状分析

评论

STM32国内外发展现状

光伏行业发展现状与发展趋势报告

从融资看通信行业发展现状

工业机器人的发展现状和趋势

浅谈情感语音识别：技术发展与未来趋势

情感语音识别的现状与未来趋势

情感语音识别：现状、挑战与解决方案

情感语音识别：现状、挑战与未来趋势

情感语音识别技术的现状与未来

语音识别技术的行业应用与发展趋势

语音识别技术：现状、挑战与未来发展

语音识别技术的现状及发展趋势

语音识别技术：现状、前景与挑战

人工智能的发展现状及前景

深度解读工控安全技术发展现状与应用趋势