0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音识别行业的发展现状分析

电子工程师 来源:网络整理 作者:佚名 2020-01-02 09:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

因为资本的涌入、智能家居的火热和人工智能的崛起,市场对语音市场的关注度迅速提升。尤其是近年来随着亚马逊、谷歌、华为和BAT等厂商入局智能音箱,争先押宝这个智能家居的关键入口之后,语音市场变得空前拥挤。

根据 ReportLinker的预测,到2024年,全球智能语音市场规模将跃升到215亿美元,而在当中AI语音芯片就扮演了一个关键角色。不同于过往的芯片只考虑PPA,开发者在选择语音芯片的时候更多是考虑其体验,但这是很多过往的硬件解决方案所不具备的。这就吸引了众多传统厂商或者初创企业开始纷纷涌入AI语音芯片这个赛道,用MCUDSP或者ASIC的方案来解决现有,有些厂商甚至还推出了颠覆传统的新架构去抢占市场。

但在行业专家看来,这些方案或多或少都存在一些问题。要了解这一点,就必须从语音识别行业的一些现状说起。

语音识别面临的几大挑战

以智能音箱为例,现在的语音识别产品在厂商的智能家居规划蓝图中是扮演一个人与机器交流的桥梁,那在实际应用中就要求音箱能够听得到人说的话,同时还要求它听得清晰和听得准。这就提出了第一个挑战——那就是信噪比。

所谓信噪比,就是目标信号与干扰信号强度比值的对数,我们需要一定的信噪比,才能让机器听得清楚。但根据声音的传播特性,它在空气中衰减会非常大,但人在与智能音箱交流的过程中,可能会处在不同的位置和距离。这就给相关的方案提供商提出了一个难题,这也是语音识别所面临的最大挑战。

第二个问题是非稳态的噪声影响。如果我们面对的是规律的噪声,应对的办法无疑会简单很多。但在实际的使用环境中,我们经常会面对的是带有突发性和不可预见性的噪音,这给供应商也带来了不小的挑战。

第三,多声源的问题。智能音箱在使用的过程中,只会听从一个声源的指令,但在人机交流的过程中,必然会出现干扰源。如何处理这个干扰的问题,也困扰着相关供应商和开发者。

而其实面对这些问题,产业链已经想了不少应对之法。例如麦克风阵列、波束成形和降噪的引入,更强的人工智能芯片加持,但这依然没有能彻底解决问题。

语音识别行业的发展现状分析

如上图所示,在传统方案中,系统最后识别的信号是在波束成形之后做的,因为波束成形依赖于声源定位(即DOA),但DOA一般用单MIC信号来做检测。换而言之,我们这样设计的目的原本是为了提升唤醒率和识别率,但依赖于单MIC信号的检测之后,两者之间就存在相互依赖的关系,这就会给设备的唤醒率造成影响。

其次,传统方案里面有多个模块和多个环节,但他们并不都是以降低识别率为优化目标,这就让降噪、信号增强和最后的识别可能会出现不适配的情况,使得系统虽然降了噪,但没有得到想要的识别率的提升。

再者,传统的流程对硬件要求非常高,对MIC的一致性以及电容元器件的一致性要求非常高。这就节能会导致大家在实验室和在量产线上取得不同的结果。量产场景下的识别率非常差。这主要与波束成形和声源定位要求高,一旦出现波动会影响识别效果有关。

此外,波束成形算法原理是增强设定波束内的信号强度,衰减波束外的信号幅度。那就意味着当干扰声源和目标声源方向非常接近的时候,信号和噪声是会同时增强,这是传统波束成形算法也不能解决的问题。

单从芯片的角度看,也有不少的困难要面对。如算力问题、冯诺依曼架构带来的内存墙问题,还有基于浮点训练出来的模型与定点推理之间的不匹配引致的重新训练和精度丢失等问题。其他如对神经网络支持不够、功耗过高和开发复杂等也是当下很多语音识别芯片的掣肘所在。

市场渴求更好的解决方案。

基于创新架构开辟新路径

面对以上种种挑战,由Marvell中国芯片研发部门前高管鲁勇创立的探境科技正在从架构、芯片、软件和算法等多维度创新入手,帮助语音识别方案客户解决其问题。而其颠覆性创新的SFA(storage First Architectur)架构则是他们“全栈”式服务的基础。

探境科技CEO鲁勇先生首先告诉半导体行业观察记者,他们的SFA架构并不是大家所认为的存算一体架构。在他看来,现在很多所谓的存算一体架构存在着成本、可靠性、算法兼容性等问题。

“我们的SFA从架构上也是将计算和存储单元分开,但是我们的做法是以存储来驱动计算,并且将传统AI运算时要在数据在存储和计算单元中来回搬回多次的过程压缩到一次却又不影响结果精度。这是我们的核心竞争力所在,这也能很多AI语音识别芯片碰到的问题迎刃而解”,鲁勇说。

从实际测试上看,探境科技AI语音芯片的表现优越。据鲁勇介绍,在实际测试中,探境科技的AI语音识别芯片的数据访问可降低10~100倍,存储子系统功耗下降10倍,而基于28nm工艺打造的芯片系统能效超过4T OPS/W。

语音识别行业的发展现状分析

SFA架构芯片与其他芯片的对比

注:在28nm专用测试芯片上得到的对比数据,测试方法为带有卷积加速器扩展指令的DSP模式与SFA架构模式的对比,乘法器数目相同,DRAM为LPDDR4

除了高性能的能耗比之外,这个架构还有非常好的易用性和通用性。

鲁勇指出,基于SFA架构打造的AI芯片不是针对某一个神经网络做的优化,可以支持所有已知的神经网络,并且能让所有神经网络在其上面都能跑出最高的效率;同时它对参数也没有限制,可以用任意的参数;此外,基于SFA架构打造的芯片对数据类型也没有限制,可以支持定点数、位点数。针对常见的稀疏数据,这个芯片也有自适应的支持,而不用人工干预。“探境科技提供的工具链可以让开发者能够零基础切入SFA架构芯片的开发。”鲁勇强调。

基于SFA架构,探境科技开辟出了语音和图像两条产品线,其中语音产品已经获得了客户的高度认可。其中音旋风611功不可没。

据了解,这是探境科技针对智能家居市场推出的一款语音识别芯片,是目前市面上综合性能最好,性价比最高的一款芯片。如下图所示,它能够支持200条的命令词,能够做到99%的唤醒率和极低的误唤醒率。

至于探境科技的另一条产品线图像芯片也已经流片成功,期待探境科技用其给市场带来更多的赋能。

音旋风611

虽然基于SFA打造的芯片拥有多项优势。但正如上文所说,语音识别方案是一个涉及多个模块的项目,芯片只是当中的一环。为此,探境科技从多个角度入手,为语音识别方案商提供了一个交钥匙方案。

针对前文提到的传统麦克风阵列信号增强算法的缺点,探境科技提出了一个新的 处理方法,把增强和识别一体化处理,做了一个端到端的识别流程。

据探境科技的技术副总裁李同治介绍,他们在这个识别流程里放弃了用传统数字信号处理算法来做语音增强的做法,而是用一套基于神经网络的AI算法来做信号增强。他指出,这个方案的处理算法所有的参数都是和神经网络一起训练的,这样整体优化的目标都是为了降低最后的识别错误率,而不仅仅是提升信号质量。

端对端的处理算法是最前沿的处理算法

“我们这套降噪算法与传统的降噪算法不一样,我们的降噪算法是基于深度学习的AI降噪算法,不仅可以处理常见的稳态噪声,对一些非稳态的噪声和突发性的噪声也可以很好地处理。”,李同治补充说。

除了这个降噪算法以外 ,探境科技还开发出了专门用来做语音识别的高计算强度的神经网络HONN。据了解,高强度神经网络的参数量不大,仅为DNN的五分之一,这就让探境科技可以用更少的参数量和更少的存储达到了更好的效果。

与此同时,高强度计算神经网络的算力需求量很大,但DNN只有个位数的计算强度,两者之间差了30倍。这也是为什么其他厂商并没有使用效果更好的HONN,而是DNN的原因。因为这个算力要求对基于SFA打造的AI芯片来说是绰绰有余,但对很多其他架构芯片来说,是难以应付的,李同治告诉记者。

“SFA不仅仅是适配于终端,也适配于云端、推理、训练,可以组合成各种不同的产品形态,适合于终端、推理、训练”,鲁勇最后说,但他也强调,将SFA应用到云端会是一个很漫长的过程。我们现在可以看到的是,探境科技正在用他们的全栈实力在拥挤的语音AI芯片赛道上找到了属于他们的”捷径”。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1803

    浏览量

    115565
  • AI芯片
    +关注

    关注

    17

    文章

    2065

    浏览量

    36570
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音识别芯片有哪些(语音识别芯片AT680系列)

    在人工智能技术飞速发展的今天,语音识别芯片作为人机交互的重要桥梁,正逐渐成为各类智能设备不可或缺的核心部件。与传统的语音芯片不同,语音
    的头像 发表于 11-14 17:11 1030次阅读

    广州唯创电子WTK6900H-32N语音识别芯片:智能语音控制赋能LED灯带创新应用 | 语音IC厂家

    在智能家居快速发展的今天,语音控制技术正以其独特的便捷性和智能化特性,重新定义着人们与家居环境的交互方式。广州唯创电子作为国内领先的语音IC厂家,推出的WTK6900H-32N(S002)语音
    的头像 发表于 11-04 08:53 460次阅读
    广州唯创电子WTK6900H-32N<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片:智能<b class='flag-5'>语音</b>控制赋能LED灯带创新应用 | <b class='flag-5'>语音</b>IC厂家

    什么是离线语音识别芯片(离线语音识别芯片有哪些优点)

    离线语音识别芯片,是一种集成了语音信号采集、前端处理和本地识别功能的专用集成电路,无须联网也可以进行语音控制。它内设先进的数字信号处理模块及
    的头像 发表于 10-31 15:27 271次阅读

    中国芯片发展现状和趋势2025

    中国芯片产业正处于关键发展阶段,在政策支持与外部压力双重驱动下,正在加速构建自主可控的半导体产业链。以下是现状分析与趋势展望: 一、发展现状 (一)全产业链布局初具规模 设计领域 华为
    的头像 发表于 08-12 11:50 3.6w次阅读
    中国芯片<b class='flag-5'>发展现状</b>和趋势2025

    语音识别---大家怎么看呢?

    语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音
    发表于 08-09 10:54

    铝电解电容的行业发展现状与未来趋势展望

    、智能化转型的关键阶段。本文将结合最新行业动态与技术突破,系统梳理铝电解电容的发展现状,并对其未来趋势进行前瞻性分析。 ### 一、行业发展现状
    的头像 发表于 08-07 16:18 1542次阅读

    RISC-V 发展现状及未来发展重点

    ,RISC-V 国际基金会首席架构师、SiFive 首席架构师、加州伯克利分校研究生院名誉教授 Krste Asanovic分享了当前 RISC-V 的发展现状和未来的重点方向。   当前,开放标准
    发表于 07-17 12:20 5058次阅读
    RISC-V <b class='flag-5'>发展现状</b>及未来<b class='flag-5'>发展</b>重点

    工业电机行业现状及未来发展趋势分析

    的部分观点,可能对您的企业规划有一定的参考价值。点击附件查看全文*附件:工业电机行业现状及未来发展趋势分析.doc 本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品
    发表于 03-31 14:35

    新能源汽车驱动电机专利信息分析

    电机专利技术 的发展现状,对比指出国内专利申请特点以及存在的问题,并尝试性地为国内驱动电机相关企业和科研机构提 出相应的发展建议。 纯分享贴,需要自行下载,免积分的!
    发表于 03-21 13:39

    语音识别技术在通信领域中的应用实例

    语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),是通过计算机对语音信号进行
    的头像 发表于 02-21 17:12 1068次阅读

    详解语音识别技术在通信领域中的应用

    语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),是通过计算机对语音信号进行
    的头像 发表于 02-21 17:05 1033次阅读
    详解<b class='flag-5'>语音</b><b class='flag-5'>识别</b>技术在通信领域中的应用

    智能驾驶传感器发展现状发展趋势

    的数据支持,从而实现安全、高效的自动驾驶。本文将深入探讨智能驾驶传感器的发展现状,并展望其未来的发展趋势。 一、智能驾驶传感器的发展现状 1. 多样化的传感器类型 智能驾驶传感器主要包括摄像头、激光雷达(LiDAR)、毫
    的头像 发表于 01-16 17:02 1523次阅读

    新型储能产业发展现状及趋势-2024年上半年数据发布简版

    新型储能产业发展现状及趋势-2024年上半年数据发布 简版
    发表于 01-03 15:14 0次下载

    【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

    项目二维码下图 该作品通过采集饮水数据,多种交互方式,数据分析处理,提醒用户定期饮水,达到保持健康的作用。 主要功能是语音识别。 ASR-PRO语音模块是一款高度集成的智能
    发表于 01-02 18:15

    离线语音识别技术引领智能语音灯具市场——NRK3502

    智能语音灯具集高科技与人性化设计,内置NRK3502离线语音识别芯片,支持远场识别与自定义指令,提供便捷智能体验,推动智能家居行业
    的头像 发表于 12-30 15:04 1217次阅读
    离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>技术引领智能<b class='flag-5'>语音</b>灯具市场——NRK3502