0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音识别“拐点”已至,现在切入才是好时机?

张慧娟 来源:电子发烧友网 作者:张慧娟 2019-12-30 14:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群


“现在切入语音识别正是好时机,更早进入也是在教育市场,过去两年一些公司的出货量经历了非常残酷的考验。现在行业进入拐点时期,我们进入正是最好的时间点”,探境科技CEO鲁勇对<电子发烧友>表示。

“拐点”之说何来?

根据Gartner在今年8月底发布的“人工智能技术成熟度曲线”可以看到,处于生产力成熟期(Plateau of Productivity)的技术仅有两项:语音识别(Speech Recognition)和GPU加速器accelerators),且正处于爬升态势。来自市场的反馈同样如此,这两项技术是当前落地最快、最多的AI项目。

在语音识别的落地项目中,场景最多的当属智能家居领域,以智能音箱为典型代表。但是,从用户反馈来看,两大问题已经浮现出来:一是在真实语音交互场景中,在复杂的声场环境、噪音的影响下,语音识别准确率直线下降;二是越来越多安全问题的爆出,让用户对于家中的这个“云耳朵”充满了担忧。

第一批智能音箱在满足了用户的好奇心之后,成为非常鸡肋的一个产品,要么在家中落灰,要么需要时时警惕,仅在偶尔使用时才敢接上电源

在成为爆款这件事上,智能音箱让业界失望了。

满足好奇心过后,语音交互下一波靠什么撬动市场?是价格吗?

是,也不全是。在巨大的市场痛点面前,谁能抓住用户需求,真正解决问题,谁才有希望在这条拥挤的赛道上前进一小段。

市场正在开始新一轮的筛选。

市场需要什么样的语音识别方案?

语音作为人机交互的重要方式之一,终极目标是实现自然的交互。而当前的技术远远达不到,在语音识别这一环节,解决噪音问题、提升远场语音识别率、消除用户顾虑/提升安全性成为当务之急。

在家居场景下,语音识别面临两大挑战

第一是低信噪比。在我们的生活场景中,存在着一些高噪声的环境,比如抽油烟机或者扫地机器人,这些设备上噪声最低也有70分贝。麦克风距离这些设备非常近,而操作者距离麦克风会更远些,这些因素叠加,会导致语音识别设备采集到的信噪比非常低,给识别带来很大的挑战。

第二是非稳态的噪声的影响。传统降噪算法无法处理,比如电视剧声音/音乐突然的节奏变化,或者是做饭时叮叮咣咣的声音等,都带有突发性和不可预见性。

为了解决上述挑战,增强语音信号质量、提升信噪比,业界通常采用麦克风阵列的方式。但是,在干扰信号和目标声源方向接近的场景下,传统的麦克风阵列增强算法几乎无法处理

据<电子发烧友>了解,目前市面上的智能语音芯片方案可粗略分为两种:一种是披着“AI”外衣的DSP,这种方案可实现轻量级的NN支持,在识别指令数量方面有提升,但是通常并无降噪支持;另一种可支持RNN/CNN/DNN等模型、架构上通常采用MCU+NN或MCU+DSP+NN。

在鲁勇看来,未来用户体验要求会越来越高,相应地将造成算法越来越复杂,对算力的要求将更高。只有从底层进行颠覆性创新,才能真正解决问题

揭密探境语音识别三大核心技术

AI降噪+HONN神经网络提升识别率

在语音识别的研发过程中,一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别,首先要在降噪处理上下功夫。

探境自研的AI降噪算法基于深度学习,不仅能够处理稳态的噪声,非稳态的突发性噪声也能很好的过滤。据探境科技副总裁李同治介绍,凭借探境AI降噪算法的有效性,他曾将一批信噪比在3dB左右的语音数据做了测试,降噪后比降噪前提高30%识别准确率。

在对声音进行降噪处理之后,就进入到了语音识别环节。在这一环节中,神经网络模型所需的算力决定了模型的描述能力,同时也决定了模型处理能力和识别率的上限。

以往的语音识别算法,用的最多的是全连接的操作DNN/DTNN。据了解,国内多家语音识别芯片采用的都是DNN的方法。

探境计算机视觉的经验迁移到语音识别中,在语音识别算法上加入了更多的卷积操作,重新设计了一个高计算强度的神经网络,即HONN(High Operation Neural Network)。
图:DNN与HONN区别
在高计算强度神经网络里,每一个处理单元变成了立体维度,所能处理的信息量和计算密度,也远远超过传统DNN/DTNN的方法。

由于多了一个维度的识别,性能方面得到了显著提升:DNN需要1.6M的存储空间,而HONN仅需要350k,这意味着可以使用存储空间更少、成本更低的芯片来做语音识别。

同时,DNN与HONN所需的算力相反。在处理高强度模型单帧时,HONN需要超过几百兆OPS,而一般的DNN模型需要个位数的算力。两者相差超过30倍。对于神经网络来说,模型所需的算力决定了模型的描述能力,同时也决定了模型处理能力和识别率的上限,从国内外趋势来看,最近工业和学术界趋向于使用算力需求大的模型来做建模。

据李同治介绍,就好比动物界大脑新皮层的容量决定着物种的智力程度,比如人类的新皮层容量是普通哺乳动物的近100倍,相应的,人类的智能程度超出普通哺乳动物几个数量级。

卷积运算与人类大脑负责感知模块的处理方法类似,能够提取满足大脑认知的本质特征。在参数数量相同的条件下,HONN通过卷积操作能够提供更高的计算强度,提高模型的算力需求。相对安静的环境下两者之间差别不大,但是当信噪比进一步降低时,基于HONN的方法识别优势非常明显

端到端FCSP双麦算法简化识别流程

“为了克服传统分模块语音增强算法的缺点,我们设计出了基于FCSP的端到端AI双麦算法”,李同治表示。FCSP(Frequency Complex Subspace Projection)是探境自研的频域复数子空间投影算法的简称。

据了解,“端到端”是目前国际前沿的处理算法,亚马逊、谷歌等都在采用类似的方法。探境基于FCSP的端到端双麦算法直接输入阵列信号,输出的是最终的识别结果,中间部分全部交给基于深度学习的AI算法来处理,不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化,避免了语音增强与语音识别模块错配的问题。在信噪比为0dB时,相对于传统的处理算法,相对识别错误率降低超过20%。

存储优先的SFA芯片架构

鲁勇谈到,在核心技术方面,市面上一些玩家像是在跛着脚走路,要么有芯片没算法,要么有算法没芯片,这样在市场上无法形成真正的竞争力。性能优异的算法+算力强劲且通用性强的芯片,才能充分发挥实力,探境就是要提供全栈式的技术能力,包括芯片设计、算法研究、软件开发和系统集成,提供Turn-key整体解决方案。

探境的骨干力量在行业内拥有10-20年的工作经验,其中一些曾就职于Marvell、英伟达高通Intel、硅谷数模等知名公司。基于多年的经验和对AI未来的预判,他们决定推翻冯诺依曼体系,推出了存储优先(SFA)的芯片架构

SFA架构以存储驱动计算,具有能效比高、资源利用率高、通用性强等特点。在SFA架构上实现深度学习时,只需要一个较高层次的神经网络描述。SFA的编译器首先将这个神经网络进行全部融合,然后根据具体架构实现的规模产生一个统一的存储流图,再进行存储节点的时空映射,最后根据各个节点之间的计算类型配置计算单元,组合起来形成一个统一的固件供SFA控制器使用。

在28nm常规工艺芯片的对比测试中,SFA架构在乘法器数目相同情况下(DRAM为LPDDR4),结果如下表,系统能效超过4T OPS/W,甚至超过12nm的芯片方案。
测试网络 数据访问量
DSP VS SFA
存储子系统功耗
DSP/SFA
inceptionv3 32:1 9:1
mobilenetssd 43:1 11:1
resnet50 17:1 6:1
VGG19 108:1 17:1
yolov2 47:1 12:1
注:测试方法为带有卷积加速器扩展指令的DSP模式与SFA架构模式的对比

探境有一句宣传语:NPU的性能,MCU的价格,背后动力主要来源于芯片架构的优化。设计这样一个全新的架构难度不言而喻,据鲁勇介绍,其中涉及数学、计算机架构、数据管理调度、硬件设计经验等,是个复杂的综合工程,并且要把这些方法揉在一起发挥出最大效力,通过算法和调度方式降低资源的连接复杂度,从而降低功耗,提高对数据本身的使用效率。他强调,SFA存储优先,不同于存算一体架构。后者需要从底层工艺去修改芯片设计,而存储优先是算法上的更新,无需修改芯片底层单元库。在当前商业化节奏越来越快的潮流之下,这种架构更通用、更兼容,大大加快了商业化落地速度。

探境能否渐入佳境?

依托于独有的AI降噪技术和HONN神经网络,探境的Voitist音旋风611可以覆盖绝大部分生活场景,量产供货仅半年,已经实现百万级出货。目前,探境拥有约30家合作伙伴,包括美的、海尔等智能家居制造大厂,智能家居制造商阿凡达智控、渠道商世强科技也刚刚与探境达成合作。

从探境首次曝光的产品矩阵来看,覆盖低功耗产品、主流产品、旗舰产品三大系列、六颗AI芯片,对于离在线一体、本地NLP、超低功耗产品等都有布局,希望形成智能家居网络的矩阵式入口

离线智能语音交互是当前一个重要的细分领域,无需联网可在本地实现语音交互,不仅能够保护隐私安全,同时也可以减少用户大量数据传送到云端的压力,当前主要应用于白电市场。可通过离线智能语音控制的家电产品目前包括:灯控、空调、电视机、油烟机、玩具等。

不过,探境不仅仅满足于做一家语音方案公司。初尝到语音市场的甜头后,探境把触角伸到了下一个红利市场——图像识别。据鲁勇介绍,探境的图像芯片在2019年Q4已经流片成功,在某些领域已经开始产生营收了。根据公布的核心指标来看,核心能效比IPS/W达800,是目前全球AI芯片中最高的,而这足以支撑探境去云端推理市场正面PK。

不过,就像鲁勇所说,AI芯片像马拉松长跑,比的是耐力,而不是冲刺速度,在这场比赛中,不是要看谁跑得快,而是要看谁有潜力到达终点,谁在中途不走岔路。

探境能否从智能家居开始,打稳地基,渐入佳境?还需要市场应用最后给出答案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1297

    浏览量

    58104
  • 语音识别
    +关注

    关注

    39

    文章

    1814

    浏览量

    116226
  • NPU
    NPU
    +关注

    关注

    2

    文章

    384

    浏览量

    21339
  • 探境科技
    +关注

    关注

    0

    文章

    4

    浏览量

    1967
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音识别芯片介绍,语音识别芯片工作原理解析

    在智能交互不断深入的今天,语音识别芯片正成为众多设备实现语音控制与AI对话的关键部件。语音芯片广义上涵盖语音播放、录音及
    的头像 发表于 04-01 16:26 186次阅读

    语音识别芯片的功能与优势有哪些

    在智能语音交互快速发展的今天,语音识别芯片作为核心部件,正逐渐成为各类智能设备不可或缺的组成部分。一款优秀的语音识别芯片,不仅决定了设备的智
    的头像 发表于 03-30 15:31 145次阅读

    瑞芯微(EASY EAI)RV1126B 语音识别

    1.语音识别简介语音识别技术,也被称为自动语音识别(AutomaticSpeechRecogni
    的头像 发表于 01-21 10:43 1014次阅读
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>语音</b><b class='flag-5'>识别</b>

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一种集声音存储、播放、录音及语音识别功能于一体的专用芯片。
    的头像 发表于 01-14 15:22 371次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>IC分类,<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片的工作原理

    国产32位MCU语音识别方案

    在智能家居、工业控制及便携设备领域,语音交互正成为人机界面的重要发展方向。针对离线语音识别需求,基于国产32位MCU的解决方案日益成熟,其中以CH32V307等为代表的32位MCU芯片,凭借高集成度与专用优化,为嵌入式设备提供了
    的头像 发表于 12-04 15:11 673次阅读

    语音识别芯片有哪些(语音识别芯片AT680系列)

    在人工智能技术飞速发展的今天,语音识别芯片作为人机交互的重要桥梁,正逐渐成为各类智能设备不可或缺的核心部件。与传统的语音芯片不同,语音识别
    的头像 发表于 11-14 17:11 1510次阅读

    什么是离线语音识别芯片(离线语音识别芯片有哪些优点)

    离线语音识别芯片,是一种集成了语音信号采集、前端处理和本地识别功能的专用集成电路,无须联网也可以进行语音控制。它内设先进的数字信号处理模块及
    的头像 发表于 10-31 15:27 653次阅读

    如何选择合适的语音识别芯片型号

    语音识别芯片(又称语音识别IC)是现代智能设备的核心组件,与传统语音芯片相比,其最大特点是能够主动识别
    的头像 发表于 10-30 16:32 722次阅读

    基于开源鸿蒙的语音识别语音合成应用开发样例

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用sherpa_onnx开源三方库进行ASR语音识别与TTS语音合成应用开发的流程。
    的头像 发表于 08-25 14:26 4425次阅读
    基于开源鸿蒙的<b class='flag-5'>语音</b><b class='flag-5'>识别</b>及<b class='flag-5'>语音</b>合成应用开发样例

    瑞芯微RK3576语音识别算法

    1.语音识别简介语音识别技术,也被称为自动语音识别(AutomaticSpeechRecogni
    的头像 发表于 08-15 15:13 2422次阅读
    瑞芯微RK3576<b class='flag-5'>语音</b><b class='flag-5'>识别</b>算法

    语音识别---大家怎么看呢?

    语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音
    发表于 08-09 10:54

    AT6811-超低功耗离线智能语音识别 SoC

    AT6811芯片以0.8mA超低功耗实现离线语音交互,在嘈杂环境中仍保持92%识别率,赋能空调、电动工具、助听器等设备,让万物拥有自然对话能力。
    的头像 发表于 08-07 17:44 1829次阅读

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的
    的头像 发表于 07-17 14:55 1973次阅读
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>语音</b><b class='flag-5'>识别</b>训练部署教程

    STM32F103驱动LD3320语音识别模块

    本文介绍了如何使用STM32F103微控制器驱动LD3320语音识别模块,该模块具备非特定人语音识别功能,支持动态编辑关键词,且无需额外Flash和RAM。通过SPI接口连接并配置代码
    的头像 发表于 06-28 14:16 1881次阅读
    STM32F103驱动LD3320<b class='flag-5'>语音</b><b class='flag-5'>识别</b>模块

    语音识别芯片选型有哪些技术参数要注意

    语音识别芯片的使用场景越来越多涉及的范围也越来越广!那么语音芯片的选型就很重要了,选型不对直接影响产品的使用体验,下面小编从不同的维度来给大家介绍语音
    的头像 发表于 06-23 17:31 1042次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片选型有哪些技术参数要注意