0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于百度3麦克风阵列智能音箱功能介绍

声智科技 来源:djl 作者:声智科技 2019-08-13 09:57 次阅读

6月11日,百度“新声出道”的小度新品发布会在北京百度科技园K6熊掌报告厅召开,新品“小度智能音箱”正式在后厂村C位“出道”,尝鲜价89元。这款“后厂村C位出道”的百元AI实力担当产品——“小度智能音箱”凭借“好听、好用、好玩”的特性,新晋成为智能音箱届的“三好生”!

这款定价89元的小度智能音箱是如何成为智能音箱届的“三好生”?声智科技作为小度智能音箱的技术合作伙伴,带您一起解锁小度智能音箱背后的秘密武器!

(1)好听:采用全球首款3麦克风阵列设计,硬件毫不妥协!

小度智能音箱作为一款定价89元的智能音箱,其跨级音质体验是百元档音质最佳的人工智能音箱。小度智能音箱音质出众,却身量小巧,而且有着毫不妥协的远场语音交互体验。它是如何平衡ID、音质设计和产品体验之间的矛盾呢?

作为一款支持远场语音交互的智能音箱,一定离不开麦克风阵列。麦克风阵列的主要作用是帮助机器适应更加复杂的场景。麦克风阵列是由一定数目的声学传感器组成,用来对声场的空间特性进行采样并处理的系统,将会影响真实环境下的语音唤醒和识别率,是决定用户体验的关键因素。

然而,当前市场上的麦克风阵列方案中,常见的阵型多为4麦,6麦,8麦等阵元的线型、环型、菱型等阵列方案,亚马逊的Echo还采用过6+1麦的方案,亚马逊主流产品仍在沿用6麦环形和8麦跑道型方案。从技术原理来看,更多数量麦克风的阵列方案在远场语音交互效果上更具有优势,但是多麦阵型也限制了ID设计的想象空间,对音箱设计提出包括ID、成本等更多苛刻要求。

图为麦克风阵列模组

声智科技为小度智能音箱量身打造的全球首款3麦环型麦克风阵列,很好的平衡了ID、成本、音质设计和产品体验之间的矛盾。这款全球首款3麦克风阵列构型灵活,打破了音腔设计的局限,并释放ID设计的无限空间,同时平衡了成本和效果之间的矛盾。

声智科技推出的这款全球首款的3麦环型麦克风阵列内置通话降噪、混响抑制、回声抵消、噪声抑制、语音增强、波束形成、增益控制、语音识别等远场语音交互技术,5米内的嘈杂环境中,仍可以有卓越的远场语音唤醒性能、精准的远近场语音识别,实现轻松唤醒,无惧环境,想说就说,声随心动,保证远场语音交互的完美体验。而且,相比4麦、6麦、8麦阵列方案的成本偏高,3麦阵列方案价格更加亲民,相比2麦又有效果优势。

不仅如此,为了释放ID设计的无限空间,声智科技针对小体积智能音箱尺寸特性,进行了独家的技术优化。小尺寸智能音箱的麦克风阵列与喇叭的位置,以及ID结构都较为受限,特别是麦克风阵列与大音量喇叭相距很近,带给语音交互技术处理极大的压力,特别是自噪声抑制和远场信号处理的难度极具增加。为了在这样的特殊结构设计获得更好的语音交互效果,声智科技独家设计优化,采用抗强噪唤醒技术(AKS技术)、垂直抗强噪识别技术(VAN技术)、OpenAEC技术等提升远场语音交互体验。

(2)好用:完整远场语音唤醒和识别服务,又快又准!

为了让小度智能音箱更好用,提升产品的净推荐值NPS,声智科技通过SoundAI Voice Kit(以下简称SVK)为小度带来更敏捷、更贴合人性化的语音交互设计。

SVK是一款集成声波配网、波束形成、声源测向、定向拾音、噪声抑制、混响消除、回声消除、语音唤醒、端点检测、语音识别、语义理解、语音合成、双工通话等全链路的智能语音交互开发套件,兼容主流智能语音硬件架构,支持DuerOS、AliGenies、小爱平台、腾讯叮当、Amazon Alexa等主流AI平台, 助力品牌厂商实现智能硬件产品的极速开发和量产上市。

什么样的响应时间才能带来完美的语音交互体验?人机语音交互是让机器模拟人的行为,让机器适应人类的交互习惯。大多数情况下,在生活中人与人对话时,一个过快的回答会给用户带来轻浮感和抢话感,而一个过慢的回答会给用户带来迟缓感和愚钝感。因此智能音箱的响应时间对于用户体验至关重要。

此次,小度智能音箱采用了声智科技的SVK完整的远场语音唤醒、远场语音识别(Far-Field ASR)服务。声智科技精准的“远场语音唤醒技术”和”远场语音识别技术”,面向垂直领域深度优化,达到平均96%以上的准确率。而且,不仅识别率极大的提升,也带来了更符合人性化的语音交互速度体验,使得小度智能音箱从唤醒到内容的全链条响应速度达到全球极致的1.4S以内,而用户唤醒以后的机器应答响应时间更是做到了400~500毫秒的极致速度。

什么样的语音唤醒体验才能带来完美语音交互体验?语音唤醒是智能音箱用户的第一体验。声智科技通过宽场景高灵敏唤醒技术,很好的平衡了唤醒率和误唤醒率。众所周知唤醒率和误唤醒是一对跷跷板,当唤醒效果很好的时候,误唤醒通常也会很高,智能音箱毫无征兆的突然唤醒也是很麻烦的事情。为解决这个矛盾,声智科技的技术不走讨巧路线,而是采用全新的唤醒模型,优先保证用户的体验,在此基础上再降低误唤醒率,同时还要提升强噪环境下的唤醒率。

当然,不同麦克风器件的选择带来不同的语音交互效果,信噪比(SNR)70dB以上的麦克风要比信噪比60DB的麦克风的远场和抗噪效果更好,但是选用高信噪比的麦克风,其结果就是成本会高出很多。彻底屏蔽硬件的差异化,面向低成本高失真产品,努力帮助客户降低成本,声智科技推出了低成本高容错唤醒技术。即便在一致性和失真度非常大的情况下,也要出色的保证用户体验的效果,这是声智科技给所有客户一直的承诺。

什么样的语音识别体验才能带来完美语音交互体验?由于远场智能产品的场景特殊性,远场语音识别相对更加垂直,比如智能音箱的识别偏重于音乐和百科领域,智能汽车的识别偏重于地图和音乐领域,而对于地域性的覆盖,则是远场语音识别着重考虑的,并不能简单把方言划归为一个技术系列,特别是消费电子领域的高度标准化思维,对于远场语音识别的场景兼容更加看重。所以声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题,不仅如此,为保证云端服务的稳定性和并发能力,声智科技采用端云强耦的技术架构,合理在端云分配计算能力,与Amazon AWS、阿里云等主流云计算平台采用相同的服务可靠性标准,SLA高达99.99%。

(3)好玩:满足儿童与极客不同需求,解决宽场景难题

真正的产品落地需要考虑众多应用场景的难题,声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题,比如老人和小孩的识别怎么办?南方和北方的语言差异怎么办?而并非只是简单的技术叠加。

智能音箱市场的用户群中有20%+是儿童,如何满足儿童用户群体的需求,提供零沟通距离,优质精选内容,保证健康安全又不失好玩有趣的语音交互体验?声智科技推出了远近场的儿童语音识别技术,针对儿童的语音特点,例如:儿童生理上发育不够成熟,不善于掌握发音部位与方法,辅音发音分化不明显。而且,儿童发音单音重复较多,往往发出单个的、重叠的音,他们会说“车车”、“糖糖”、“兔兔”、“饭饭”,而不说“汽车”、“糖”、“兔子”、“饭”这样的儿童的交流方式,声智科技进行声学模型优化训练,升级打造ASR技术,使得儿童识别率更准确,更贴合儿童的交互习惯。

除了儿童模式,小度智能音箱还推出了极客模式。极客模式下,一次唤醒之后,用户可以进行多轮对话。针对用户多轮对话的语音交互需求,声智科技推出了支持多轮对话的端云交互技术,从麦克风阵列、语音唤醒、端点检测和语音识别四个技术链条进行深度优化,满足了百度对于用户体验的极致追求。其中,端点检测技术既要保证响应速度,又要准确识别断句以保证语言连贯性,在复杂场景下的技术实现非常困难。声智科技率先突破这些技术难关,将会推动智能音箱技术向着更加智能的方向快速发展。

随着用户认知度提升、整体产业链的成熟、用户体验提升等因素,2018年智能音箱将会持续爆发。但语音交互技术仍需继续发力,声智科技作为国内知名的语音交互技术提供商,将持续聚焦在技术领域,与众多合作伙伴一道推动智能语音行业的发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能语音
    +关注

    关注

    10

    文章

    759

    浏览量

    48368
  • 语音交互
    +关注

    关注

    3

    文章

    272

    浏览量

    27819
  • 智能音箱
    +关注

    关注

    31

    文章

    1774

    浏览量

    78023
收藏 人收藏

    评论

    相关推荐

    是否可以把STM32F407VG板子上的麦克风屏蔽了,外接自己的两个PDM麦克风

    请问是否可以把STM32F4DISCOVERY板子上的麦克风屏蔽了,外接自己的两个PDM麦克风
    发表于 04-03 07:30

    麦克风阵列双通道降噪拾音模组A-59

    麦克风模组
    深圳德宇科技有限公司
    发布于 :2024年03月29日 10:23:11

    STM32接入PC后能枚举出来麦克风设备,但是开始录音后无数据,为什么?

    使用STM32F4做USB 麦克风硬件: STM32F411 + MEMS数字麦克风(输出PDM数据)+ USB接口工作流程:STM32作为USB Aduio Deice 与PC连接,并通过I2S
    发表于 03-18 08:25

    求助,关于EVAL-ADAU1761Z和数字麦克风问题

    手上有一个音频编解码板EVAL-ADAU1761Z。现在有一些问题请教大家:当它连接到我们的测试PCB(板上只有一个数字麦克风前置放大器)。我们的测试芯片的输出是一个比特数据流。因为只有一个数
    发表于 11-30 06:44

    麦克风阵列波束成形应用案例

    电子发烧友网站提供《麦克风阵列波束成形应用案例.pdf》资料免费下载
    发表于 11-23 11:34 1次下载
    <b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>波束成形应用案例

    基于麦克风阵列的声源定位技术

    电子发烧友网站提供《基于麦克风阵列的声源定位技术.pdf》资料免费下载
    发表于 10-19 11:39 2次下载
    基于<b class='flag-5'>麦克风</b><b class='flag-5'>阵列</b>的声源定位技术

    麦克风经常啸叫,学会这几招轻松避免

    失控。   出现啸叫的原因   1、麦克风位于音箱正面区域,并指向音箱   2、音箱麦克风太近   3
    发表于 10-11 10:54

    使用晶体管的驻极体麦克风放大器电路

      该驻极体麦克风放大器电路采用普通电子元件设计。该麦克风放大器电路使用驻极体麦克风极头,但可以是动圈麦克风,其电阻较低。本电路要求电源电压在5到10伏之间,建议使用9伏直流电源电压。
    发表于 09-08 15:47

    麦克风阵列声源定位追踪模组AR-1105

    麦克风模组
    深圳德宇科技有限公司
    发布于 :2023年09月01日 17:12:38

    使用LM387制作的动圈麦克风前置放大器电路

      动圈麦克风前置放大器电路可以使用LM387双运算放大器集成电路制成。输入阻抗对应于47k,它几乎完全取决于R1。如果您希望连接具有不同值的动圈麦克风,可以更改电阻R1。动圈麦克风前置放大器放大
    发表于 08-31 18:18

    简单的高增益麦克风前置放大器电路

      可以使用此电路图设计一个非常简单的高增益麦克风前置放大器电子项目。   该麦克风前置放大器电子项目基于晶体管,能够在音频频率下获得约70dB或更多的增益。该电路的增益大约等于两个晶体管的hfe
    发表于 08-31 17:39

    使用NuMicro M487上的SPI或I2S来捕捉PDM麦克风数据

    应用程序 : 这个 USB 音频类示例代码记录来自 SPI 或 I2S 上的 PDM 麦克风的声音, 当微控制器(MCU) 没有专用接口时, 它会连接到 SPI 或 I2S 上 。 示例代码包括将
    发表于 08-29 07:36

    请问NUC505支持数字麦克风吗?

    NUC505支持数字麦克风吗?
    发表于 08-28 07:09

    OP37低噪声麦克风前置放大器电路设计

      本麦克风前置放大器原理图电子电路项目采用ADI公司生产的OP37运算放大器设计,是一款有效的固定增益无变压器麦克风前置放大器,可将来自低阻抗麦克风的差分信号放大50dB,输入阻抗为2k。由于电路
    发表于 08-04 17:49

    请问NUC505是否支持数字麦克风?

    是,NUC505内部音讯编译码器( Audio CODEC )有支持数字麦克风功能,但只能同时支持一组麦克风,左右声道数据相同。通过PA2 (Digital MIC clock in)及PA3
    发表于 06-20 08:15