0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能音箱产品语音子系统探秘

润欣科技Fortune 2019-08-19 23:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

上海润欣科技股份有限公司创研社


前言


声音本来就是最天然的人机交互方式,但在之前漫长的时间里面,受限于语音识别人工智能网络宽带等因素,并没有成为主流。但从2017年开始,AI,语音识别,网路应用,移动APP,这几样已经发展成熟,万事俱备,语音智能的应用正好趁着东风迅速发展起来,而且智能音箱表面看似乎只是一款音箱,但实际上有更战略性的作用,也就是说实际上是智能家庭的入口,借助于物联网技术,智能音箱实际上成为了智能家庭连接互联网的网关,是家庭互联网交互的人机界面,正因为如此,我们可以看到几乎所有的互联网巨头都不遗余力的发展自己的智能音箱产品,因为谁抢占了智能家庭的入口,谁就可以把握先机,在此基础上布置本公司的家电产品生态链。


我们通过拆解市面上已经有的一些产品来分析,然后对于语音子系统会有一个详细的案例。首先我们来看一下,智能音箱产品的系统构成以及工作中的信息流动。首先智能音箱区别于传统的AI产品。它不是一个孤立的存在,它们实质是一个互联网的智能终端。


先通过麦克风阵列时刻采集语音,然后对语音进行降噪等加工,然后做关键字识别,例如:homepad Hisiri或者 “天猫精灵”,“小爱同学”之类的关键词,一旦识别关键词之后,就会对后面采集到的语音数据进行压缩编码,通过互联网传到云端,云端的AI服务器具有强大的运算能力,对语音指令进行识别,然后根据指令来做相应的回复,例如传回语音回复,传回一首歌的流媒体数据,或者传回对家中联网的物联网终端的控制,例如开关空调等动作。智能音箱收到媒体流数据后进行解码驱动,扬声器播放语音回复,手到家电控制指令后通过WIFI,BT来转发到被控制的家电。所以这个工作的数据流还是很清晰的。


在产品架构上面,首先,这是一台嵌入式电脑,因为涉及到降噪等算法,以及流媒体编解码和播放功能,通常有一颗运算能力相当强劲的处理器内核,目前主流的ARM架构是四核或者八核的CORTEX-A7处理器,浮点的运算能力强劲,以及1G以上的ARM空间,外部搭配8G的EMMC或者NANDFLASH等闪存外设,用于存储应用的数据。外围则有两个主要的子系统,一个是语音处理子系统,一个是无线通信子系统,其中无线通信子系统辅助WIFI和BT通信,通过WIFI连接到无线AP和云端,或者在没有公网的情况下和无线局域网中的其他智能家电通过WIFI来交互。WIFI通信的吞吐量达,可以传大流量的流媒体数据是智能音箱的联网基础。蓝牙这一部分通常通过经典蓝牙作为手机和外设交互数据,通过BLEMESH或者传统的BLE一拖多的方式和家庭网关的其他智能设备交互。可以预见未来无限通信部分还可能引入ZIGBEE模式作为网关来连接ZIGBEE灯之类的智能家居产品。


然后就是语音子系统,又分为输入和输出两块,输入通常是一个麦克风阵列,用于拾取声音数据,输出通常是IIS/PCM接口音频CODEC芯片,通过音频功效进行功率放大后驱动一个4欧、8欧尺寸扬声器,当然语音和机械结构高度相关,因此除了电子部分外,音腔的设备,麦克风的位置,阵列结构也是很重要的。


除了内核,无线,语音三个主要板块外,还有一些其他辅助性的外设,比如LED灯,指示和背景灯,8D卡存储,USB接口以及充电和电源管理系统。


在声学结构上面,在设计的时候要注意麦克风和扬声器的结构设计,对于麦克风:


1) 人声能直达每个麦克,避免掩蔽效应,即产品正常使用场景下,保证声源的直达声(非反射声)到达每个麦克的机会是均等的,举例,麦克风震膜背对人的嘴巴就可能会形成掩蔽效应;


2) 声音到达麦克风的路径尽可能短、宽,要求谐振点频率在8KHz以上。对于紧贴面壳安装方式,要求声孔的深度(面壳进声孔外侧到MIC进声孔外侧的距离)小于1.5mm,声孔直径尽可能大(最小2mm)。如果麦克能直接在表面最好;


3) 声音路径内不要存在任何空腔,对于紧贴面壳安装方式,震膜和壳体内壁不要有缝隙;


4) 麦克风要远离干扰或震动(喇叭震动、结构转动震动)。对于震动,一般采用硅胶套进行减震密封处理,硅胶软硬度可根据实际结构形式进行匹配验证,一般要求尽可能软;


5) 对于驻极体麦克风,结构设计和生产过程中要考虑对麦克风的保护,避免挤压引发的麦克风一致性损失;


对于扬声器:


1) 喇叭的失真要小,100Hz-1kHz失真要小于10%,1kHz之后小于5%。一般喇叭在低频部分失真会较高,超过10%,建议加滤波器滤除低频成份。


2) 喇叭的结构设计要避免结构引发的失真,喇叭要进行减震处理,避免结构震动对麦克造成较大影响。


3) 喇叭腔体四周与其它机构件至少保留1mm的间距,振膜上方与机构件至少保留1.5mm的间隙,防止喇叭碰到结构件产生振动和异音。


4) 避免结构内声音传播,即喇叭的声音不能在结构内泄露到麦克,只能通过结构外的空气传播到麦克,建议喇叭和麦克风放在不同腔体内或选用性能好的密封材料对腔体内麦克部分进行密封;


语音子系统的框架结构如下图所示:


1.jpg


目前在开源硬件领域,有一些非常具有参考价值的实现,比如Respeaker就是一个注明的智能语音系统的开源实现。


2.jpg


Resepeker 2-MIC Array


3.jpg


4.jpg


这款麦克风阵列使用WM8960作为codec。


Resepeker 4-MIC Array


5.jpg



芯智汇AC108 高性能四通道数据转换器ADC,主要应用于智能语音远场麦克风阵列拾音,最多可级联16路麦克风。AC108的SNR为108dB

6.jpg


Respeaker 6-MIC Array


7.jpg



芯智汇AC108 高性能四通道数据转换器ADC + AC101 DAC


8.jpg


Respeaker Core 2.0


9.jpg


Rockchip 瑞芯微RK3229单芯片方案,内部集成音频处理单元


10.jpg


除了上述麦克风阵列方案之外,还可以使用DSP方案来做语音处理,这里介绍一款专用的语音DSP方案,Realtek ALC5680.


11.jpg

12.jpg

13.jpg

14.jpg


上面可以看到此DSP芯片的参数以及硬件封装。


15.jpg



使用DSP 芯片可以将前级的音频输出做前期处理,从而大大减少了ARM处理器的负荷,在低功耗解决方案中是常用的配置。


在软件处理上面,当前有一些开源的实现可供参考:


GNU/Linux OS

speech algorithms

- DoA (Direction of Arrival)

- BF (Beam-Forming)

- AEC (Acoustic Echo Cancellation)

- KWD Keyword wake-up

- NS(Noise suppression)

- AGC (Automatic gain control)


基于Linux系统,有较多的语音处理算法。


在AI 上面,目前主要的生态系统有 Amazon Google DuerOS等。


AI Ecosystem

- Amazon Alexa

- Google Assistant

- DuerOS

- Etc.


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能音箱
    +关注

    关注

    31

    文章

    1794

    浏览量

    80546
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    弱电智能化中究竟有多少个子系统

    在当今科技日新月异的时代,弱电智能系统已成为现代建筑不可或缺的一部分。它不仅提升了建筑的功能性和实用性,还极大地提高了居住和工作的舒适性与安全性。弱电智能系统是一个复杂的集成
    的头像 发表于 11-24 09:57 221次阅读
    弱电<b class='flag-5'>智能</b>化中究竟有多少个<b class='flag-5'>子系统</b>?

    探秘安全生产预警预测系统的五大顶尖平台

    探秘安全生产预警预测系统的五大顶尖平台
    的头像 发表于 10-16 09:56 985次阅读
    <b class='flag-5'>探秘</b>安全生产预警预测<b class='flag-5'>系统</b>的五大顶尖平台

    智能音箱接口的ESD防护方案

    智能音箱是从传统音箱升级而来的新型产品,它是由传感器、IC芯片、锂电池、外设配件等电子元件组成,除基础的音乐播放功能外,它还集成了查询天气、语音
    的头像 发表于 09-08 16:34 4225次阅读
    <b class='flag-5'>智能</b><b class='flag-5'>音箱</b>接口的ESD防护方案

    一颗TTS语音芯给产品增加智能语音播报能力

    一颗TTS语音芯片给产品增加智能语音播报能力 传统语音播报芯片可以设置一些固定的语音片段或者内容
    的头像 发表于 08-14 16:33 471次阅读

    迅为RK3568开发板新增topeet子系统-在产品中新增子系统

    build/subsystem_config.json文件中增加名为topeet的子系统,在3.4节已经新建了topeet 文件夹存放子系统代码。添加 topeet 子系统进行一个登记,说明
    发表于 06-16 10:43

    会“说话”的空气管家:NRK3301让加湿器音箱秒变智能生活中枢

    告别繁琐操作,一句‘打开加湿器’就能享受舒适湿度,NRK3301语音模块让加湿器音箱秒懂你的需求,智能生活从此开口即来。
    的头像 发表于 06-12 15:11 614次阅读
    会“说话”的空气管家:NRK3301让加湿器<b class='flag-5'>音箱</b>秒变<b class='flag-5'>智能</b>生活中枢

    迅为RK3568开发板驱动指南GPIO子系统GPIO子系统API函数的引入

    迅为RK3568开发板驱动指南GPIO子系统GPIO子系统API函数的引入
    的头像 发表于 05-29 14:05 843次阅读
    迅为RK3568开发板驱动指南GPIO<b class='flag-5'>子系统</b>GPIO<b class='flag-5'>子系统</b>API函数的引入

    RK3568驱动指南|第十二篇 GPIO子系统-第135章 GPIO子系统与pinctrl子系统相结合实验

    RK3568驱动指南|第十二篇 GPIO子系统-第135章 GPIO子系统与pinctrl子系统相结合实验
    的头像 发表于 05-23 13:47 750次阅读
    RK3568驱动指南|第十二篇 GPIO<b class='flag-5'>子系统</b>-第135章 GPIO<b class='flag-5'>子系统</b>与pinctrl<b class='flag-5'>子系统</b>相结合实验

    爱普生车规级晶振SG2520CAA智能汽车电子系统的应用

    智能汽车飞速发展的当下,电子系统已然成为车辆的“智慧中枢”,从自动驾驶辅助系统到车载娱乐设备,从动力控制系统智能互联功能,每一项先进技术
    的头像 发表于 03-14 17:05 711次阅读
    爱普生车规级晶振SG2520CAA<b class='flag-5'>智能</b>汽车电<b class='flag-5'>子系统</b>的应用

    基于WTVxxx语音芯片的智能清洁机器人语音交互系统设计方案介绍

    ​一、产品概述与设计需求随着智能家居设备的普及,擦窗机器人和扫地机器人逐渐成为家庭清洁的重要工具。为提升用户体验,语音交互功能成为产品差异化的关键需求。广州唯创电子WTVxxx系列
    的头像 发表于 03-06 08:27 666次阅读
    基于WTVxxx<b class='flag-5'>语音</b>芯片的<b class='flag-5'>智能</b>清洁机器人<b class='flag-5'>语音</b>交互<b class='flag-5'>系统</b>设计方案介绍

    WT3000A在线AI语音芯片方案在智能蓝牙音箱中的应用

    随着物联网(IoT)和人工智能(AI)技术的快速发展,智能家居设备逐渐成为现代家庭的重要组成部分。智能蓝牙音箱作为智能家居的核心设备之一,其
    的头像 发表于 02-25 17:10 809次阅读

    IBMS管理平台集成各子系统功能

    IBMS(Intelligent Building Management System)管理平台是智能建筑的核心,能够将多个子系统进行集成,实现信息共享和协同工作,以下是 IBMS 管理平台集成各
    的头像 发表于 02-21 16:08 764次阅读
    IBMS管理平台集成各<b class='flag-5'>子系统</b>功能

    【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

    项目二维码下图 该作品通过采集饮水数据,多种交互方式,数据分析处理,提醒用户定期饮水,达到保持健康的作用。 主要功能是语音识别。 ASR-PRO语音模块是一款高度集成的智能语音识别么模
    发表于 01-02 18:15

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别和语音合成领域有着多项大型企业合作案例,标贝与多个智能会议
    的头像 发表于 12-20 10:35 901次阅读

    标贝智能语音识别在智能会议场景中的落地案例

    标贝科技专注智能语音交互领域多年,在语音识别和语音合成领域有着多项大型企业合作案例,标贝与多个智能会议
    的头像 发表于 12-20 10:31 1032次阅读
    标贝<b class='flag-5'>智能</b><b class='flag-5'>语音</b>识别在<b class='flag-5'>智能</b>会议场景中的落地案例