智能音箱产品语音子系统探秘-电子发烧友网

上海润欣科技股份有限公司创研社

前言

声音本来就是最天然的人机交互方式，但在之前漫长的时间里面，受限于语音识别，人工智能网络宽带等因素，并没有成为主流。但从2017年开始，AI,语音识别，网路应用，移动APP，这几样已经发展成熟，万事俱备，语音智能的应用正好趁着东风迅速发展起来，而且智能音箱表面看似乎只是一款音箱，但实际上有更战略性的作用，也就是说实际上是智能家庭的入口，借助于物联网技术，智能音箱实际上成为了智能家庭连接互联网的网关，是家庭互联网交互的人机界面，正因为如此，我们可以看到几乎所有的互联网巨头都不遗余力的发展自己的智能音箱产品，因为谁抢占了智能家庭的入口，谁就可以把握先机，在此基础上布置本公司的家电产品生态链。

我们通过拆解市面上已经有的一些产品来分析，然后对于语音子系统会有一个详细的案例。首先我们来看一下，智能音箱产品的系统构成以及工作中的信息流动。首先智能音箱区别于传统的AI产品。它不是一个孤立的存在，它们实质是一个互联网的智能终端。

先通过麦克风阵列时刻采集语音，然后对语音进行降噪等加工，然后做关键字识别，例如：homepad Hisiri或者 “天猫精灵”，“小爱同学”之类的关键词，一旦识别关键词之后，就会对后面采集到的语音数据进行压缩编码，通过互联网传到云端，云端的AI服务器具有强大的运算能力，对语音指令进行识别，然后根据指令来做相应的回复，例如传回语音回复，传回一首歌的流媒体数据，或者传回对家中联网的物联网终端的控制，例如开关空调等动作。智能音箱收到媒体流数据后进行解码驱动，扬声器播放语音回复，手到家电控制指令后通过WIFI,BT来转发到被控制的家电。所以这个工作的数据流还是很清晰的。

在产品架构上面，首先，这是一台嵌入式电脑，因为涉及到降噪等算法，以及流媒体编解码和播放功能，通常有一颗运算能力相当强劲的处理器内核，目前主流的 ARM架构是四核或者八核的CORTEX-A7处理器，浮点的运算能力强劲，以及1G以上的ARM空间，外部搭配8G的EMMC或者NANDFLASH等闪存外设，用于存储应用的数据。外围则有两个主要的子系统，一个是语音处理子系统，一个是无线通信子系统，其中无线通信子系统辅助WIFI和BT通信，通过WIFI连接到无线AP和云端，或者在没有公网的情况下和无线局域网中的其他智能家电通过WIFI来交互。WIFI通信的吞吐量达，可以传大流量的流媒体数据是智能音箱的联网基础。蓝牙这一部分通常通过经典蓝牙作为手机和外设交互数据，通过BLEMESH或者传统的BLE一拖多的方式和家庭网关的其他智能设备交互。可以预见未来无限通信部分还可能引入 ZIGBEE模式作为网关来连接ZIGBEE灯之类的智能家居产品。

然后就是语音子系统，又分为输入和输出两块，输入通常是一个麦克风阵列，用于拾取声音数据，输出通常是IIS/PCM 接口的音频CODEC芯片，通过音频功效进行功率放大后驱动一个4欧、8欧尺寸扬声器，当然语音和机械结构高度相关，因此除了电子部分外，音腔的设备，麦克风的位置，阵列结构也是很重要的。

除了内核，无线，语音三个主要板块外，还有一些其他辅助性的外设，比如 LED灯，指示和背景灯，8D卡存储,USB接口以及充电和电源管理系统。

在声学结构上面，在设计的时候要注意麦克风和扬声器的结构设计,对于麦克风：

1）人声能直达每个麦克，避免掩蔽效应，即产品正常使用场景下，保证声源的直达声（非反射声）到达每个麦克的机会是均等的，举例，麦克风震膜背对人的嘴巴就可能会形成掩蔽效应；

2）声音到达麦克风的路径尽可能短、宽，要求谐振点频率在8KHz以上。对于紧贴面壳安装方式，要求声孔的深度(面壳进声孔外侧到MIC进声孔外侧的距离)小于1.5mm，声孔直径尽可能大（最小2mm）。如果麦克能直接在表面最好；

3）声音路径内不要存在任何空腔，对于紧贴面壳安装方式，震膜和壳体内壁不要有缝隙；

4）麦克风要远离干扰或震动（喇叭震动、结构转动震动）。对于震动，一般采用硅胶套进行减震密封处理，硅胶软硬度可根据实际结构形式进行匹配验证，一般要求尽可能软；

5）对于驻极体麦克风，结构设计和生产过程中要考虑对麦克风的保护，避免挤压引发的麦克风一致性损失；

对于扬声器：

1）喇叭的失真要小，100Hz-1kHz失真要小于10%，1kHz之后小于5%。一般喇叭在低频部分失真会较高，超过10%，建议加滤波器滤除低频成份。

2）喇叭的结构设计要避免结构引发的失真，喇叭要进行减震处理，避免结构震动对麦克造成较大影响。

3）喇叭腔体四周与其它机构件至少保留1mm的间距，振膜上方与机构件至少保留1.5mm的间隙，防止喇叭碰到结构件产生振动和异音。

4）避免结构内声音传播，即喇叭的声音不能在结构内泄露到麦克，只能通过结构外的空气传播到麦克，建议喇叭和麦克风放在不同腔体内或选用性能好的密封材料对腔体内麦克部分进行密封；

语音子系统的框架结构如下图所示：

目前在开源硬件领域，有一些非常具有参考价值的实现，比如Respeaker就是一个注明的智能语音系统的开源实现。

Resepeker 2-MIC Array

这款麦克风阵列使用WM8960作为codec。

Resepeker 4-MIC Array

芯智汇AC108 高性能四通道数据转换器 ADC，主要应用于智能语音远场麦克风阵列拾音，最多可级联16路麦克风。AC108的SNR为108dB

Respeaker 6-MIC Array

芯智汇AC108 高性能四通道数据转换器ADC + AC101 DAC

Respeaker Core 2.0

Rockchip 瑞芯微RK3229单芯片方案,内部集成音频处理单元

除了上述麦克风阵列方案之外，还可以使用 DSP方案来做语音处理，这里介绍一款专用的语音DSP方案，Realtek ALC5680.

上面可以看到此DSP芯片的参数以及硬件封装。

使用DSP 芯片可以将前级的音频输出做前期处理，从而大大减少了ARM处理器的负荷，在低功耗解决方案中是常用的配置。

在软件处理上面，当前有一些开源的实现可供参考：

GNU/Linux OS

speech algorithms

- DoA (Direc tion of Arrival)

- BF (Beam-Forming)

- AEC (Acoustic Echo Cancellation)

- KWD Keyword wake-up

- NS(Noise suppression)

- AGC (Automatic gain control)

基于Linux系统，有较多的语音处理算法。

在AI 上面，目前主要的生态系统有 Amazon Google DuerOS等。

AI Ecosystem

- Amazon Alexa

- Google Assistant

- DuerOS

- Etc.

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能音箱

智能音箱

+关注

关注
31

文章
1774

浏览量
78012

AI来了，智能音箱还有救吗？

。从2014年伴随亚马逊Echo而风靡全球的产品，如今正逐渐失去它的光芒。但随着生成式AI的爆发，智能音箱是否会获得转机呢？盛极而衰的智能音箱

发表于 06-20 08:54 •888次阅读

智能交通系统的子系统不包括哪一项

智能交通系统是指利用各种先进技术，如传感器技术、通信技术、数据处理技术等，对城市交通系统进行整合和管理的系统。智能交通

发表于 02-22 10:01 •287次阅读

简述智能制造系统的组成智能制造系统的子系统包括哪些

智能制造系统是一种基于先进技术和智能化的制造方式，它包括多个子系统，每个子系统都扮演着重要的角色。下面详细介绍

发表于 01-19 10:36 •658次阅读

语音数据集在智能客服系统中的应用与挑战

一、引言随着互联网和移动设备的普及，客户与企业的交互方式正在发生深刻变化。智能客服系统作为连接客户与企业的桥梁，发挥着越来越重要的作用。语音数据集在智能客服

发表于 12-25 09:46 •170次阅读

离线语音识别及控制是怎样的技术？

进行处理。　离线语音识别能够在设备上实现实时的语音识别响应，具有响应速度快、隐私保护好、稳定可靠等优势。它广泛应用于移动设备、智能音箱、嵌入式系统

发表于 11-24 17:41

方言离线语音控制场景解决方案

致力于为客户提供一站式的离线语音解决方案。我们的服务涵盖了多个领域，包括家电、医疗器械、安防报警、汽车电子、多媒体、通信、电话录音、工业自动化控制、玩具及互动消费类产品等。通过我们的专业知识和经验，我们能够满足各类产品的

发表于 11-17 17:57

语音识别技术在智能家居领域的应用与前景

及未来的发展前景。二、语音识别技术在智能家居领域的应用 1.智能音箱控制：智能家居系统中，通过

发表于 10-26 14:27 •555次阅读

离线语音与IoT结合：智能家居发展新增长点

围控制接口。该语音芯片支持2.4 GHz 802.11 b/g/n Wi-Fi及 BLE 5.1 无线通信协议，仅需少量电阻电容等外围器件就可以实现各类智能语音离在线产品硬件方案，性价

发表于 10-17 11:06

Linux内核之LED子系统（二）

这里说一说LED子系统的一些核心源代码文件，是如何实现LED子系统。

发表于 10-02 16:55 •272次阅读

ARM CoreLink SSE-200子系统技术概述

SSE-200子系统为物联网(IoT)和嵌入式细分市场的产品提供了起点。 SSE-200子系统推动系统架构和软件标准化，旨在提供包含前沿Cortex-M和TrustZone技术的高性能

发表于 08-24 06:35

语音模块赋予台灯风扇语音控制功能

轻生活科技作为离线语音控制解决方案商，一直致力于研发更加先进、高效的离线语音模块。目前，我们的离线语音模块已经广泛应用于智能家居领域，包括智能

发表于 07-31 14:29 •539次阅读

如何开发智能家居语音控制方案

应用为例，分享启英泰伦推出的第三代高性能神经网络智能语音芯片，以便给广大工程师们提供产品设计思路及产品解决方案。传统空调遥控器存在控制复杂，老人，孩子控制不便捷，以及容易找不到等不

发表于 05-31 09:50

基于OpenHarmony智能音响的操作视频展示

此项目基于OpenHarmony 操作系统——我国自主研究、国产可控的芯片RK2206 搭载的一个全新的，独立的首个完全开源的操作系统。该项目也是 OpenHarmony 在智能音箱领

发表于 05-06 15:44

基于OpenHarmony的智能音响

手机端、语音识别系统和手势识别系统协同工作，可提供中继WiFi的同时满足家庭用户的日常音频服务需求，个性化地为用户提供了语音识别功能，本次设计的是以家居场景下的

发表于 05-06 15:41

制作一款本地语音控制音箱有多难，有市场么

一、存在的问题：现在的类似小爱音箱，小度音箱都是接入的qq音乐资源，但是歌曲库有限，经常听到“该歌曲仅支持试听”，而且音源不咋地，开会员也不会把所有想听的歌曲集合全。二、理想方案：制作一款本地语音

发表于 04-23 10:32

搜索历史

智能音箱产品语音子系统探秘

评论

AI来了，智能音箱还有救吗？

智能交通系统的子系统不包括哪一项

简述智能制造系统的组成智能制造系统的子系统包括哪些

语音数据集在智能客服系统中的应用与挑战

离线语音识别及控制是怎样的技术？

方言离线语音控制场景解决方案

语音识别技术在智能家居领域的应用与前景

离线语音与IoT结合：智能家居发展新增长点

Linux内核之LED子系统（二）

ARM CoreLink SSE-200子系统技术概述

语音模块赋予台灯风扇语音控制功能

如何开发智能家居语音控制方案

基于OpenHarmony智能音响的操作视频展示

基于OpenHarmony的智能音响

制作一款本地语音控制音箱有多难，有市场么