小米AI实验室声学团队获婴儿啼哭声识别的挑战赛任务第一名-电子发烧友网

对婴儿来说，啼哭声是一种通讯的方式，一个非常有限、但类似成年人进行交流的方式。它也是一种生物报警器，向外界传达着婴儿生理和心理的需求。基于啼哭声声波携带的信息，婴儿的身体状况才能被确定，疾病才能被检测出来。因此，有效辨识啼哭声，成功地将婴儿啼哭声“翻译”成“成人语言”，让成年人读懂啼哭声的含义，有重大的实际意义。 2020 iFLYTEK A.I.开发者大赛中，有一项关于婴儿啼哭声识别的挑战赛任务。本次竞赛总共吸引了678只队伍参赛，分别来自国内不同的公司和高校。最终小米AI实验室声学团队以0.99123分的高分夺得第一名。

比赛的训练数据集包含了awake（苏醒）、diaper（换尿布）、hug（要抱抱）、hungry（饥饿）、sleepy（困乏）和uncomfortable（不舒服）六类哭声，并且人工添加了来自Noisex-92标准数据库的噪声。这项任务旨在判别婴儿啼哭声所传递的信息，需要分别在简单噪声环境和复杂噪声环境下对婴儿啼哭进行识别，判断容易引起混淆的啼哭声，分析各类啼哭声的明显特征及简单直接的判别方式。初赛训练数据包含918条音频，测试集包含228条。复赛赛方提供了添加不同噪声的30294条训练数据，需对7524条测试音频进行识别。

婴儿啼哭比赛背后的技术原理小米AI实验室声学团队借鉴说话人确认的方法，训练网络使得vector的余弦距在离类间间距拉大而类内间距减小。在模型的训练过程中，首先使用VAD 算法对婴儿啼哭音频中的静音部分进行剔除。去除静音后随机选取160帧，不足160帧的语音采用Cycle Padding方式，利用中间特征进行循环填充，相比与传统的补0或用尾部填充的方式，特征更加丰富。模型采用3 层 LSTM+256Dense 层,每层节点为 512。初赛训练集中的所有纯净语音均看作 enroll 语料,所有训练集中每个类别的 embedding 由该类别中的所有语音过模型求整体平均得到。测试集中的每条语音过模型后得到的 embedding与 enroll 中的每类 embedding 求余弦距离,分数对应最高的类别为预测类别。训练策略为：首先迭代第一个 5000 次,学习率设置为 1e-3，第二次加载预训练模型(mAp 分数高的)，调整学习率，再迭代 5000 次，最终交叉加载预训练模型在不同的 part 上训练。

模型的选择和推理过程分为以下4个步骤：

测试集统计分析：首先统计测试集语音的信噪比、时长、静音占比及语音相似度。通过对比分析，对相似数据进行归类，选取最高信噪比数据进行预测。

模型选择：在 5 个训练集上分别择优选取 2 个模型作为备用。

推理：计算测试语料经模型推理得到的vector 与每类哭声embedding间的余弦距离，取分数最高的对应类为备选结果。

投票：根据单个模型预测的结果投票得到最终结果。

声学感知技术未来将如何发展？当前主流的声学感知技术使用的是强监督的深度学习方法，随着数据量的增大和技术的发展，未来监督学习的方法将逐渐过度为半监督甚至无监督学习。其中半监督学习正是当前声音事件检测技术的研究重点。不仅如此，深度学习的网络模型也从人工专家设计逐渐转变为自动搜索架构，而元学习等小样本学习方法也开始逐步应用在声学感知方向。婴儿哭声分析只是声学感知技术的其中一个应用。当前的声音场景分类和声音事件检测技术已能在设备端上实时分析当前用户所处的场景和识别出各式各样的声音，如猫狗宠物叫声、警报声、汽车鸣笛声等。

不仅如此，声学感知技术还能分析出一些连人耳也无法听出的声音，如本次竞赛的婴儿啼哭意图，以及应用在工业上，通过分析机器发出的声音来判断机器保养状态的声学分析技术。声音作为一种最常见的传感媒介之一，声音感知技术在智能家庭、自动驾驶、智能工业化等领域都有广泛的应用场景。手机xAIoT小米AI全力打造小米智能家居随着小米最新的手机xAIoT战略，智能家居环境是手机设备与全部智能家居设备联动最全面的使用场景。手机、TWS耳机和越来越多的智能家居设备比如智能音箱、智能电视、米家IoT设备等都具有麦克风拾音功能。我们获得了足够多场景下的声音数据时，构建基于设备端的场景感知、事件感知、人体感知和空间感知能力成为了可能。依赖于全球第一的AIoT平台，小米可以实现对家中每一个角落无处不在的感知能力，并完成手机端事件提醒与多事件时间线回溯，声学作为智能感知的一种手段，在未来与UWB技术、视觉图像技术相结合，相互取长补短将成为主流的趋势。