0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

小米AI实验室声学团队 获婴儿啼哭声识别的挑战赛任务第一名

小米公司 来源:小米公司 作者:小米公司 2020-11-13 10:28 次阅读

对婴儿来说,啼哭声是一种通讯的方式,一个非常有限、但类似成年人进行交流的方式。它也是一种生物报警器,向外界传达着婴儿生理和心理的需求。 基于啼哭声声波携带的信息,婴儿的身体状况才能被确定,疾病才能被检测出来。因此,有效辨识啼哭声,成功地将婴儿啼哭声“翻译”成“成人语言”,让成年人读懂啼哭声的含义,有重大的实际意义。 2020 iFLYTEK A.I.开发者大赛中,有一项关于婴儿啼哭声识别的挑战赛任务。本次竞赛总共吸引了678只队伍参赛,分别来自国内不同的公司和高校。最终小米AI实验室声学团队以0.99123分的高分夺得第一名。

比赛的训练数据集包含了awake(苏醒)、diaper(换尿布)、hug(要抱抱)、hungry(饥饿)、sleepy(困乏)和uncomfortable(不舒服)六类哭声,并且人工添加了来自Noisex-92标准数据库的噪声。 这项任务旨在判别婴儿啼哭声所传递的信息,需要分别在简单噪声环境和复杂噪声环境下对婴儿啼哭进行识别,判断容易引起混淆的啼哭声,分析各类啼哭声的明显特征及简单直接的判别方式。 初赛训练数据包含918条音频,测试集包含228条。复赛赛方提供了添加不同噪声的30294条训练数据,需对7524条测试音频进行识别。

婴儿啼哭比赛背后的技术原理 小米AI实验室声学团队借鉴说话人确认的方法,训练网络使得vector的余弦距在离类间间距拉大而类内间距减小。 在模型的训练过程中,首先使用VAD算法对婴儿啼哭音频中的静音部分进行剔除。去除静音后随机选取160帧,不足160帧的语音采用Cycle Padding方式,利用中间特征进行循环填充,相比与传统的补0或用尾部填充的方式,特征更加丰富。 模型采用3 层 LSTM+256Dense 层,每层节点为 512。初赛训练集中的所有纯净语音均看作 enroll 语料,所有训练集中每个类别的 embedding 由该类别中的所有语音过模型求整体平均得到。测试集中的每条语音过模型后得到的 embedding与 enroll 中的每类 embedding 求余弦距离,分数对应最高的类别为预测类别。 训练策略为:首先迭代第一个 5000 次,学习率设置为 1e-3,第二次加载预训练模型(mAp 分数高的),调整学习率,再迭代 5000 次,最终交叉加载预训练模型在不同的 part 上训练。

模型的选择和推理过程分为以下4个步骤:

测试集统计分析:首先统计测试集语音的信噪比、时长、静音占比及语音相似度。通过对比分析,对相似数据进行归类,选取最高信噪比数据进行预测。

模型选择:在 5 个训练集上分别择优选取 2 个模型作为备用。

推理:计算测试语料经模型推理得到的vector 与每类哭声embedding间的余弦距离,取分数最高的对应类为备选结果。

投票:根据单个模型预测的结果投票得到最终结果。

声学感知技术未来将如何发展? 当前主流的声学感知技术使用的是强监督的深度学习方法,随着数据量的增大和技术的发展,未来监督学习的方法将逐渐过度为半监督甚至无监督学习。其中半监督学习正是当前声音事件检测技术的研究重点。 不仅如此,深度学习的网络模型也从人工专家设计逐渐转变为自动搜索架构,而元学习等小样本学习方法也开始逐步应用在声学感知方向。 婴儿哭声分析只是声学感知技术的其中一个应用。当前的声音场景分类和声音事件检测技术已能在设备端上实时分析当前用户所处的场景和识别出各式各样的声音,如猫狗宠物叫声、警报声、汽车鸣笛声等。

不仅如此,声学感知技术还能分析出一些连人耳也无法听出的声音,如本次竞赛的婴儿啼哭意图,以及应用在工业上,通过分析机器发出的声音来判断机器保养状态的声学分析技术。声音作为一种最常见的传感媒介之一,声音感知技术在智能家庭、自动驾驶、智能工业化等领域都有广泛的应用场景。 手机xAIoT小米AI全力打造小米智能家居 随着小米最新的手机xAIoT战略,智能家居环境是手机设备与全部智能家居设备联动最全面的使用场景。手机、TWS耳机和越来越多的智能家居设备比如智能音箱、智能电视、米家IoT设备等都具有麦克风拾音功能。 我们获得了足够多场景下的声音数据时,构建基于设备端的场景感知、事件感知、人体感知和空间感知能力成为了可能。 依赖于全球第一的AIoT平台,小米可以实现对家中每一个角落无处不在的感知能力,并完成手机端事件提醒与多事件时间线回溯,声学作为智能感知的一种手段,在未来与UWB技术、视觉图像技术相结合,相互取长补短将成为主流的趋势。

责任编辑:xj

原文标题:小米AI实验室声学团队荣获2020 iFLYTEK A.I.开发者大赛婴儿啼哭声识别挑战赛冠军

文章出处:【微信公众号:小米公司】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26459

    浏览量

    264079
  • 智能语音
    +关注

    关注

    10

    文章

    759

    浏览量

    48374
  • 小米
    +关注

    关注

    68

    文章

    14131

    浏览量

    141758

原文标题:小米AI实验室声学团队荣获2020 iFLYTEK A.I.开发者大赛婴儿啼哭声识别挑战赛冠军

文章出处:【微信号:xiaomigongsi0406,微信公众号:小米公司】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开发者手机 AI - 目标识别 demo

    功能简介 该应用是在Openharmony 4.0系统上开发的个目标识别的AI应用,旨在从上到下打通Openharmony AI子系统,展示Openharmony系统的
    发表于 04-11 16:14

    如何成为一名嵌入式C语言高手?

    文献、参加相关的培训课程、关注行业动态和参与技术讨论是不可或缺的。同时,我们也要勇于挑战自己,接触些复杂的嵌入式项目,通过实践不断提升自己的编程能力和解决问题的能力。 总结来说,成为一名嵌入式C语言
    发表于 04-07 16:03

    华润微电子以第一名的成绩荣获新吴区区长质量奖

    近日,无锡高新区(新吴区)召开2023年度高质量发展总结暨2024年工作推进会,会议隆重表彰了新吴区区长质量奖单位,华润微电子以第一名的成绩荣获新吴区区长质量奖。
    的头像 发表于 04-07 09:19 224次阅读
    华润微电子以<b class='flag-5'>第一名</b>的成绩荣获新吴区区长质量奖

    长城汽车自主品牌首个气动-声学风洞实验室即将建成

    长城汽车自主品牌首个气动-声学风洞实验室将建成
    的头像 发表于 03-28 10:03 145次阅读
    长城汽车自主品牌首个气动-<b class='flag-5'>声学</b>风洞<b class='flag-5'>实验室</b>即将建成

    如何成为一名嵌入式C语言高手?

    文献、参加相关的培训课程、关注行业动态和参与技术讨论是不可或缺的。同时,我们也要勇于挑战自己,接触些复杂的嵌入式项目,通过实践不断提升自己的编程能力和解决问题的能力。 总结来说,成为一名嵌入式C语言
    发表于 03-25 14:12

    全国大学生计算机系统能力大赛操作系统设计-LoongArch 赛道广东龙芯2K1000LA 平台资料分享

    LoongArch平台的参考实现。具体的实验设计参见xv6主页 的labs标签页。 uCore.实验指导书 rCore. 2022年全国大学生操作系统大赛-功能挑战赛二等奖。 MaQueOS.
    发表于 02-04 15:37

    上海AI实验室发布新一代书生·视觉大模型

    近日,上海人工智能实验室(上海AI实验室)联手多所知名高校及科技公司共同研发出新一代书生·视觉大模型(InternVL)。
    的头像 发表于 02-04 11:25 642次阅读

    情感语音识别的挑战与未来趋势

    。 二、情感语音识别的挑战 情感表达的复杂性:人类的情感表达非常复杂,不仅涉及到语音的音调、音色和音量等,还与语言表达、肢体动作、面部表情等多个方面有关。准确识别和理解这些复杂情感表达的难度非常大。 语音信号的质
    的头像 发表于 11-30 11:24 253次阅读

    情感语音识别的应用与挑战

    一、引言 情感语音识别是一种通过分析人类语音中的情感信息实现智能化和个性化人机交互的技术。本文将探讨情感语音识别的应用领域、优势以及所面临的挑战。 二、情感语音识别的应用领域 娱乐产业
    的头像 发表于 11-30 10:40 286次阅读

    PCR基因扩增实验室装修设计解决方案-生命科学

    和传递窗是不是标配?就以上PCR实验室相关问题,上海CEIDI西递做了相关资料整理如下 : 、PCR基因扩增实验室建设设计要点 PCR基因扩增实验室可以是分散形式,也可以是组合形式
    发表于 09-19 14:28

    面部表情识别的挑战和前景

    面部表情识别作为一项复杂的技术,面临着许多挑战,例如表情多样性、表情变化性、肤色和光照影响等。本文将探讨面部表情识别的挑战和前景,分析其发展方向和趋势。 首先,面部表情的多样性是面部表
    的头像 发表于 08-02 18:21 577次阅读

    实验室安全高压气路设计方案

    概述: 实验室安全高压气路设计方案为实现实验室简洁、高端化而设计,采用高纯气体中央供气系统是专为高精度压力测试设备所用高纯工作气体的传输而设计,系统需要为各压力标准设备提供压力、流量稳定且经过传输后
    发表于 08-01 15:57

    TinyML:使用ChatGPT和合成数据检测婴儿哭声

    电子发烧友网站提供《TinyML:使用ChatGPT和合成数据检测婴儿哭声.zip》资料免费下载
    发表于 07-13 08:30 1次下载
    TinyML:使用ChatGPT和合成数据检测<b class='flag-5'>婴儿</b><b class='flag-5'>哭声</b>

    中国团队包揽CVPR 2021弱光人脸检测挑战赛前三名!高分论文已公开播

    来源:CVPR 2021 UG2+ 编辑:好困 【新智元导读】中国团队包揽CVPR 2021 UG2+挑战赛弱光人脸检测赛道前三,其中TAL-ai更是以74.89的高分夺得第一。 CV
    的头像 发表于 07-02 15:35 348次阅读
    中国<b class='flag-5'>团队</b>包揽CVPR 2021弱光人脸检测<b class='flag-5'>挑战赛</b>前三名!高分论文已公开播

    实验室安全高压气路设计方案

    概述: 实验室安全高压气路设计方案为实现实验室简洁、高端化而设计,采用高纯气体中央供气系统是专为高精度压力测试设备所用高纯工作气体的传输而设计,系统需要为各压力标准设备提供压力、流量稳定且经过传输后
    发表于 05-26 16:54