侵权投诉

小米AI实验室声学团队 获婴儿啼哭声识别的挑战赛任务第一名

小米公司 2020-11-13 10:28 次阅读

对婴儿来说,啼哭声是一种通讯的方式,一个非常有限、但类似成年人进行交流的方式。它也是一种生物报警器,向外界传达着婴儿生理和心理的需求。基于啼哭声声波携带的信息,婴儿的身体状况才能被确定,疾病才能被检测出来。因此,有效辨识啼哭声,成功地将婴儿啼哭声“翻译”成“成人语言”,让成年人读懂啼哭声的含义,有重大的实际意义。2020iFLYTEKA.I.开发者大赛中,有一项关于婴儿啼哭声识别的挑战赛任务。本次竞赛总共吸引了678只队伍参赛,分别来自国内不同的公司和高校。最终小米AI实验室声学团队以0.99123分的高分夺得第一名。

比赛的训练数据集包含了awake(苏醒)、diaper(换尿布)、hug(要抱抱)、hungry(饥饿)、sleepy(困乏)和uncomfortable(不舒服)六类哭声,并且人工添加了来自Noisex-92标准数据库的噪声。这项任务旨在判别婴儿啼哭声所传递的信息,需要分别在简单噪声环境和复杂噪声环境下对婴儿啼哭进行识别,判断容易引起混淆的啼哭声,分析各类啼哭声的明显特征及简单直接的判别方式。初赛训练数据包含918条音频测试集包含228条。复赛赛方提供了添加不同噪声的30294条训练数据,需对7524条测试音频进行识别。

婴儿啼哭比赛背后的技术原理小米AI实验室声学团队借鉴说话人确认的方法,训练网络使得vector的余弦距在离类间间距拉大而类内间距减小。在模型的训练过程中,首先使用VAD算法对婴儿啼哭音频中的静音部分进行剔除。去除静音后随机选取160帧,不足160帧的语音采用CyclePadding方式,利用中间特征进行循环填充,相比与传统的补0或用尾部填充的方式,特征更加丰富。模型采用3层LSTM+256Dense层,每层节点为512。初赛训练集中的所有纯净语音均看作enroll语料,所有训练集中每个类别的embedding由该类别中的所有语音过模型求整体平均得到。测试集中的每条语音过模型后得到的embedding与enroll中的每类embedding求余弦距离,分数对应最高的类别为预测类别。训练策略为:首先迭代第一个5000次,学习率设置为1e-3,第二次加载预训练模型(mAp分数高的),调整学习率,再迭代5000次,最终交叉加载预训练模型在不同的part上训练。

模型的选择和推理过程分为以下4个步骤:

测试集统计分析:首先统计测试集语音的信噪比、时长、静音占比及语音相似度。通过对比分析,对相似数据进行归类,选取最高信噪比数据进行预测。

模型选择:在5个训练集上分别择优选取2个模型作为备用。

推理:计算测试语料经模型推理得到的vector与每类哭声embedding间的余弦距离,取分数最高的对应类为备选结果。

投票:根据单个模型预测的结果投票得到最终结果。

声学感知技术未来将如何发展?当前主流的声学感知技术使用的是强监督的深度学习方法,随着数据量的增大和技术的发展,未来监督学习的方法将逐渐过度为半监督甚至无监督学习。其中半监督学习正是当前声音事件检测技术的研究重点。不仅如此,深度学习的网络模型也从人工专家设计逐渐转变为自动搜索架构,而元学习等小样本学习方法也开始逐步应用在声学感知方向。婴儿哭声分析只是声学感知技术的其中一个应用。当前的声音场景分类和声音事件检测技术已能在设备端上实时分析当前用户所处的场景和识别出各式各样的声音,如猫狗宠物叫声、警报声、汽车鸣笛声等。

不仅如此,声学感知技术还能分析出一些连人耳也无法听出的声音,如本次竞赛的婴儿啼哭意图,以及应用在工业上,通过分析机器发出的声音来判断机器保养状态的声学分析技术。声音作为一种最常见的传感媒介之一,声音感知技术在智能家庭、自动驾驶、智能工业化等领域都有广泛的应用场景。手机xAIoT小米AI全力打造小米智能家居随着小米最新的手机xAIoT战略,智能家居环境是手机设备与全部智能家居设备联动最全面的使用场景。手机、TWS耳机和越来越多的智能家居设备比如智能音箱、智能电视、米家IoT设备等都具有麦克风拾音功能。我们获得了足够多场景下的声音数据时,构建基于设备端的场景感知、事件感知、人体感知和空间感知能力成为了可能。依赖于全球第一的AIoT平台,小米可以实现对家中每一个角落无处不在的感知能力,并完成手机端事件提醒与多事件时间线回溯,声学作为智能感知的一种手段,在未来与UWB技术、视觉图像技术相结合,相互取长补短将成为主流的趋势。

责任编辑:xj

原文标题:小米AI实验室声学团队荣获2020iFLYTEKA.I.开发者大赛婴儿啼哭声识别挑战赛冠军

文章出处:【微信公众号:小米公司】欢迎添加关注!文章转载请注明出处。

原文标题:小米AI实验室声学团队荣获2020 iFLYTEK A.I.开发者大赛婴儿啼哭声识别挑战赛冠军

文章出处:【微信号:xiaomigongsi0406,微信公众号:小米公司】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

2021年,工业机器人的六大趋势

根据工业资讯网站Reportlinker在2020年11月的一篇报道,工业机器人已然成为机器人领域的....
的头像 电子魔法师 发表于 03-06 11:45 1348次 阅读
2021年,工业机器人的六大趋势

AI可教机器人感知疼痛?

目前,世界上大多数机器人都通过传感器网络接收有关其周围环境的信息。但是,这些传感器不处理信息,而是将....
的头像 电子魔法师 发表于 03-06 11:31 1113次 阅读
AI可教机器人感知疼痛?

如何加速AI医疗影像领域发展

时间退回到2017年底,科技部印发了《新一代人工智能重大科技项目实施方案》,并公布了首批国家新一代人....
的头像 电子魔法师 发表于 03-06 10:44 1476次 阅读
如何加速AI医疗影像领域发展

小米投资MEMS传感器公司矽睿科技

股东信息显示,矽睿科技的股权较为分散,股东数量多达48家,其中第一大股东为上海联和投资有限公司,认缴....
的头像 MEMS 发表于 03-06 10:38 281次 阅读
小米投资MEMS传感器公司矽睿科技

柔性制造为中国机器人行业带来超车新机遇

弯道超车的话题是一直中国机器人行业关注的焦点,如何实现弯道超车,几个要点或许值得从业者关注。 和中国....
的头像 机器人大讲堂 发表于 03-06 10:22 216次 阅读
柔性制造为中国机器人行业带来超车新机遇

利用机器学习替换视频人脸技术让人惊艳

近年来,人们对深度造假(deepfaking)既着迷又担忧。这项技术可以替换视频中的人脸,并利用机器....
的头像 机器人大讲堂 发表于 03-06 10:17 263次 阅读
利用机器学习替换视频人脸技术让人惊艳

发展人工智能创新应用先导区,成都该怎么做?

工业和信息化部近日印发通知,支持创建成都国家人工智能创新应用先导区。
的头像 电子魔法师 发表于 03-06 10:09 577次 阅读
发展人工智能创新应用先导区,成都该怎么做?

中国人工智能专家林小俊博士出任云迹首席技术官CTO

2021年3月1日,服务机器人领先企业北京云迹科技有限公司正式宣布:中国人工智能专家林小俊博士加盟云....
的头像 机器人大讲堂 发表于 03-06 10:08 394次 阅读
中国人工智能专家林小俊博士出任云迹首席技术官CTO

腾讯教育的脑洞与逻辑:AI将如何改造“文房四宝”

不知大家注意到没有,时间推进到2021,大多数“AI+教育”公司都不再局限于算法软件和SaaS系统等....
的头像 脑极体 发表于 03-06 10:07 139次 阅读
腾讯教育的脑洞与逻辑:AI将如何改造“文房四宝”

人工智能GPT-3的写作水平能够超过人类作者吗?

2020 年 5 月,OpenAI 推出了具有 1750 亿参数的史上最大 AI 模型 GPT-3,....
的头像 机器人大讲堂 发表于 03-06 09:51 209次 阅读
人工智能GPT-3的写作水平能够超过人类作者吗?

国内AI芯片市场规模有望持续增长,预计2023年将突破千亿元

随着大数据的发展和计算能力的提升,2019年中国人工智能芯片市场规模达115.5亿元,随着5G和人工....
的头像 牵手一起梦 发表于 03-06 09:46 216次 阅读
国内AI芯片市场规模有望持续增长,预计2023年将突破千亿元

人工智能是未来社会发展的支撑性技术

人工智能(AI)技术正润物细无声地改变着人类生活。人脸识别、刷脸支付,新冠肺炎疫情期间的人群红外测温....
的头像 电子魔法师 发表于 03-06 09:26 351次 阅读
人工智能是未来社会发展的支撑性技术

FPGA将成为市场增长点,2025年全球FPGA市场规模有望达125亿美元

据MRFR数据,2019年全球FPGA市场规模为69.06亿美元,在5G和AI的推动下,2025年全....
的头像 牵手一起梦 发表于 03-06 09:22 152次 阅读
FPGA将成为市场增长点,2025年全球FPGA市场规模有望达125亿美元

2021年斯坦福人工智能指数报告重磅出炉

    CV在快速工业化,大公司正扩大计算鸿沟。 就在刚刚,斯坦福大学正式发布《2021年人工智能指....
的头像 机器人大讲堂 发表于 03-06 09:21 484次 阅读
2021年斯坦福人工智能指数报告重磅出炉

红魔6 Pro手机:搭载4500mAh电池

近日2021年的首个游戏手机发布了,它就是努比亚旗下的红魔6系列。作为2021年的首款游戏手机,红魔....
的头像 我快闭嘴 发表于 03-05 17:53 1015次 阅读
红魔6 Pro手机:搭载4500mAh电池

Soitec公布5GAI边缘计算新规划,其中主要的三大趋势是5G、人工智能、能源效率

Piliszcczuk在开场时提到,从2020-2030年,半导体市场增长是翻番的增长趋势,其中主要....
的头像 beanxyy 发表于 03-05 17:23 166次 阅读
Soitec公布5GAI边缘计算新规划,其中主要的三大趋势是5G、人工智能、能源效率

未来的制药研发过程或将不再十年磨一剑

AI人脸识别技术能帮忙从当红歌星的演唱会上抓逃犯,AI语音识别能让人人都用上贴身语音助手,AI医疗影....
的头像 如意 发表于 03-05 17:13 152次 阅读
未来的制药研发过程或将不再十年磨一剑

新兴技术如何不断提升物联网增长能力?

随着物联网技术在全球和各行各业的采用迅速增长,企业组织正在努力挖掘物联网的更多应用潜力,包括洞察力、....
发表于 03-05 17:09 448次 阅读
新兴技术如何不断提升物联网增长能力?

云米互联网洗烘机Neo2S正式上架小米商城开始预售

冬天虽然就要过去,春天要来了,北方还是冰雪天气,南方却已细雨绵绵,两种季节的相同之处就是洗衣服不易干....
的头像 lhl545545 发表于 03-05 17:00 235次 阅读
云米互联网洗烘机Neo2S正式上架小米商城开始预售

2020年EMEA智能手机市场出货量同下降4.2%

最近IDC发布了EMEA(欧洲、中东和非洲)2020年智能手机市场的销售情况,从中我们看到,2020....
的头像 我快闭嘴 发表于 03-05 16:53 181次 阅读
2020年EMEA智能手机市场出货量同下降4.2%

2021年度的斯坦福 AI Index 报告正式发布,一连四年,看看今年有什么不同?  

由斯坦福大学发起的人工智能指数(AI Index)是一个追踪 AI 动态和进展的非营利性项目,旨在全....
的头像 beanxyy 发表于 03-05 16:49 601次 阅读
2021年度的斯坦福 AI Index 报告正式发布,一连四年,看看今年有什么不同?   

AI有助于提高远程办公时的工作效率

对于希望在家远程工作并保持高生产率的工作团队来说,人工智能可以起到重要的作用。
的头像 如意 发表于 03-05 16:48 113次 阅读
AI有助于提高远程办公时的工作效率

小米新品RedmiBook Pro 15 i5-MX450通过TUV硬件级低蓝光认证

近日,小米旗下多款新品正式开售,但是3月5日,小米官方提醒,新品RedmiBook Pro 15 i....
的头像 lhl545545 发表于 03-05 16:47 174次 阅读
小米新品RedmiBook Pro 15 i5-MX450通过TUV硬件级低蓝光认证

2020年是“AI+物流”应用元年

企业数智化(数字化、智能化)改造需求不断提速,物流是其中不可或缺的环节。多年来互联网+基础设施的不断....
的头像 Megvii旷视科技 发表于 03-05 16:41 302次 阅读
2020年是“AI+物流”应用元年

数据是从机器学习模型中获取可行见解时最关键的问题,对AI人才的需求依旧很高

根据云服务提供商Rackspace Technology的一项新调查,大多数公司都在努力制定可行的人....
的头像 beanxyy 发表于 03-05 16:33 76次 阅读
数据是从机器学习模型中获取可行见解时最关键的问题,对AI人才的需求依旧很高

Redmi K40上线新系统版本 新增拍一拍指纹侧键

上个月,Redmi红米手机举办K40双旗舰发布会,正式为我们带来Redmi K40系列。没过多久,这....
的头像 lhl545545 发表于 03-05 16:28 295次 阅读
Redmi K40上线新系统版本 新增拍一拍指纹侧键

手机行业正面临着严峻的芯片供应危机

目前,不少知名汽车制造商都陷入到芯片危机中。自2020年第四季度开始,包括大众、福特、丰田在内的多家....
的头像 我快闭嘴 发表于 03-05 16:13 364次 阅读
手机行业正面临着严峻的芯片供应危机

小米新机型Mi 10 Ultra真机谍照曝光

据外媒报道,近日一款小米的新机Mi 10 Ultra已经在印尼获得了认证,看来距离发布应该不远了。不....
的头像 lhl545545 发表于 03-05 16:02 160次 阅读
小米新机型Mi 10 Ultra真机谍照曝光

国产FPGA应用领域和全球竞争格局

AI芯片主要分为CPU 、GPU、FPGA以及ASIC。其中以CPU、GPU、FPGA、ASIC的顺....
的头像 电子发烧友网工程师 发表于 03-05 15:50 158次 阅读
国产FPGA应用领域和全球竞争格局

GPT-3通过了大部分课程的写作测试

近日,教育资源网站 EduRef 进行了一项测试,他们找了一组教授创建了一个写作提示,然后让应届毕业....
的头像 深度学习自然语言处理 发表于 03-05 15:30 117次 阅读
GPT-3通过了大部分课程的写作测试

Fast Sense Studio发布AI边缘计算机,可实时接收来自多个来源的数据

Fast Sense AI边缘计算机是一款功能强大的板载计算机,为移动机器人带来了可扩展的边缘AI功....
的头像 beanxyy 发表于 03-05 14:40 95次 阅读
Fast Sense Studio发布AI边缘计算机,可实时接收来自多个来源的数据

AI芯片的优与劣及解决方向

”据国外媒体报道,人工智能技术在生产和生活中的应用越来越广泛,也越来越重要,众多的科技巨头也在自研 ....
的头像 beanxyy 发表于 03-05 14:28 147次 阅读
AI芯片的优与劣及解决方向

Facebook推出新AI模型,希望给计算机视觉领域带来一次“革命”   

3月5日消息,Facebook的研究人员推出了一种新的AI模型,该模型可以从网上任何未标记图像的中学....
的头像 beanxyy 发表于 03-05 13:49 132次 阅读
Facebook推出新AI模型,希望给计算机视觉领域带来一次“革命”    

魅族放弃互联网广告营收,市场会买账吗?

魅族科技2021年度旗舰机型发布,定价公布后,会场响起一阵欢呼,但在屏幕另一端实时观看的网友们,气氛....
的头像 我快闭嘴 发表于 03-05 11:37 239次 阅读
魅族放弃互联网广告营收,市场会买账吗?

Redmi K40系列创下“5分钟销量突破30万台”大关

Redmi K40系列近日已在国内开售,并创下“5分钟销量突破30万台”的首销成绩。这款热门新机也将....
的头像 lhl545545 发表于 03-05 11:29 171次 阅读
Redmi K40系列创下“5分钟销量突破30万台”大关

Redmi K40在印度或将重命名为小米11X

3月4日,在性能、散热、优化,以及游戏生态方面进行了全面革新的腾讯红魔游戏手机6系列正式亮相,包括腾....
的头像 lhl545545 发表于 03-05 11:22 404次 阅读
Redmi K40在印度或将重命名为小米11X

小米11大杯、超大杯入网 渲染图、上市时间曝光

过年前,有不少信息显示,Redmi K40系列和小米11大杯系列会在年后不久发布。目前,Redmi ....
的头像 lhl545545 发表于 03-05 10:48 908次 阅读
小米11大杯、超大杯入网 渲染图、上市时间曝光

小米首次跻身拉美智能手机市场出货量第三名

在非智能手机时代,国产手机一直处于相对较为弱势地位,存在感极低。但是,进入智能手机时代以后,国产智能....
的头像 lhl545545 发表于 03-05 10:45 306次 阅读
小米首次跻身拉美智能手机市场出货量第三名

国产智能计算芯片赛道再添新玩家

国产智能计算芯片企业“后摩智能”(南京后摩智能科技有限公司)已完成数千万美元天使轮融资。本轮融资由红....
的头像 我快闭嘴 发表于 03-05 10:36 330次 阅读
国产智能计算芯片赛道再添新玩家

“缺芯”阴霾久未散,手机厂商加速“囤粮”

  春分未至,手机行业就已提前步入了“芯片严冬”。继去年下半年汽车产业被爆全面“缺芯”以来,今年3月....
的头像 我快闭嘴 发表于 03-05 10:28 162次 阅读
“缺芯”阴霾久未散,手机厂商加速“囤粮”

美国释放政策红利,晶圆代工厂扩建厂房

据外媒报道,据美国国会消息人士于当地时间周四表示,美国参议院正考虑将300亿美元资金纳入一项新法案中....
的头像 21克888 发表于 03-05 10:27 714次 阅读
美国释放政策红利,晶圆代工厂扩建厂房

小米将首发高通骁龙Sound音频技术

近日,高通发布了一项名为骁龙Sound的音频技术,该技术将对硬件、软件、无线连接等方面进行优化,提升....
的头像 如意 发表于 03-05 10:26 119次 阅读
小米将首发高通骁龙Sound音频技术

两会代表谈智能汽车产业发展

随着人工智能技术的日渐成熟,AI已经开始在各行各业发挥价值。除了日常生活中的智能小应用外,依托人工智....
发表于 03-05 09:51 541次 阅读
两会代表谈智能汽车产业发展

华为推智慧养猪方案进军养殖业?

今年2月,华为机器视觉总裁段爱国在微头条爆料称,华为机器视觉推出了智慧养猪方案。养殖业的发展方向是数....
的头像 如意 发表于 03-05 09:50 387次 阅读
华为推智慧养猪方案进军养殖业?

中国人工智能技术在武器装备上取得重要成绩

现代化武器装备中,科学技术的应用已经非常地广泛,随着科技领域的不断突破,中国在军事武器装备上的性能也....
的头像 电子魔法师 发表于 03-05 09:47 330次 阅读
中国人工智能技术在武器装备上取得重要成绩

小米苹果入局,折叠屏手机的春天要来了

2月22日,华为发布Mate X2,官方定价17999元。在芯片断供的现阶段,这款手机也被外界解读为....
的头像 电子魔法师 发表于 03-05 09:45 183次 阅读
小米苹果入局,折叠屏手机的春天要来了

WAYZ维智助力打造城市智能体数字孪生创新场景

2月25日上午,由上海市城市运行管理中心、黄浦区人民政府指导,华为技术有限公司在黄浦区城运中心举办“....
的头像 电子发烧友网工程师 发表于 03-05 09:38 173次 阅读
WAYZ维智助力打造城市智能体数字孪生创新场景

Google:可迁移架构探索,用AI设计AI芯片

摩尔定律的迫在眉睫和深度学习的不断使用推动了针对特定神经体系结构进行优化的定制芯片的设计。这些定制芯....
的头像 电子魔法师 发表于 03-05 09:32 124次 阅读
Google:可迁移架构探索,用AI设计AI芯片

AI助力医疗行业发展

AI人脸识别技术能帮忙从当红歌星的演唱会上抓逃犯,AI语音识别能让人人都用上贴身语音助手,AI医疗影....
的头像 电子魔法师 发表于 03-05 09:27 213次 阅读
AI助力医疗行业发展

小米雷军建议帮助老年人融入数字生活

第十三届全国人民代表大会第四次会议即将于3月5日召开,雷军建议帮助老年人融入数字生活。 3月4日,雷....
的头像 inr999 发表于 03-04 19:46 661次 阅读
小米雷军建议帮助老年人融入数字生活

简化针对云服务的语音检测算法的部署

在设计智能扬声器和其他可启用语音的设备(例如可穿戴设备和可听设备)时,开发人员的主要挑战是使麦克风准确有效地检测唤醒词(...
发表于 03-03 10:46 101次 阅读
简化针对云服务的语音检测算法的部署

智能家居产品解决互联互通的问题

智能语音是焦点   智能安防成“刚需” 互联互通待突破 ...
发表于 02-04 07:32 0次 阅读
智能家居产品解决互联互通的问题

基于单片机的智能电子密码锁设计资料(附原理图&C程序)

系统框图1. 加电后,显示“000000”。2.在外部键盘输入密码,数码管显示相应数字。3.输入过程中,如果不小心出现输入错误,可按“...
发表于 08-25 14:15 252次 阅读
基于单片机的智能电子密码锁设计资料(附原理图&C程序)

GX8008离线智能语音的解决方案

  一、方案概述:   1.1芯片简介   1,支持2/4/6路麦克风阵列   2,集成6通道ADC/I2S/PDM,支持模拟麦和数字...
发表于 07-01 15:51 386次 阅读
GX8008离线智能语音的解决方案

GX8009低功耗离线智能语音解决方案

  一、方案概述:   1.1、芯片简介   1、支持2/4/6/8路麦克风阵列   2、集成8通道ADC/I2S/PDM,支持模拟麦和...
发表于 07-01 15:17 389次 阅读
GX8009低功耗离线智能语音解决方案

Azero + SoundPi 智能语音交互软硬一体化开发套件

一、Azero是啥?SoundAI Azero是声智科技基于全球领先的声与智能融合技术为企业、个人和第三方组织开放的多模态交互智能操...
发表于 06-28 17:55 5141次 阅读
Azero + SoundPi 智能语音交互软硬一体化开发套件

小米55寸电视黑屏

小米55寸电视,开机一会画面跳几下黑屏,有低光,重启都是黑屏,各位老大这是什么情况多吗? ...
发表于 04-10 23:53 907次 阅读
小米55寸电视黑屏

全志872芯片可以实现离线语音控制吗?

想用全志的872芯片开发一个空调控制器,有什么好的方案? ...
发表于 04-08 14:45 1054次 阅读
全志872芯片可以实现离线语音控制吗?

【平头哥CB5654语音开发板试用连载】开箱

前几天就收到elecfans寄过来的平头哥语音开发板,手头其他事情耽误一直没有打开,今天来个开箱报告吧。 打开快递盒子挺大的,快...
发表于 03-08 23:11 412次 阅读
【平头哥CB5654语音开发板试用连载】开箱

【微信精选】小米MIX Alpha:1亿像素售19999;特斯拉组建软件开发团队;蔚来股价跌20%...

2.马斯克:特斯拉正组建中国工程团队 涉及软件开发4.iOS13.1推送更新:修复大量BUG,隔空投送获改进6.vivo首度回应自研芯...
发表于 10-02 07:00 950次 阅读
【微信精选】小米MIX Alpha:1亿像素售19999;特斯拉组建软件开发团队;蔚来股价跌20%...