科大讯飞获国际多通道语音分离与识别大赛CHiME-7冠军-电子发烧友网

前方有好消息传来！

时隔3年后，国际多通道语音分离和识别大赛CHiME-7再次“上线”。当地时间8月25日，CHiME-7 Workshop在Meta公司都柏林研发中心举行，官方组委会现场公布了大赛成绩：

科大讯飞联合中科大语音及语言信息处理国家工程研究中心（NERC-SLIP）、国家智能语音创新中心，在参与的多设备多场景远场语音识别任务（DASR）中获得全部两个赛道的第一名。

继2016年以来参与CHiME-4、CHiME-5、CHiME-6三届比赛并夺冠后，讯飞联合团队坚持技术创新，此次在参与任务主赛道中语音识别错误率21%，相比赛事官方给出的基线系统，相对降低了60%以上。连续四届拿下冠军、领跑国际竞争对手的同时，科大讯飞在核心源头技术上也实现了自我突破。

语音识别任务难度加码！“群雄逐鹿”再领头

作为有“最难语音识别任务”之称的语音领域权威赛事，CHiME（Computational Hearing in Multisource Environments）系列比赛发起于2011年，致力于集聚学术界和工业界优秀的学术力量，持续突破语音识别技术水平，不断在更高噪声、更高混响、更高对话复杂度的场景下提出具有创新性的解决方案，解决著名的“鸡尾酒会问题”，难点在于怎样在充满噪声的鸡尾酒会，分辨并听清多人同时交谈的声音。

参与CHiME-7的团队高手如云，如中科院声学所、西北工业大学、剑桥大学、帕德博恩大学、捷克布尔诺理工大学、日本电信NTT、英伟达、俄罗斯STC等国内外知名研究机构、高校和企业。

本次CHiME-7中的语音识别任务由马尔凯理工大学、卡内基梅隆大学、约翰霍普金斯大学、东京都立大学的学者们共同组织，称为“多设备多场景远场语音识别任务（DASR）”。

在CHiME-6的基础上，CHiME-7进一步提升了难度，不仅在对话场景、麦克风设备类型上进行了扩充，同时要求参赛者只能使用统一的一套算法系统进行测试，这对语音识别系统的鲁棒性提出了极高的要求。具体如下：

在考察场景中，扩大了CHiME-6测试集范围，同时新增加了两个数据集DiPCo和Mixer 6；

三个数据集分别使用不同的麦克风设备，包含线性阵列、环形阵列、分布式麦克风等；

数据集中多人对话场景更加丰富，除朋友聚会之外还新增了采访、打电话等场景。

CHiME-7官方给出的任务图例

该任务分为主赛道（Main Track，默认提交）和子赛道（Sub Track，自由提交），具有很高的挑战性，也与真实复杂场景中的语音识别要求更为贴近：

主赛道需要首先要完成远场数据下的说话人角色分离任务，即从连续的多人说话语音中切分出不同说话人片段、判断出每个片段是哪个说话人，然后再进行语音识别；

子赛道中说话人角色分离的信息是人工标注的，参赛者可以直接使用，在人工分离边界的基础上直接进行语音识别。

此次比赛核心考察指标为DA-WER(Diarization Attributed WER)，即综合考察系统对多个说话人的角色分离效果，以及语音识别效果。

科大讯飞联合团队参加了所有两个赛道，在主赛道和子赛道分别以21%和16%语音识别错误率拿下双冠，将真实说话人角色分离情况下的语音识别错误率与使用人工标注间的差别控制在5%，这也标志着在实际环境中的应用效果将得到进一步提升。

主赛道语音识别成绩，排名指标DA-WER取自三个数据集上的平均值，值越低成绩越好

主赛道说话人角色分离成绩，排名指标DER代表说话人角色分离错误率，值越低成绩越好

子赛道语音识别成绩，排名指标DA-WER取自三个数据集上的平均值，值越低成绩越好

面对挑战，我们的“新招数”有哪些？

如何突破语音交叠、远场混响与噪声干扰、随意的对话风格等重重难关，在更复杂的语音素材里精准实现说话人角色分离和语音识别？

基于长期技术积累，以及讯飞语音识别技术在落地应用中的实践和反馈，联合团队创新并使用了多种技术方法。

基于记忆模块的多说话人特征神经网络说话人角色分离算法 (Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding , NSD-MA-MSE)

该方法旨在解决高噪声、高混响、高说话人重叠段场景的说话人角色分离问题。基于对大规模的说话人聚类得到的类中心向量，团队设计了一种记忆模块，可以利用该模块与当前目标人片段，通过注意力机制计算来得到更加精确的目标说话人特征。整体上，团队采用序列到序列的方式来预测多个说话人的输出帧级语音/非语音概率。该模型极大降低了说话人角色分离错误率，有效地帮助了后续的分离和识别模块。

阵列鲁棒的通道挑选算法（Array-Robust Channel Selection）

该算法基于波束语音信噪比挑选准则，即使对于不同的阵列分布场景，也能够自动挑选出有效通道，从而减少下游任务无效噪声和语音干扰。同时，团队提出了一种空间-说话人同步感知的迭代说话人角色分离算法（Spatial-and-Speaker-Aware Iterative Diariazation Algorithm，SSA-IDA），通过结合阵列空间建模和机器学习长时建模的优势，迭代修正说话人角色分离系统中声学特性相似的说话人错分情况，从而更加精确捕捉目标说话人的信息。

该算法不仅有效的降低了环境干扰噪声，而且可以进一步消除干扰说话人的语音，从而大幅降低下游语音识别任务的难度。

场景自适应自监督表征学习方案（Scene Adaptive Self-Supervised Learning Method）

该方案用于匹配复杂场景的语音识别，将经过前端处理后的音频作为自监督模型的输入，并提取高层次表征作为指导标签，实现了对特定场景的快速自适应匹配；同时，结合层级渐进式学习和一致性正则约束，进一步提高了预训练模型对下游语音识别任务的鲁棒性。利用预训练模型的层级信息进行融合，实现了语音识别在复杂场景的效果提升。

望过去、向未来：更好的AI离不开更好的语音识别

连续四届获得CHiME冠军背后，是科大讯飞在语音识别技术和应用上踏过的漫长之路：

从2010年国内首批开展深度神经网络语音识别研究，到全球首个中文语音识别深度神经网络（DNN）上线、循环神经网络（RNN）语音识别全面升级、全球首创基于全序列卷积神经网络（DFCNN）的语音识别，近几年持续探索无监督预训练、多模态在语音识别上的应用；

从2010年推出语音输入的讯飞输入法上线、讯飞语音云发布，到落地教育、医疗、城市、工业、金融、汽车等各行各业，还有面向你我生活学习工作的讯飞翻译机、智能办公本、AI学习机、讯飞听见、录音笔、智能耳机……

不论是大型国际会议、全球赛事，还是身边的一通电话、一次询问，在繁杂的声音世界里，是持续进化的语音识别技术让机器更了解我们所言所语。

面向未来，科大讯飞在CHiME-7中的技术成果链接着更多的应用可能：

立志于让机器人走进每个家庭的“讯飞超脑2030”计划里，似乎可以看到未来人和机器自然交互的新场景。CHiME-7中的技术成果能够让机器人面向每个家庭成员实现更精准的语音识别，再加上多模感知、多维表达、认知智能和AI运动智能算法等有机结合，实现系统性创新——家庭陪伴机器人不仅能够听清、听懂每位家庭成员的需求，还能真正做到情感陪伴与日常生活照顾……

**智能语音是万物互联机器沟通的入口，也是人工智能赋能千行万业、浸润千家万户的秘钥；**智能语音是我们的初心，是载誉的过往和现在，也是灿烂的将来。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
206

文章
27065

浏览量
201508
信噪比

信噪比

+关注

关注
3

文章
237

浏览量
28332
语音识别

语音识别

+关注

关注
37

文章
1635

浏览量
111857
深度神经网络

深度神经网络

+关注

关注
0

文章
42

浏览量
4466

原文标题：四连冠！科大讯飞获国际多通道语音分离与识别大赛CHiME-7冠军

文章出处：【微信号：iFLYTEK1999，微信公众号：科大讯飞】欢迎添加关注！文章转载请注明出处。

科大讯飞星火大模型新添功能，语音台历即将面世

　4月26日，科大讯飞宣布讯飞星火大模型V3.5春季更新，新增功能包括：支持长文本、长图文、长语音的大模型，首推星火图文识别大模型，能够快速识别并学习多种类型的海量知识，提供更为专业、

发表于 04-28 11:30 •86次阅读

科大讯飞发布星火语音大模型

科大讯飞行业资讯

北京中科同志科技股份有限公司

发布于 :2024年01月31日 09:17:28

科大讯飞语音控制模块怎么用

科大讯飞语音控制模块是一种人机交互技术，它利用语音识别和语音合成技术，使用户可以通过语音指令来控

发表于 12-25 13:58 •643次阅读

离线语音识别与在线语音识别有什么不一样？

离线语音识别与在线语音识别有什么不一样？离线语音识别和在线

发表于 12-12 14:36 •678次阅读

离线语音识别及控制是怎样的技术？

引言：　随着人工智能的飞速发展，离线语音识别技术成为了一项备受瞩目的创新。离线语音识别技术能够将人的语音转化为可理解的文本，无需依赖网络连

发表于 11-24 17:41

离线语音识别和控制的工作原理及应用

引言　　离线语音识别是指在没有网络连接的情况下，通过在本地设备上进行语音信号处理和识别，实现语音命令的转化和执行。随着智能设备的普及，离

发表于 11-07 18:01

基于CW32的智能语音分类垃圾桶设计

基于CW32的智能语音分类垃圾桶设计

发表于 11-06 16:51 •574次阅读

科大讯飞ICDAR 2023收获四项冠军，图文识别理解能力持续进阶

and Recognition）近期传来好消息：科大讯飞研究院与中科大语音及语言信息处理国家工程研究中心（以下简称研究中心）在多行公式识别、文档信息定位与提取、结构化文本信息抽

发表于 11-03 14:09 •382次阅读

厨房秤也能语音控制？#语音控制 #语音模块 #语音识别 #离线语音识别

芯片语音识别

轻生活科技语音模块
发布于 :2023年10月19日 16:36:15

深度学习在语音识别中的应用及挑战

一、引言随着深度学习技术的快速发展，其在语音识别领域的应用也日益广泛。深度学习技术可以有效地提高语音识别的精度和效率，并且被广泛应用于各种应用场景。本文将探讨深度学习在

发表于 10-10 18:14 •506次阅读

基于CW32的智能语音分类垃圾桶

基于武汉芯源半导体CW32F030C8T6和启英泰伦CI-C22GS02制作的智能语音分类垃圾桶，能够实现识别语音来判断垃圾种类，同时打开相应的垃圾桶，可外接普通按键或者触摸按键，也可以外接红外接近传感器来打开对应的垃圾桶。

发表于 08-01 15:39 •965次阅读

语音识别发展 Python进行语音识别案例

　　摘要：随着信息化时代的快速到来以及计算机技术的不断完善发展，语音识别在众多领域都得到了应用，同时语音识别有着广阔的发展前景。当下，在对语音

发表于 07-19 14:32 •4次下载

启英泰伦离线语音&腾讯云小微在线语音识别方案 #启英泰伦 #腾讯云小微 #在线语音识别 #离线语音识别

语音识别

启英泰伦
发布于 :2023年07月18日 16:50:34

启英泰伦离线语音识别+蓝牙小程序控制方案 #启英泰伦 #离线语音 #语音蓝牙

语音识别

启英泰伦
发布于 :2023年07月18日 16:03:46

2023海外市场好做吗？#物联网 #电子技术 #语音模块 #语音控制 #语音识别

语音识别

轻生活科技语音模块
发布于 :2023年05月30日 14:53:40

搜索历史

科大讯飞获国际多通道语音分离与识别大赛CHiME-7冠军

评论

科大讯飞星火大模型新添功能，语音台历即将面世

科大讯飞发布星火语音大模型

科大讯飞语音控制模块怎么用

离线语音识别与在线语音识别有什么不一样？

离线语音识别及控制是怎样的技术？

离线语音识别和控制的工作原理及应用

基于CW32的智能语音分类垃圾桶设计

科大讯飞ICDAR 2023收获四项冠军，图文识别理解能力持续进阶

厨房秤也能语音控制？#语音控制 #语音模块 #语音识别 #离线语音识别

深度学习在语音识别中的应用及挑战

基于CW32的智能语音分类垃圾桶

语音识别发展 Python进行语音识别案例

启英泰伦离线语音&腾讯云小微在线语音识别方案 #启英泰伦 #腾讯云小微 #在线语音识别 #离线语音识别

启英泰伦离线语音识别+蓝牙小程序控制方案 #启英泰伦 #离线语音 #语音蓝牙

2023海外市场好做吗？#物联网 #电子技术 #语音模块 #语音控制 #语音识别