0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

思必驰人工智能:10篇论文被收录在INTERSPEECH 2020

深圳市汽车电子行业协会 来源:深圳市汽车电子行业协会 作者:深圳市汽车电子行 2020-11-10 09:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

国际顶级的语音技术圈会议INTERSPEECH 2020于10月25-30日在中国上海举办,本次会议主题为“Cognitive Intelligence for Speech Processing”。思必驰作为国内领先的对话式人工智能平台公司参加该国际顶会,支持大会在这不平凡的2020年顺利举行,致力推进产学研用的一体化进程。

思必驰-上海交通大学智能人机交互联合实验室

10篇论文被INTERSPEECH 2020收录

INTERSPEECH 2020共接收有效论文总数2100余篇,实际收录数量为1022篇。其中,思必驰-上海交通大学智能人机交互联合实验室10篇论文被正式收录,涉及说话人识别、语音识别及合成、多模态语音分离、口语语义理解等多方面的技术创新研究。

10篇论文简要介绍如下:

《用于单通道多说话人语音识别的上下文嵌入表示学习方法》

Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition

端到端多说话人语音识别是近年来的热门话题。本文探讨了利用上下文信息来提升多说话人语音识别的性能。我们设计了嵌入表示学习模型来直接从多说话人混合语音中准确地提取上下文嵌入表示,同时进一步提出了两种高级的训练策略来改进该新模型,即嵌入表示采样和两阶段训练。实验结果表明,我们的方法在多说话人语音识别上取得了显著改进,与端到端多说话人语音识别的基线模型相比,本文提出的方法减少了相对25%的词错误率。

图:基于上下文嵌入表示的多说话人语音识别模型结构

《在鸡尾酒会中聆听、观察、理解:音频-视频-上下文的多模态语音分离》

Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation

多个说话人同时说话时,人类可以通过听混合语音,观看说话者并理解上下文信息,将注意力集中在感兴趣的语音上。我们尝试使用三种模态(视觉模态、语音模态以及上下文信息模态)来解决与说话者无关的语音分离问题。与以前的应用纯音频/音视频模态的方法相比,我们设计了特定模型来直接从语音混合中提取所有目标说话人的上下文语言信息,然后将这些提取的上下文知识通过适当的注意力机制进一步合并到基于多模态信息的语音分离体系结构中。实验表明,在新提出的基于上下文信息的语音分离模型上可以观察到性能显著改善。

图:基于音频-视频-上下文的多模态语音分离示意图

《多模态作用很大: Voxceleb数据集上的性能飞跃》

Multi-modality Matters: A Performance Leap on VoxCeleb

来自不同模态的信息通常相互补偿。我们在说话人嵌入特征级别探索了视听人员验证系统的不同信息融合策略和损失函数。我们在说话人嵌入特征级别上使用视听知识的最佳系统在VoxCeleb1的三个公开测试列表上达到了0.585%,0.427%和0.735%的EER,这是该数据集上报告的最好的结果。此外,我们基于VoxCeleb1数据集构建了一个嘈杂的测试集。我们在说话人嵌入特征级别使用数据增广策略来帮助视听系统区分噪声和干净的嵌入。通过这种数据增广策略,所提出的视听人员验证系统在嘈杂的测试集上取得了更好的效果。

图:在带噪测试集上的性能比较

《BERT联合编码词混淆网络和对话上下文的口语语义理解方法》

Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding

口语理解可以将自动语音识别得到的假设转换为结构化的语义表示,语音识别错误会使后续口语理解模块的性能严重下降。为了缓解口语理解不确定性的问题,本文提出一种新颖的基于词混淆网络(WCN)和BERT预训练模型的口语语义理解模型(WCN-BERT SLU),对话上下文中的上一轮系统行为也被用作附加输入。该模型对WCN和对话上下文进行联合编码,在BERT架构中集成了词混淆网络的结构信息和语音识别的后验概率。在口语理解的基准数据集DSTC2上进行的实验表明,该方法大大优于以前的最佳模型。

图:与已发表结果在 DSTC2 数据集上的比较

《将部分共享神经网络应用于基于对抗训练的说话人验证领域自适应》

Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network

我们使用领域对抗训练来研究具有不同语言的数据集之间的领域自适应策略。这种架构可以帮助嵌入特征提取器学习域不变特征,同时不会牺牲说话者辨别能力。在SRE16粤语和菲律宾语评估测试集上实现了约25.0%的相对平均等错误率(EER)的改进。

《基于双重对抗领域自适应的泛化重放攻击检测》

Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection

我们提出了对偶对抗领域自适应的框架,通过使用两个领域鉴别器分别对欺骗数据和真实数据进行细粒度的对齐,从而提高欺骗检测的性能。实验表明:该框架对于通用的重放攻击检测更加地鲁棒和有效。

《噪声环境下通过半监督音频事件检测模型训练的语音端点检测器》

Voice activity detection in the wild via weakly supervised sound event detection

我们提出了两种弱监督训练的通用VAD模型,GPV-F和GPV-B。在真实场景的测试中,GPV-F模型比标准VAD模型提升很多,GPV-B模型也获得和标准VAD模型可比的性能。

《神经同态声码器》

Neural Homomorphic Vocoder

本文提出了神经同态声码器(NHV),一种基于源-滤波器模型的神经网络声码器框架,能够通过多分辨率 STFT 损失和对抗损失函数联合进行优化,计算效率高,可控性和可解释性好。

《基于双编码器多专家模型结构的中英文语种混杂语音识别》

Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts

我们研究使用一种崭新的端到端模型来进行中英文语种混杂语音识别。实验结果表明,相比于基线的Transformer模型,我们的结构可以取得大幅度的性能提升。

思必驰拥有全链路的软硬一体化端到端语音交互系统能力,近年来不断加码源头技术的持续创新,通过思必驰-上海交通大学智能人机交互联合实验室、上交大苏州智研院合作的共同努力,在模型泛化及快速定制能力、变帧率语音识别解码技术、说话人识别技术、超高压缩比神经网络模型压缩技术、多模态感知及理解和表达技术等方面,均有显著突破。围绕对话式AI能力,思必驰会不断夯实“全链路智能对话”技术以及“高自由度定制”方案能力。未来也会持续加大对基础源头技术创新与核心产品能力升级的核心投入,持续提升AI+智能终端、AI+智慧服务的快速规模化能力,加速向更多行业场景纵深赋能。

思必驰xiaochi获2020 AESR

“口音种类识别“冠军和“口音英语语音识别”亚军

2020 AESR,即“INTERSPEECH 2020口音英语语音识别挑战赛(Interspeech2020 Accented English Speech Recognition)”,向参赛者开放八种口音英文数据,设置了“Track1-口音种类识别”和“Track2-口音英语语音识别”两个赛道。由思必驰组建的“xiaochi”队伍表现优异,分别获得“口音种类识别”第一名(全球共30个队伍参赛),和“口音英语语音识别”第二名(全球42个队伍参赛)。

在“Track1-口音种类识别”技术挑战赛中,参赛队伍需要使用官方提供的各种口音英文的训练数据,训练语种分类模型。xiaochi队伍的准确率高出第二名11个百分点,最终摘得冠军。

数据策略上,xiaochi对8种口音训练音频进行变语速数据增强,利用kaldi工具模拟噪声和远场,使用8种口音训练数据+librispeech数据训练TTS合成器,并生成8种口音训练音频,最后对测试音频采用sox变语速后与原始音频拼接。模型训练时,采用了多机多卡的并行训练策略,有效降低了模型迭代和实验速度。最终我们采用深层的TDNN模型,结合AAM loss等进行优化,来训练8种口音的8分类模型。

经过多个不同策略组合的实验测试,最终发现,“利用PPG等特征,结合基于tts的数据生成,多嵌入多层联合优化”等方法,能够最高效快速识别不同口音种类。这也为未来业界进行多语种混合识别提供了很好的参考策略。

思必驰语音应用负责人薛少飞

参与INTERSPEECH工业论坛并在线分享

今年INTERSPEECH 2020首次推出虚拟展会,以直播的方式举办在线论坛。思必驰高级技术总监、语音应用技术负责人薛少飞,10月29日(今晚)将在线分享思必驰在语音识别、语音唤醒、音频检测等语音交互关键技术方面的新进展。

责任编辑:xj

原文标题:【会员风采】亮剑INTERSPEECH 2020,思必驰10篇论文被收录

文章出处:【微信公众号:深圳市汽车电子行业协会】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1275

    浏览量

    57641
  • 语音识别
    +关注

    关注

    39

    文章

    1803

    浏览量

    115569
  • 思必驰
    +关注

    关注

    4

    文章

    373

    浏览量

    15885

原文标题:【会员风采】亮剑INTERSPEECH 2020,思必驰10篇论文被收录

文章出处:【微信号:qidianxiehui,微信公众号:深圳市汽车电子行业协会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    任务型对话算法通过国家备案

    近日,国家网信办公开发布第十四批境内深度合成服务算法备案信息,任务型对话算法正式通过备案。这是
    的头像 发表于 11-20 10:33 578次阅读

    江苏省委书记一行到访调研

    大模型开启了人工智能发展的新阶段。在,信长星了解多语种语言大模型、人机对话技术等研发应用,以及向汽车、家电、新能源等行业提供产品解决方案情况。他强调,要推动面向各行业各领域的大模
    的头像 发表于 11-11 10:37 586次阅读

    与上海交大联合实验室五论文入选NeurIPS 2025

    近日,机器学习与计算神经科学领域全球顶级学术顶级会议NeurIPS 2025公布论文录用结果,-上海交大联合实验室共有5
    的头像 发表于 10-23 15:24 575次阅读
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>驰</b>与上海交大联合实验室五<b class='flag-5'>篇</b><b class='flag-5'>论文</b>入选NeurIPS 2025

    声音转换算法通过国家备案

    近日,国家互联网信息办公室公告第十三批深度合成服务算法备案信息,声音转换算法通过备案,这也是
    的头像 发表于 09-18 14:05 688次阅读

    一鸣智能客服大模型通过生成式人工智能服务备案

    近日,江苏网信发布新一批生成式人工智能服务备案信息,其中,由控股子公司准自主研发的一鸣
    的头像 发表于 09-16 18:08 967次阅读

    空调大模型解决方案

    这不是幻想,是基于思空调大模型解决方案发生的真实体验,该方案深度融合了自研的全链路智能
    的头像 发表于 07-31 17:46 750次阅读

    亮相2025世界人工智能大会

    近日,2025世界人工智能大会暨人工智能全球治理高级别会议(WAIC2025)在上海盛大开幕。本届大会以“智能时代 同球共济”为主题,全方位呈现了全球AI技术突破、产业变革与治理实践的最新成果。作为中国对话式AI企业,
    的头像 发表于 07-31 17:41 738次阅读

    亮相2025人工智能产品应用博览会

    、教育、交通等各行各业。携自主品牌智慧办公产品惊艳亮相(展位:G3馆 A07),以安全、高效、智能核心优势,为高效办公和政企数字化转型提供一站式解决方案。
    的头像 发表于 07-28 17:48 605次阅读

    与上海交大联合实验室研究成果入选两大顶级会议

    近日,计算语言学与自然语言处理领域全球顶级会议ACL 2025及语音研究领域旗舰会议INTERSPEECH 2025相继公布论文录用结果。
    的头像 发表于 07-11 16:24 723次阅读
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>驰</b>与上海交大联合实验室研究成果入选两大顶级会议

    宣布,再获新一轮融资

    自主品牌在办公会议场景的深度创新、推动产品迭代与升级。   成立于2007年,是国内领先的对话式人工智能平台公司。自创立以来,
    的头像 发表于 06-26 01:09 3733次阅读

    AI办公本亮相京东直播间

    近日,董事长、CEO高始兴与IOT事业部首席产品官马斌斌现身「京东3C数码采销」直播
    的头像 发表于 06-09 11:10 890次阅读

    何维率一行莅临调研

    现场,董事长、CEO高始兴介绍了的业务布局与落地应用情况。
    的头像 发表于 04-24 15:36 686次阅读

    出席语言计算技术创新专题研讨会

    近日,与东南大学苏州校区联合举办语言计算技术创新专题研讨暨校企合作洽谈会。联合创始人
    的头像 发表于 04-17 15:42 567次阅读

    柳州市领导莅临调研考察

    近日,柳州市政府副市长汤振国、市政府副秘书长李荣军、市工业和信息化局副局长莫春燕、市大数据局局长李玉辉、柳东新区管委会副主任吴佑松等一行莅临广西,围绕企业人工智能产品研发、应用场
    的头像 发表于 03-24 16:37 1088次阅读

    亮相2025年苏州市“人工智能+”创新发展推进大会

    近日,2025年苏州市“人工智能+”创新发展推进大会暨人工智能赋能新型工业化深度行(苏州站)活动隆重举行,专家学者、产业大咖、金融精英齐聚苏州,共商“人工智能+”融合创新。作为人工智能
    的头像 发表于 02-17 16:16 895次阅读