0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云知声2篇论文参展国际语音顶会INTERSPEECH 2022

云知声 来源:云知声 作者:云知声 2022-09-21 19:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2022年9月18日-22日,全球语音领域顶级会议INTERSPEECH 2022在韩国仁川举办。“云知声-上师大自然人机交互”联合实验室携提出的关于声音事件检测、单通道语音增强方向的2篇论文参会。这是继2022年6月亮相ICASSP2022(技术论文被收录)之后,云知声在2022年再一次获得国际语音顶会的认可。

b53e0852-399d-11ed-9e49-dac502259ad0.png

INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,也是全球最大的综合性语音领域的科技盛会,对参会企业和单位有着严苛的准入门槛,历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。

本届会议以“Human and humanizing speech technology”为主题,内容涵盖信号处理、语音识别、自然语言处理、神经机器翻译等领域,收到近万篇投稿论文。会议研究成果代表着语音相关领域的最新研究水平和未来的技术发展趋势。此次论文入选,代表云知声在语音交互领域持续的技术创新。

声音事件检测

b5534028-399d-11ed-9e49-dac502259ad0.png

在声音事件检测方向,研究团队提出了一个教师-学生(Teacher-Student)半监督学习框架,充分利用强标签数据、弱标签数据与大量无标签数据训练模型,有效解决标签数据匮乏的问题。为了提高模型的检测能力,研究团队提出通过两阶段的训练策略并聚焦于难以分类的事件,以及利用一种深度特征蒸馏方法,更详细地关注到时间轴上细致的声学信息。

同时,研究团队还提出语音分离技术辅助声音事件检测系统建模的方法,通过使用分离数据与混合数据联合调整训练模型的方式,有效解决事件重叠与背景噪声干扰对系统建模带来的影响。在DCASE2019 Task4 数据集上,研究团队所提出的方案在F1, PSDS1 and PSDS2得分上分别达到了46.5%, 44.5%以及75.4%,相比baseline提高了2.2%, 7.2%以及20.5%,充分体现了所提出方案的优势。

b57ba9fa-399d-11ed-9e49-dac502259ad0.png

单通道语音增强

b5a7977c-399d-11ed-9e49-dac502259ad0.png

在单通道实时语音增强方向,研究团队提出了一个基于PercepNet模型并感知语音相位与信噪比的实时语音增强方案(PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement),该方案提取多种声学特征,以获取语音包括幅度,相位,基音周期在内的多种声学属性。这些特征被进一步在模型中使用提取时间相关性和频率相关性的GRU网络层进行融合,以提升该语音增强系统的性能。

同时,研究团队还提出一种基于信噪比的后处理机制,旨在改善语音增强中的过度抑制问题。该机制利用网络估计得到的语音信噪比为阈值条件,决定基于MMSE-LSA的后处理方法是否被应用于当前输入语音。研究团队的模型在VCTK测试集上达到了2.65 (PESQ) 的得分,相比原PercepNet模型的得分相对提升了8%,充分验证了所提出方案的有效性。

b5d1d6e0-399d-11ed-9e49-dac502259ad0.png

人工智能成功的关键在于应用。为不断拓宽自身基础能力边界,云知声深入探究语音领域中的语音识别、语音增强、信号处理、声纹识别、声音事件检测等诸多方向,形成丰富技术积累,并将相关技术在多个领域以及行业进行应用,取得诸多成功案例。比如云知声的ASR技术被广泛应用于音视频翻译、会议系统、同声传译、三代共6款专用AI语音交互芯片等相关产品与场景。

其中,云知声输出的软硬一体的语音交互芯片产品,覆盖各种形态的多品类产品,市占率领先,出货量不断增长。为国内传统行业迅速实现智能化产品升级与改造,提供了技术保障。

本次在 INTERSPEECH 2022 大会上提出的原创技术,也将进一步夯实云知声全栈+硬核的人工智能技术“底座”,提高云知声在语音交互领域的技术领先性,推动人工智能系统以更人性化、高效的方式服务于千行百业,为用户带来更好的交互体验。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38124

    浏览量

    296718
  • 语音识别
    +关注

    关注

    39

    文章

    1803

    浏览量

    115567
  • 语音交互
    +关注

    关注

    3

    文章

    339

    浏览量

    29064
  • 云知声
    +关注

    关注

    0

    文章

    282

    浏览量

    9075
  • AI芯片
    +关注

    关注

    17

    文章

    2065

    浏览量

    36570

原文标题:云知声技术实力再获认可:2篇论文参展国际语音顶会INTERSPEECH 2022

文章出处:【微信号:云知声,微信公众号:云知声】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    后摩智能六论文入选四大国际

    2025年以来,后摩智能在多项前沿研究领域取得突破性进展,近期在NeurIPS、ICCV、AAAI、ACMMM四大国际会上有 6 论文入选。致力于大模型的推理优化、微调、部署等关键
    的头像 发表于 11-24 16:42 697次阅读
    后摩智能六<b class='flag-5'>篇</b><b class='flag-5'>论文</b>入选四大<b class='flag-5'>国际</b><b class='flag-5'>顶</b><b class='flag-5'>会</b>

    理想汽车12论文入选全球五大AI

    2025年三季度以来,理想汽车基座模型团队在国际顶级AI学术会议上取得重大突破,共有12高质量研究论文入选AAAI、NeurIPS、EMNLP、ACM MM、ICCV五大
    的头像 发表于 11-21 14:44 425次阅读
    理想汽车12<b class='flag-5'>篇</b><b class='flag-5'>论文</b>入选全球五大AI<b class='flag-5'>顶</b><b class='flag-5'>会</b>

    论文入选自然语言处理EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,
    的头像 发表于 11-10 17:30 515次阅读
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>声</b><b class='flag-5'>论文</b>入选自然语言处理<b class='flag-5'>顶</b><b class='flag-5'>会</b>EMNLP 2025

    三项技术成果达到国际领先水平

    2025年10月28日,由中国人工智能学会组织的“多模态数字专家关键技术及产业应用”科技成果鉴定会在北京举行。经专家委员严格评审,研发的“多模态医疗垂类大模型”“芯上端侧小模型
    的头像 发表于 11-04 10:26 589次阅读

    与申能达签署战略合作协议

    日前,智能科技股份有限公司(以下简称“”)股票代码:09678.HK)与广西申能达智
    的头像 发表于 10-11 09:12 466次阅读

    多项业务营收大涨

    依托山海大模型,不断开拓阵地,开发了面向东盟等海外市场和国内方言市场的语音大模型,模型显著提升了在多语种、多方言环境下的语音识别、语义
    的头像 发表于 09-10 15:44 472次阅读

    携手TCL空调焕新智能家电体验

    “空调开24度,新风打开”——刚打完篮球的小涛对着客厅远处的TCL空调发出指令,而空调无需联网仍精准执行操作。这一离线状态下的智能响应场景,正是TCL空调与联手研发的“基于端
    的头像 发表于 08-25 13:53 893次阅读

    与广西壮族自治区卫生健康委员达成战略合作

    近日,智能科技股份有限公司(以下简称“”,09678.HK)与广西壮族自治区卫生健康
    的头像 发表于 07-11 18:20 1087次阅读

    在港交所成功上市

    近日,智能科技股份有限公司(以下简称“”)于香港联合交易所主板挂牌上市,股份代号:0
    的头像 发表于 07-03 17:41 901次阅读

    AGI龙头企业港股上市,市值达147亿港元

    为147.44亿港元。   图:创始人董事长CEO黄伟博士在现场致辞表示:从今天起,我们将以香港为支点,将中国AGI产品带向全世界——用更敏捷的创新、更好的商业化和更开放的心胸,让人类智慧与机器智能共振全球!  
    的头像 发表于 06-30 11:44 2619次阅读
    AGI龙头企业<b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>声</b>港股上市,市值达147亿港元

    与商汤科技达成战略合作

    近日,智能科技股份有限公司(以下简称“”)与上海商汤智能科技有限公司(以下简称“商汤
    的头像 发表于 06-20 14:52 798次阅读

    后摩智能四论文入选三大国际

    2025 年上半年,继年初被 AAAI、ICLR、DAC 三大国际会收录 5 论文后,后摩智能近期又有 4
    的头像 发表于 05-29 15:37 1091次阅读

    论文入选自然语言处理ACL 2025

    结果正式公布。在此次国际学术盛会中表现卓越,共有4论文被接收,其中包括
    的头像 发表于 05-26 14:15 1049次阅读
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>声</b>四<b class='flag-5'>篇</b><b class='flag-5'>论文</b>入选自然语言处理<b class='flag-5'>顶</b><b class='flag-5'>会</b>ACL 2025

    后摩智能5论文入选国际

    2025年伊始,后摩智能在三大国际(AAAI、ICLR、DAC)中斩获佳绩,共有5论文被收录,覆盖大语言模型(LLM)推理优化、模型量
    的头像 发表于 02-19 14:02 1195次阅读
    后摩智能5<b class='flag-5'>篇</b><b class='flag-5'>论文</b>入选<b class='flag-5'>国际</b><b class='flag-5'>顶</b><b class='flag-5'>会</b>

    与TCL引领新风空调语音交互新时代

    近日,收到一份特别的新年礼物——一封来自TCL的感谢信,再次温暖了团队的心。信中特别
    的头像 发表于 01-02 10:14 1193次阅读