0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云知声AGI技术实力在2023年再次获得国际顶会认可

云知声 来源:云知声 2023-09-07 10:27 次阅读

近日,国际性语音及语言科学技术领域盛会INTERSPEECH 2023在爱尔兰都柏林举行。云知声联合上海师范大学发表的4篇论文被大会成功收录,成果覆盖语言增强、语音识别、防攻击声纹等研究方向。这是继ACM MM 2023后,云知声AGI技术实力在2023年再次获得国际顶会认可。

INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,是国际性语音及语言科学技术领域的顶级会议之一,对参会企业和单位有着严苛的准入门槛,历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。

此次获得国际顶会认可,既是云知声与上海师范大学通力合作、持续探索智能语音技术的结果,也离不开云知声AGI技术架构的有力支撑。

云知声:通过通用人工智能(AGI)创建互联直觉的世界

云知声AI技术体系及U+X战略

作为中国AGI技术产业化的先驱之一,云知声于2016年打造Atlas人工智能基础设施,并构建公司云知大脑(UniBrain)技术中台,以山海(UniGPT)通用认知大模型为核心,包括多模态感知与生成、知识图谱、物联平台等智能组件,并通过领域增强能力,为云知声智慧物联、智慧医疗等业务提供高效的产品化支撑,推动“U(云知大脑)+X(应用场景)”战略落实,践行公司“通过通用人工智能(AGI)创建互联直觉的世界”的使命。

作为云知大脑(UniBrain)的重要组件,智能语音技术包含语音识别、声纹识别、语音合成等,目前已广泛应用于家居、车载、客服等领域。以车载场景为例,在云知声智能语音技术的加持下,可实现多音区识别、连续语音交互、个性化语音播报、所见即可说、模糊指令匹配等强大语音能力,为用户带来更智能更自然的交互体验。随着云知声智能语音技术的不断发展,其在各个场景的落地应用也将进一步提速。此次论文收录,充分印证了云知声在智能语音领域的技术创新实力,同时,也将进一步夯实其AGI技术底座,加速千行百业的智慧化升级。

接下来,云知声将继续践行“U+X”战略,携手上海师范大学等高校机构,共同加强AI基础理论和关键技术的研发,不断拓展AGI应用场景,为智慧物联与智慧医疗两大领域提供更广泛、更深入的人工智能解决方案,致力实现以人工智能赋能千行百业的美好愿景。

以下为入选论文概览:

研究方向:语音增强

目前主流时频语音增强系统以复频谱作为输入,存在着训练工具不支持复数,复数建模方式不易训练,以及基于掩蔽的方法理论上无法完全恢复出干净语音的问题。为解决以上问题,本文提出了一种无需掩蔽的语音增强系统。该系统利用短时离散余弦变换(STDCT)作为特征,不仅与STFT同样具备信息完备性,而且是一种实数特征。我们在MetaFomer基础上,结合MobileNet block的轻量架构以及NAFNet的设计理念构建了全局局部模块,整个网络由此模块堆叠而成。结果表明,相比其他网络,MFNet的性能达到了SOTA水平,且计算量具有优势。

1b353b40-4c9d-11ee-a25d-92fbcf53809c.png

研究方向:语音识别

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition

低资源重口音语音识别是当前ASR技术在实际应用中面临的重要挑战之一。在这项研究中,我们提出了一个基于Conformer的架构,称为Aformer,以利用大量非口音和有限口音训练数据的声学信息。在Aformer中设计了一个普通编码器和一个口音编码器来提取互补的声学信息。此外,我们使用多通道的方式训练Aformer,并研究了三种交叉信息融合方法,以有效地结合来自一般编码器和口音编码器的信息。结果表明,在六个域内和域外口音测试集上,我们提出的方法优于Conformer基线,词/字错误率相对减少了10.2%到24.5%。

1b7e7af8-4c9d-11ee-a25d-92fbcf53809c.png

研究方向:语音识别

Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR system

在端到端的自动语音识别(ASR)中,开发有效的目标建模单元是非常重要的,也是大家一直关注的问题。我们提出一种语音辅助的多目标单元(PMU)建模方法,以渐进式表征学习的方式增强Conformer-TransducerASR系统。具体来说,PMU首先使用语音辅助子词建模(PASM)和字节对编码(BPE)分别产生语音诱导和文本诱导的目标单元;在此基础上,我们提出了三种增强声学编码器的框架,包括基本PMU、paraCTC和paCTC,它们集成了不同层次的PASM和BPE单元,用于CTC和transducer多任务训练。在LibriSpeech和口音ASR测试集上的实验结果表明,与传统的BPE相比,提出的PMU方法显著降低了LibriSpeech clean、other和6个重音ASR测试集的WER,分别降低了12.7%、6.0%和7.7%。

1bb882ac-4c9d-11ee-a25d-92fbcf53809c.png

研究方向:防攻击声纹

Advanced RawNet2 with Attention-based Channel Masking for Synthetic Speech Detection

自动扬声器验证系统通常很容易受到欺骗攻击,特别是不可见的攻击。由于语音合成和语音转换算法的多样性,如何提高合成语音检测系统的泛化能力是一个具有挑战性的问题。为了解决这个问题,我们提出了一种改进的RawNet2,通过引入一个基于注意力的通道掩蔽模块来改进RawNet2,其中包括三个主要组成部分:SE、通道掩蔽和全局-局部特征聚合。在ASVspoof2019和ASVspoof 2021数据集上评估了该系统的有效性。其中,ARawNet2在ASVspoof 2019 LA任务上达到了4.61%,在ASVspoof 2021 LA和DF任务上的EER分别达到了8.36%和19.03%,比RawNet2基线分别降低了12.00%和14.97%。

1beb130c-4c9d-11ee-a25d-92fbcf53809c.png

1c1799ea-4c9d-11ee-a25d-92fbcf53809c.png

审核编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111836
  • 人工智能
    +关注

    关注

    1776

    文章

    43861

    浏览量

    230614
  • Agi
    Agi
    +关注

    关注

    0

    文章

    58

    浏览量

    10130
  • 云知声
    +关注

    关注

    0

    文章

    114

    浏览量

    8261

原文标题:云知声4篇论文入选国际顶会INTERSPEECH 2023

文章出处:【微信号:云知声,微信公众号:云知声】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    语云全景监测技术:现代安全防护的全面解决方案

    防护的全面解决方案,凭借其强大的实时监测、智能分析、主动防御等功能,以及易于部署、易于管理的优势,正在为越来越多的用户所认可和应用。未来,随着技术的不断进步和应用场景的不断拓展,
    发表于 02-23 16:40

    OpenHarmony社区运营报告(202312月)

    ,2.4 万多个 Star,6.7 万多个 Fork,59 个 SIG。 • 2023 12 月 16 日,以“技术创新,照见未来”为主题的首届开放原子开发者大会 OpenHarmony 分论坛
    发表于 01-10 15:44

    华秋2023度大事记~~

    2023复杂多变的外部环境下,华秋紧随时代步伐,以为企业减负、高质量发展为核心目标,助力企业“增效降本”。这一,华秋投入大量研发资源,聚焦产品质量提升、提升数字化能力,赋能硬件创
    发表于 01-05 10:59

    华秋2023度总结 | 聚焦发展,勇往直前

    2023复杂多变的外部环境下,华秋紧随时代步伐,以为企业减负、高质量发展为核心目标,助力企业“增效降本”。这一,华秋投入大量研发资源,聚焦产品质量提升、提升数字化能力,赋能硬件创
    发表于 01-05 10:57

    新年惊喜!盖楼有奖~一起来见证华秋2023度高光时刻吧

    2023,华秋举办了多场线下会议。如:2023电子工程师大会、2023电子设计与制造技术研讨
    发表于 01-04 16:33

    精彩预告 | OpenHarmony即将亮相MTSC 2023

    MTSC 2023 第 12 届中国互联网测试开发大会(深圳站)即将于 2023 11 月 25 日,深圳登喜路国际大酒店举办,大会将
    发表于 11-22 10:28

    OpenHarmony社区运营报告(202310月)

    技术有限公司。 技术指导委员 202311月4日,第二届开放原子开源基金OpenHarmo
    发表于 11-09 08:42

    闪耀“中国芯” 华大北斗荣获2023“中国芯”优秀技术创新产品奖

    20239月20日,由工信部中国电子信息产业发展研究院、珠海市人民政府以及横琴粤澳深度合作区执行委员共同主办的2023琴珠澳集成电路产业促进峰会暨第十八届“中国芯”颁奖仪式
    发表于 09-22 14:46

    音画皆优,普奥视携新品亮相荷兰广播电视展IBC2023

    全球50多个国家和地区客户的信赖和认可。普奥视已获得实用新型、外观专利及软件著作权证书等50余项发明,拥有图像处理3A核心算法、自主的ISP图像算法技术和高精度超静音的台结构应用设计
    发表于 09-20 17:03

    OpenHarmony社区运营报告(20238月)

    单位南京天奥智能医疗科技有限公司、厦门贝启科技有限公司油气专委会新增成员单位昆仑数智科技有限公司、深圳市证通电子股份有限公司。 技术指导委员治理 20238月26日OpenHarm
    发表于 09-12 18:35

    各品牌厂商齐聚2023深圳国际电子展

    核心板技术的应用与发展》主题演讲,介绍飞凌嵌入式核心板各行业应用中的独特优势并对嵌入式SoM板卡行业的发展前景进行深入分析。 为期3天的Elexcon2023正在进行中,8月24日~25日将为大家
    发表于 08-24 15:37

    2023 RISC-V中国峰会:深圳技术分享(同期会议)

    ,把握全球新时机,呈现RISC-V全球新观点、新趋势。 2023 RISC-V中国峰会:深圳技术分享(同期会议) 由电子发烧友主办的RISC-V技术分享
    发表于 08-16 11:08

    OpenHarmony社区运营报告(20237月)

    鸿智谷、润开鸿、深开鸿共4家单位提报。2023太湖科学城论坛·数字经济产业高峰论坛、2023高校开源教育OpenHarmony高校师资培训、2023智慧高速建设与发展研讨
    发表于 08-11 16:30

    OpenHarmony社区运营报告(20235月)

    OpenHarmony生态新路径。 ● 5月11日至14日,由公安部主办的第十一届中国国际警用装备博览(简称“警博”)北京首钢园举办,全球前沿警用装备及尖端
    发表于 06-19 15:52

    OpenHarmony社区运营报告(20234月)

    1、本月,OpenHarmony平台Gitee指数第一(Gitee指数的评估维度:综合考虑代码活跃度、社区活跃度、团队健康、影响力、流行趋势)。 20234月,OpenHar
    发表于 05-22 10:30