云知声AGI技术实力在2023年再次获得国际顶会认可-电子发烧友网

近日，国际性语音及语言科学技术领域盛会INTERSPEECH 2023在爱尔兰都柏林举行。云知声联合上海师范大学发表的4篇论文被大会成功收录，成果覆盖语言增强、语音识别、防攻击声纹等研究方向。这是继ACM MM 2023后，云知声AGI技术实力在2023年再次获得国际顶会认可。

INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力，是由国际语音通讯协会（ISCA）创办的旗舰级国际会议，是国际性语音及语言科学技术领域的顶级会议之一，对参会企业和单位有着严苛的准入门槛，历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。

此次获得国际顶会认可，既是云知声与上海师范大学通力合作、持续探索智能语音技术的结果，也离不开云知声AGI技术架构的有力支撑。

云知声：通过通用人工智能(AGI)创建互联直觉的世界

云知声AI技术体系及U+X战略

作为中国AGI技术产业化的先驱之一，云知声于2016年打造Atlas人工智能基础设施，并构建公司云知大脑(UniBrain)技术中台，以山海（UniGPT）通用认知大模型为核心，包括多模态感知与生成、知识图谱、物联平台等智能组件，并通过领域增强能力，为云知声智慧物联、智慧医疗等业务提供高效的产品化支撑，推动“U(云知大脑)+X(应用场景)”战略落实，践行公司“通过通用人工智能(AGI)创建互联直觉的世界”的使命。

作为云知大脑（UniBrain）的重要组件，智能语音技术包含语音识别、声纹识别、语音合成等，目前已广泛应用于家居、车载、客服等领域。以车载场景为例，在云知声智能语音技术的加持下，可实现多音区识别、连续语音交互、个性化语音播报、所见即可说、模糊指令匹配等强大语音能力，为用户带来更智能更自然的交互体验。随着云知声智能语音技术的不断发展，其在各个场景的落地应用也将进一步提速。此次论文收录，充分印证了云知声在智能语音领域的技术创新实力，同时，也将进一步夯实其AGI技术底座，加速千行百业的智慧化升级。

接下来，云知声将继续践行“U+X”战略，携手上海师范大学等高校机构，共同加强AI基础理论和关键技术的研发，不断拓展AGI应用场景，为智慧物联与智慧医疗两大领域提供更广泛、更深入的人工智能解决方案，致力实现以人工智能赋能千行百业的美好愿景。

以下为入选论文概览：

研究方向：语音增强

目前主流时频语音增强系统以复频谱作为输入，存在着训练工具不支持复数，复数建模方式不易训练，以及基于掩蔽的方法理论上无法完全恢复出干净语音的问题。为解决以上问题，本文提出了一种无需掩蔽的语音增强系统。该系统利用短时离散余弦变换（STDCT）作为特征，不仅与STFT同样具备信息完备性，而且是一种实数特征。我们在MetaFomer基础上，结合MobileNet block的轻量架构以及NAFNet的设计理念构建了全局局部模块，整个网络由此模块堆叠而成。结果表明，相比其他网络，MFNet的性能达到了SOTA水平，且计算量具有优势。

研究方向：语音识别

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition

低资源重口音语音识别是当前ASR技术在实际应用中面临的重要挑战之一。在这项研究中，我们提出了一个基于Conformer的架构，称为Aformer，以利用大量非口音和有限口音训练数据的声学信息。在Aformer中设计了一个普通编码器和一个口音编码器来提取互补的声学信息。此外，我们使用多通道的方式训练Aformer，并研究了三种交叉信息融合方法，以有效地结合来自一般编码器和口音编码器的信息。结果表明，在六个域内和域外口音测试集上，我们提出的方法优于Conformer基线，词/字错误率相对减少了10.2%到24.5%。

研究方向：语音识别

Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR system

在端到端的自动语音识别（ASR）中，开发有效的目标建模单元是非常重要的，也是大家一直关注的问题。我们提出一种语音辅助的多目标单元（PMU）建模方法，以渐进式表征学习的方式增强Conformer-TransducerASR系统。具体来说，PMU首先使用语音辅助子词建模（PASM）和字节对编码（BPE）分别产生语音诱导和文本诱导的目标单元;在此基础上，我们提出了三种增强声学编码器的框架，包括基本PMU、paraCTC和paCTC，它们集成了不同层次的PASM和BPE单元，用于CTC和transducer多任务训练。在LibriSpeech和口音ASR测试集上的实验结果表明，与传统的BPE相比，提出的PMU方法显著降低了LibriSpeech clean、other和6个重音ASR测试集的WER，分别降低了12.7%、6.0%和7.7%。

研究方向：防攻击声纹

Advanced RawNet2 with Attention-based Channel Masking for Synthetic Speech Detection

自动扬声器验证系统通常很容易受到欺骗攻击，特别是不可见的攻击。由于语音合成和语音转换算法的多样性，如何提高合成语音检测系统的泛化能力是一个具有挑战性的问题。为了解决这个问题，我们提出了一种改进的RawNet2，通过引入一个基于注意力的通道掩蔽模块来改进RawNet2，其中包括三个主要组成部分：SE、通道掩蔽和全局-局部特征聚合。在ASVspoof2019和ASVspoof 2021数据集上评估了该系统的有效性。其中，ARawNet2在ASVspoof 2019 LA任务上达到了4.61%，在ASVspoof 2021 LA和DF任务上的EER分别达到了8.36%和19.03%，比RawNet2基线分别降低了12.00%和14.97%。

审核编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音识别

语音识别

+关注

关注
39

文章
1804

浏览量
115575
人工智能

人工智能

+关注

关注
1813

文章
49750

浏览量
261621
Agi

Agi

+关注

关注
0

文章
95

浏览量
10743
云知声

云知声

+关注

关注
0

文章
282

浏览量
9077

原文标题：云知声4篇论文入选国际顶会INTERSPEECH 2023

文章出处：【微信号：云知声，微信公众号：云知声】欢迎添加关注！文章转载请注明出处。

搜索历史

云知声AGI技术实力在2023年再次获得国际顶会认可

评论