UtterIdNet是一种新型的具有短语音片段识别能力的深度神经网络。该模型的灵感来自于两个成功且非常流行的深度神经网络架构:ResNet和DeepID3。据该模型背后的研究人员称,该模型采用了一种新的体系结构,通过在短语音片段中有效地增加信息的使用,使其适合于短片段说话人的识别。

他们在VoxCeleb数据集上对UtterIdNet进行了训练和测试,这是说话人识别的最新基准,并证明UtterIdNet在短片段上的表现优于最先进的技术。对不同分段持续时间的评估显示,短分段的性能一致且稳定,对于2秒、1秒、特别是微秒的分段,与之前的模型相比有显著改进。
随着智能虚拟助手的不断发展,它们对增强语音识别算法的要求也越来越高。与传统的先进模型相比,该模型显示了更好的结果。虽然在完整的语音片段中表现出了微弱的优势,这也是研究人员打算在未来的工作中进行研究的,但是UtterIdNet在增强短片段语音识别方面有很大的潜力。
-
语音识别
+关注
关注
39文章
1803浏览量
115553 -
深度学习
+关注
关注
73文章
5590浏览量
123899
原文标题:机器有了综合感官?新研究结合视觉和听觉进行情感预测 | 一周AI最火论文
文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
如何深度学习机器视觉的应用场景
语音播报芯片:让产品“开口说话”的秘密
为什么说电容是 “电子设备的第一声心跳”?开机瞬间的关键作用
当深度学习遇上嵌入式资源困境,特征空间如何破局?
思岚科技AI工业机器人开放底盘Phoebus P350全新发布:深度学习导航+300KG负载

吱一声就知道你是谁,深度学习识别短片段说话人
评论