跟大家分享一篇非常有意思也很有用的文章,是WACV 2021的录用论文Visual Speech Enhancement Without A Real Visual Stream。该文研究涉及计算机视觉与语音处理的交叉。
论文信息:

作者来自:印度 IIIT Hyderabad 和英国巴斯大学。
语音增强是语音处理的经典研究内容,以往的语音增强往往只将语音作为输入信号,这在现实世界的嘈杂环境中往往效果不佳。
近年来一种视觉辅助的语音增强技术取得了突破,通过跟踪视频中人物口型,可以较好的辅助过滤环境噪声。但其需要人物正脸在视频中,使用场景较为狭窄,毕竟大多数场景下,没有人物正脸,甚至没有视觉信息辅助。
该文学者指出,实际上根据语音进行唇语合成已经是一个较为成熟的技术,在现有框架下,可以直接使用语音信号本身合成人物口型的视频,进而辅助语音增强。
以下视频展示了最终语音增强的效果:
该文在多个数据集上取得了SOTA的结果,并且该技术可以用于任何语言的语音增强,但由于其中含有视觉生成部分,估计相比传统算法时间开销较大。作者已经开源了代码,感兴趣的朋友可以试一下。
原文标题:无中生有!没有视觉信号的视觉语音增强
文章出处:【微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。
责任编辑:haq
-
计算机
+关注
关注
19文章
7764浏览量
92689 -
机器视觉
+关注
关注
163文章
4729浏览量
125020
原文标题:无中生有!没有视觉信号的视觉语音增强
文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
使用代理式AI激活传统计算机视觉系统的三种方法
STM32计算机视觉开发套件:B-CAMS-IMX摄像头模块技术解析
【作品合集】赛昉科技VisionFive 2单板计算机开发板测评
语音识别---大家怎么看呢?
易控智驾荣获计算机视觉顶会CVPR 2025认可
工业计算机的重要性
自动化计算机经过加固后有什么好处?
自动化计算机的功能与用途
工业计算机与商用计算机的区别有哪些
利用边缘计算和工业计算机实现智能视频分析
计算机网络入门指南
Arm KleidiCV与OpenCV集成助力移动端计算机视觉性能优化
工业计算机的定义与重要性

计算机视觉与语音处理的交叉增强
评论