0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中国团队将计算机“词汇级唇读”精度提高到84.41%

独爱72H 来源:DeepTech 作者:DeepTech 2020-03-19 16:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(文章来源:DeepTech)

近年来,随着深度学习的迅速发展和广泛的潜在应用,基于计算机视觉的唇读技术受到越来越多的关注,它在实践中有许多重要的应用,如辅助语音识别、生物认证、帮助听障人士等。但是唇读任务的难度非常高,一个关键点是如何有效地获取唇部的运动信息,同时抵抗由姿势、光线变化引起的识别困难,讲话人的外貌、讲话速度变化等干扰因素,此外,如何把唇语图像特征与词汇文本进行精确关联或者区分同音词也挑战重重。

来自浙江工业大学、中国科学院智能信息处理重点实验室以及中国科学院计算技术研究所的研究人员针对这些问题,提出在局部特征层和全局序列层引入互信息约束,以增强唇部视觉特征与语音内容的关系。通过在一些主流数据集上测试,该团队提出的方法有望同时具有较好的鉴别能力和鲁棒性,以实现有效的唇读。

唇读领域有一个重要技术分支即词汇级唇读,对于该任务,需要用单个单词标签对每个输入视频进行注释,尽管在同一视频中也存在其他单词,如上图所示:(a)中的视频样本总共包括 29 帧,被注释为 “ABOUT”,但是单词“ABOUT” 的实际帧仅包括时间步骤 T=1219 的帧,这个间隔前后的帧分别对应于单词是 “JUST” 和“TEN”,而不是“ABOUT”。在基于唇语视觉的研究中,我们总是很难划分一个单词的确切边界。

这种特性要求一个好的唇读模型能够学习到同一个词标签下不同视频中反映的潜在但一致的特性,从而能够更多地关注有效的关键帧,而较少关注其他无关帧。除了不精确的词汇边界挑战外,对应于同一个词标签的视频样本总是具有极大的多样化和外观变化,如(b)所示,所有这些特性都要求唇读模型能够抵抗序列中的噪声,从而在不同的语音条件下捕获一致的潜在模式。

同时,由于唇部动作的有效面积有限,不同的词在说话过程中可能表现出相似的现象。特别是,同音词的存在,不同的词看起来可能相同或非常相似,增加了许多额外的困难,这些属性要求模型能够发现与帧级别中不同单词相关的细粒度差异,以便区分每个单词。为了解决上述问题,研究人员在不同层次上引入了互信息最大化(MIM),以帮助该模型学习鲁棒性和区分性表示,从而实现有效的唇读。

一方面,通过施加局部互信息最大化约束(LMIM)来约束每个时间步产生的特征,使其与语音内容之间具有很强的相关性,从而提高了模型发现精细的嘴唇动作的能力,以及发音相似的单词之间的细微差别,比如 “spend” 和“spending”;另一方面,引入了全局序列水平上的互信息最大化约束(GMIM),使得模型能够更加注意区分与语音内容相关的关键帧,而且在说话过程中出现的各种噪音也较少。

此外,GMIM 迫使模型学习不同样本中同一个词标签的潜在一致全局模式,同时对姿势、光照和其他不相关条件的变化具有鲁棒性;LMIM 可增强每个时间步与单词相关的细粒度运动,进一步增强不同单词之间的差异。通过将这两类约束结合起来,模型可以自动发现和区分目标词的有效重要帧,而忽略其他无关帧,进一步提高了识别的精准度。

最后,团队在两个大规模的单词级唇读数据集 LRW 和 LRW-1000 上与同行提出的主流唇语识别模型方法做了对比评估,这两个数据集的样本都是从各种不同的电视节目中收集的,并且演讲条件也有很大的变化,涵盖了包括灯光条件、分辨率、姿势、性别、化妆等在内的多种说话条件。

LRW 于 2016 年发布,包括 500 个单词的唇形样本,1000 多个演讲者,训练集中的实例数达到 488766 个,验证和测试集中的每个实例数为 25000 个;LRW-1000 数据集则是一个大规模的自然分布的字级基准数据集,总共有 1000 个中文词汇,总计大约 718018 个样本实例,持续时间约 57 小时,不过该数据集旨在覆盖不同语音模式和成像条件下的自然变化,以纳入实际应用中遇到的挑战。

在 LRW 数据集上,引入 LMIM 之后,在基线准确率基础上提高了约 1.19%,LMIM 有望为主要任务捕获更具区分性和细粒度的特征,同时引入 GMIM 则把精度提高到了 84.41%,主要得益于其对不同帧的不同关注。

不过,在 LRW-1000 数据集上因其语音条件变化较大,包括灯光条件、分辨率、演讲者年龄、姿势、性别、化妆等,此前行业最佳测试结果仅为 38.19%。在这个数据集上获得良好的识别效果仍是一个挑战,新的模型方式获得了 38.79% 的识别精度,略微优于现有的最新结果。

结果表明,该团队提出的方法在不使用额外数据或额外的预训练模型的情况下,在两个具有挑战性的数据集上相比其他唇语识别模型,呈现出一种新的实时性能状态。此外,团队表示,该方法还可以很容易地修改为其他任务的模型,从而为其他任务的研究提供一些有意义的见解。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7841

    浏览量

    93464
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124635
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    计算机专业408考研科目

    408 跨考零基础:三个月入门精通路线 站在2026年的节点回望,计算机考研408(计算机学科专业基础综合)早已超越了单纯的知识点考核,它更像是一场对逻辑思维与系统观的深度洗礼。对于跨考且零基
    发表于 04-11 16:44

    虹科 owa5X 无线嵌入式计算机 工业边缘计算终端与车载网关优选

    从工业边缘计算终端车载高性能边缘计算网关,从工业嵌入式计算机
    的头像 发表于 02-10 17:08 245次阅读
    虹科 owa5X 无线嵌入式<b class='flag-5'>计算机</b> 工业<b class='flag-5'>级</b>边缘<b class='flag-5'>计算</b>终端与车载网关优选

    上海计算机视觉企业行学术沙龙走进西井科技

    12月5日,由中国图象图形学学会青年工作委员会(下简称“青工委”)、上海市计算机学会计算机视觉专委会(下简称“专委会”)联合主办,上海西井科技股份有限公司、江苏路街道商会承办的“上海计算机
    的头像 发表于 12-16 15:39 740次阅读

    深圳中国首个光量子计算机制造工厂落成

    据央视新闻报道;在24日;深圳南山区国内首个光量子计算机制造工厂正式进入小规模生产阶段,据悉该工厂是隶属于玻色量子;总面积约5000平方米,集研发、制造、测试于一体,用于实现光量子计算机的工程化、标准化和规模化生产。第一台计算
    的头像 发表于 11-25 17:17 2243次阅读

    工控机与普通计算机的核心差异解析

    在工业自动化和智能制造领域,计算机设备作为核心控制单元,其选择直接影响整个系统的稳定性与可靠性。工控机与普通计算机虽同属计算设备,但其设计目标、性能侧重和应用场景存在根本性差异。准确理解这些差异,是进行正确设备选型的基础。
    的头像 发表于 11-25 14:45 2002次阅读
    工控机与普通<b class='flag-5'>计算机</b>的核心差异解析

    龙芯中科斩获2025中国工业计算机大会两项殊荣

    近日,2025中国工业计算机大会(CCF ICCC 2025)在云南昆明召开。本次大会由中国计算机学会主办,中国计算机学会工业控制计算机专委
    的头像 发表于 11-10 17:35 799次阅读

    2025中国计算机大会DPU技术论坛成功举办

    近日,备受瞩目的第22届中国计算机大会(CNCC2025)在哈尔滨开幕。本届大会注册人数突破1.2万人,汇聚了来自全球计算机领域的顶尖学者、产业领袖、青年学子及国际组织代表。大会以“数智赋能、无限可能”为主题,旨在深度探讨数字智能技术的前沿进展与未来趋势,为推动
    的头像 发表于 11-02 09:29 897次阅读

    摩尔线程亮相2025中国计算机大会

    10月23日至25日,第二十二届中国计算机大会(CNCC2025)在哈尔滨成功举办。大会以“数智赋能,无限可能”为主题,汇聚了来自全球计算机领域的顶尖学者、产业领袖、青年学子及国际组织代表,共同探讨
    的头像 发表于 10-27 17:46 1233次阅读

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品服务的一站式解决方案,助力轻松部署桌面 AI 计算机
    的头像 发表于 09-23 17:20 1543次阅读
    NVIDIA DGX Spark桌面AI<b class='flag-5'>计算机</b>开启预订

    【作品合集】赛昉科技VisionFive 2单板计算机开发板测评

    赛昉科技VisionFive 2单板计算机开发板测评作品合集 产品介绍: 昉·星光 2是全球首款集成了3D GPU的高性能量产RISC-V单板计算机,搭载昉·惊鸿-7110(型号:JH-7110
    发表于 09-04 09:08

    工业计算机的重要性

    工业计算机对某些行业至关重要。我们将在下面详细解释这些行业中的工业计算机应用。1.制造与工业自动化工业计算机非常适合制造工厂,特别是那些想要自动化装配过程的工厂。在这样的环境中,工业
    的头像 发表于 07-28 16:07 727次阅读
    工业<b class='flag-5'>计算机</b>的重要性

    自动化计算机经过加固后有什么好处?

    -40℃的寒冷环境中运行⁰C和温度达到85℃的灼热环境,这要归功于此类系统中使用的宽温度组件和被动冷却技术。2.抗冲击和振动自动化计算机是工业计算机,其设计和制造可
    的头像 发表于 07-21 16:44 757次阅读
    自动化<b class='flag-5'>计算机</b>经过加固后有什么好处?

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化在汽车制造中体现得最为明显,其中许多
    的头像 发表于 07-15 16:32 902次阅读
    自动化<b class='flag-5'>计算机</b>的功能与用途

    工业计算机与商用计算机的区别有哪些

    能够高效稳定地运行,减少停机时间,确保生产效率。那么工业计算机与普通商用计算机有哪些区别呢?一、组件选择与制造质量:工业组件:使用更宽温度范围(如-20°C60
    的头像 发表于 07-10 16:36 916次阅读
    工业<b class='flag-5'>计算机</b>与商用<b class='flag-5'>计算机</b>的区别有哪些

    工业计算机如何设计用于冲击和振动

    工业计算机是为挑战消费系统耐用性的环境而构建的。在制造业、运输业、国防和采矿业等领域,计算机面临着持续的冲击、振动和其他物理压力。设计这些系统以在这种条件下保持可靠需要卓越的工程和创新技术。本文
    的头像 发表于 05-19 15:27 621次阅读
    工业<b class='flag-5'>计算机</b>如何设计用于冲击和振动