0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google研究人员发现黑科技 只听你想听的声音

454398 来源:网络整理 作者: 工程师1 2018-04-18 00:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Google 的研究人员创建了一个视听模型,可以通过算法将视频中的多个声音分离,得到一个清晰的单个语音。

一位二次元朋友说他有一种能力,就是在 B 站开弹幕看视频时,想看视频就看视频,想看弹幕就看弹幕,两者可以自动分离,不会互相干扰。类似的,人类在听觉上也有一种选择能力,就是人在集中注意力听某个声音时,可以自动忽略其他声音或噪音,感觉像是把要听的声音放大了一样,这种现象叫做鸡尾酒会效应。

这种能力对我们来说好像很自然,但对于计算机可是个不小的挑战。最近,Google 的研究人员创建了一个视听模型,可以通过算法将视频中的多个声音分离,得到一个清晰的单个语音。简单来说,你可以选择只听视频中某个人讲话的声音,而不用担心被干扰。

结合视觉听觉信号,识别并分离音轨

利用这种技术制作的视频可以将特定人物的声音增强,把其他无关的声音去掉。在普通的单音轨视频中,用户可以点击自己想关注的人物,或者算法会结合上下段内容来自动选择突出谁的声音。这项技术可以用于增强视频中的语音,提高视听效果。

这项技术的原理是结合视频中的听觉和视觉信号,以此来识别并分离语音。就像识别唇语的原理一样,一个人说话时发出的声音和他嘴部的运动存在某种关联,所以可以利用这一点,来辨别某段声音是谁发出的。在视觉信号的帮助下,即使是在多种声音混杂的环境中,单个声音的特征也变得更明显,更重要的是,你还可以在听到清晰声音的同时看到人嘴部的运动,更容易接收并理解信息。

研究人员用 10 万个高质量的 YouTube 视频为样本,从视频中提取清晰的演讲片段,没有背景音乐、没有观众鼓掌、没有噪音,并且视频中只有一个说话的人。他们共提取出 2000 个小时的训练数据,用这些干净的视频来合成“鸡尾酒会”的效果。这样就可以训练一个卷积神经网络模型,将合成的视频分离出多个单独的音轨,也就是每个人单独的声音。将每一帧中嘴部运动的视觉信息提取出来,然后找到声谱图中对应的部分。这样就可以训练神经网络,从声音混杂的视频中,根据人的嘴部运动来提取对应的声音碎片,最后输出成具有单独声音轨道的视频,每一个人的声音都可以进行单独播放。

可以提高语音识别能力

这个黑科技在语音识别中尤其有用,比如 YouTube 自己的自动字幕,如果视频中有多种声音混合,字幕就很难准确显示,而如果这几种声音能够单独分离播放,对应的字幕也就更准确,用户也更容易理解。再往远处想,这项技术可以运用到 Google Glass 这样的智能眼镜中,即使是在纷杂世界,你也可以只关注想关注的人,只听 Ta 的声音。除此之外,带视频能力的智能音箱可能是未来的大趋势,有了语音分离能力,语音识别的能力也会更精准、更强大。

这种强大的能力也可能带来隐私问题,比如间谍电影中经常见到的天眼系统,如果再搭配语音分离的能力,岂不是可以做到视听上的全能?不过想达到那样的效果,识别能力就要很精准了。在此之前它的应用可能只是 Google 自己的产品,比如增强视频智能音箱的语音识别能力,还有让 YouTube 的自动字幕更智能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1819

    浏览量

    60693
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112181
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    室外人员轨迹追踪科技!

    在智能安防、智慧照明等领域,“误报”一直是困扰用户和开发者的顽疾。传统的红外传感器在室外高温环境下容易失效,普通雷达又难以区分人员与随风摇摆的草木。如何实现精准的室外人员检测与轨迹追踪?深圳市海凌科
    的头像 发表于 05-19 15:34 197次阅读
    室外<b class='flag-5'>人员</b>轨迹追踪<b class='flag-5'>黑</b>科技!

    爱立信研究人员斩获IEEE无线通信领域权威奖项

    三位爱立信研究人员因在推动4G和5G无线通信发展方面的贡献,荣获了享有盛誉的电气电子工程师学会(IEEE)的表彰,高级专家Erik Dahlman、Stefan Parkvall和首席研究
    的头像 发表于 05-16 09:37 392次阅读

    解读大型语言模型的偏见

    在一项新的研究中,研究人员发现了LLM中某种偏见的根本原因,为更准确、更可靠的AI系统铺平了道路。研究表明,大型语言模型(LLM)往往倾向于过分强调文档或对话开头和结尾的信息,而相对忽
    的头像 发表于 04-15 14:44 818次阅读
    解读大型语言模型的偏见

    英矽智能发布 PandaClaw:以智能体AI赋能生物学家开展治疗性发现

    平台PandaOmics中的变革性新功能。PandaClaw将AI智能体与生物学及生物信息学工作流程相结合,使研究人员能够借助直观、智能的自然语言界面,实现自动化实时分析,从而高效便捷的完成靶点发现、适应症探索、疾病假说等复杂的生物学任务,从而加速转化医学
    的头像 发表于 03-23 11:51 185次阅读
    英矽智能发布 PandaClaw:以智能体AI赋能生物学家开展治疗性<b class='flag-5'>发现</b>

    BlueMatrix与Perplexity达成合作,为机构研究带来AI驱动的发现能力

    机构投资者提供AI赋能的研究发现服务。 此次合作将授权经纪商研究成果带给Perplexity Enterprise用户,让买方专业人士既能查询其订阅的研究内容,又能利用Perplex
    的头像 发表于 01-14 16:23 652次阅读

    功率放大器使用人,速来报到!我们想听您的心声!

    ,获得了国内外一众工程师、科研人员的青睐。在新的一年,为了让身处各研究领域的您用上更好的功放产品,亲爱的Aigtek功率放大器使用人,您的声音,对我们至关重要!亲爱的客
    的头像 发表于 12-18 18:31 419次阅读
    功率放大器使用人,速来报到!我们<b class='flag-5'>想听</b>您的心声!

    发现带来光量子计算的进步

    多光子干涉网络 由维也纳大学的菲利普-瓦尔特(Philip Walther)领导的国际研究人员合作,在量子技术领域取得了重大突破,利用一种新型资源节约型平台成功演示了多个单光子之间的量子干涉。这项
    的头像 发表于 12-01 07:38 386次阅读
    新<b class='flag-5'>发现</b>带来光量子计算的进步

    研究人员复兴针孔相机技术以推动下一代红外成像发展

    研究人员运用具有数百年历史的针孔成像原理,开发出一种无需透镜的高性能中红外成像系统。这种新型相机能够在大范围距离内和弱光条件下拍摄极其清晰的照片,使其在传统相机难以应对的场景中发挥重要作用。 研究
    的头像 发表于 11-17 07:40 411次阅读

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保护科学

    确认未来动物因环境变化而发生的变化。例如,通过检测不同栖息地中发声物种的发声情况,研究人员可以调查种群数量,并绘制其丰度、栖息地利用和生物多样性的趋势。这些数据集对于建立基线至关重要,这样才能量化并
    发表于 10-27 09:18

    如何进行声音定位?

    文章主要介绍了如何利用一种简单的TDOA算法进行声音点位,并使用数据采集卡进行声音定位的实验。
    的头像 发表于 09-23 15:47 2276次阅读
    如何进行<b class='flag-5'>声音</b>定位?

    谷歌查找我的设备配件(Google Find My Device Accessory)详解和应用

    谷歌查找我的设备配件(Google Find My Device Accessory)介绍 谷歌查找我的设备配件是与谷歌 “查找我的设备” 应用程序配合使用的配件,旨在帮助用户更方便地追踪和定位个人
    发表于 08-31 21:10

    声源定位模块-AR1105# 声源定位# 声音定位

    声音降噪
    深圳市声讯电子有限公司
    发布于 :2025年08月01日 16:01:09

    无刷直流电机双闭环串级控制系统仿真研究

    以来伴随着永磁材料技术、计算机及控制技术等支撑技术的快速发展及微电机制造工艺水平的不断提高,永磁无刷直流电动机在高性能中、小伺服驱动领域获得广泛应用并日趋占据主导地位吗。一直以来,研究人员都比较关注利用
    发表于 07-07 18:36

    NVIDIA助力研究人员开发用于搜救任务的无人地面车辆

    NVIDIA 和 Bridge to Türkiye Fund 通过提供学术资助,在土耳其全国推动针对灾害响应的创新研究及工程教育的发展。
    的头像 发表于 07-04 15:01 1226次阅读

    Google Fast Pair服务简介

    Google Fast Pair 是一项利用低功耗蓝牙(Bluetooth LE)技术,实现设备间快速安全配对及提供多种服务的协议。其主要功能包括: 设备处于配对模式时,显示半页通知,便于用户进行
    发表于 06-29 19:28