侵权投诉

一款AI模型Foley Music,它可以根据演奏手势完美还原乐曲原声!

传感器技术 2020-08-14 14:58 次阅读

不会乐器也可以玩的很嗨   ”

会玩乐器的人在生活中简直自带光环!

不过,学会一门乐器也真的很难,多少人陷入过从入门到放弃的死循环。

但是,不会玩乐器,就真的不能演奏出好听的音乐了吗?

最近,麻省理工(MIT)联合沃森人工智能实验室(MIT-IBM Watson AI Lab)共同开发出了一款AI模型Foley Music,它可以根据演奏手势完美还原乐曲原声!

而且还是不分乐器的那种,小提琴、钢琴、尤克里里、吉他,统统都可以。

只要拿起乐器,就是一场专业演奏会!如果喜欢不同音调,还可以对音乐风格进行编辑,A调、F调、G调均可。

这项名为《Foley Music:Learning to Generate Music from Videos》的技术论文已被ECCV 2020收录。

接下来,我们看看AI模型是如何还原音乐的?

1

会玩多种乐器的Foley Music

如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样,为乐器演奏者配乐,同样需要知道其手势、动作以及所用乐器。

如果给定一段演奏视频,AI会自动锁定目标对象的身体关键点(Body Keypoints),以及演奏的乐器和声音。

身体关键点:由AI系统中的视觉感知模块(Visual Perception Model)来完成。它会通过身体姿势和手势的两项指标来反馈。一般身体会提取25个关2D点,手指提起21个2D点。

乐器声音提取:采用音频表征模块(Audio Representation Model),该模块研究人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征形式。它是Foley Music区别于其他模型的关键。

研究人员介绍,对于一个6秒中的演奏视频,通常会生成大约500个MIDI事件,这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成信息提取和处理后,接下来,视-听模块(Visual-Audio Model)将整合所有信息并转化,生成最终相匹配的音乐。

我们先来看一下它完整架构图:主要由视觉编码,MIDI解码和MIDI波形图输出三个部分构成。

视觉编码:将视觉信息进行编码化处理,并传递给转换器MIDI解码器。从视频帧中提取关键坐标点,使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI解码器:通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它可以根据人体特征准确的预测MIDI事件的序列。

MIDI输出:使用标准音频合成器将MIDI事件转换为最终的波形。

2

实验结果

研究人员证实Foley Music远优于现有其他模型。在对比试验中,他们采用了三种数据集对Foley Music进行了训练,并选择了9中乐器,与其它GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。

其中,数据集分别为AtinPiano、MUSIC及URMP,涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。乐器则为风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。以下为定量评估结果:

可见,Foley Music模型在贝斯(Bass)乐器演奏的预测性能最高达到了72%,而其他模型最高仅为8%。

另外,从以下四个指标来看,结果更为突出:

正确性:生成的歌曲与视频内容之间的相关性。

噪音:音乐噪音最小。

同步性:歌曲在时间上与视频内容最一致。

黄色为Foley Music模型,它在各项指标上的性能表现远远超过了其他模型,在正确性、噪音和同步性三项指标上最高均超过了0.6,其他最高不足0.4,且9种乐器均是如此。

另外,研究人员还发现,与其他基准系统相比,MIDI事件有助于改善声音质量,语义对齐和时间同步。

说明

GAN模型:它以人体特征为输入,通过鉴别其判定其姿态特征所产生的频谱图是真或是假,经过反复训练后,通过傅立叶逆变换将频谱图转换为音频波形。

SampleRNN:是无条件的端到端的神经音频生成模型,它相较于WaveNet结构更简单,在样本级层面生成语音要更快。

WaveNet:是谷歌Deepmind推出一款语音生成模型,在text-to-speech和语音生成方面表现很好。

另外,该模型的优势还在于它的可扩展性。MIDI表示是完全可解释和透明的,因此可以对预测的MIDI序列进行编辑,以生成AGF调不同风格音乐。 如果使用波形或者频谱图作为音频表示形式的模型,这个功能是不可实现的。

最后研究人员在论文中表明,此项研究通过人体关键点和MIDI表示很好地建立视觉和音乐信号之间的相关性,实现了音乐风格的可拓展性。为当前研究视频和音乐联系拓展出了一种更好的研究路径。

原文标题:只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

中科院院士张钹在演讲中探讨了校企融合与共同培养创新型和应用型AI人才培养

近日,中国科学院院士、清华大学人工智能研究院院长张钹在演讲中探讨了校企融合与共同培养创新型和应用型A....
的头像 机器人峰会 发表于 09-24 18:15 103次 阅读
中科院院士张钹在演讲中探讨了校企融合与共同培养创新型和应用型AI人才培养

AI创新人才怎么来培养?

编者按 近日,中国科学院院士、清华大学人工智能研究院院长张钹在演讲中探讨了校企融合与共同培养创新型和....
的头像 机器人峰会 发表于 09-24 18:10 142次 阅读
AI创新人才怎么来培养?

华为云发布全生命周期知识计算解决方案,实现AI与行业知识高效结合

9月24日,在第五届HUAWEI CONNECT,华为云发布基于AI开发平台ModelArts打造的....
的头像 如意 发表于 09-24 17:49 110次 阅读
华为云发布全生命周期知识计算解决方案,实现AI与行业知识高效结合

智能体的不断进步,智能化升级将改变着千行百业

自工业革命以来,似乎每一个时代的发展,都离不开一种特定的底座。这个底座需要将技术创新融合成产业基础,....
的头像 脑极体 发表于 09-24 17:47 170次 阅读
智能体的不断进步,智能化升级将改变着千行百业

AI真的会拥有个人意识进而征服世界吗?

在漫威美剧《神盾局特工》中,一名人工智能机器人意外学会了超越人类的科学知识,原本应该救人的机器人却意....
的头像 机器人峰会 发表于 09-24 17:33 76次 阅读
AI真的会拥有个人意识进而征服世界吗?

丁汉院士:切忌盲目追求机器人“高大上”的炫酷

编 者 按 近日,中国科学院院士、华中科技大学学术委员会主任丁汉在《智能制造技术中的数字化、机器人、....
的头像 机器人峰会 发表于 09-24 17:26 100次 阅读
丁汉院士:切忌盲目追求机器人“高大上”的炫酷

小芯片将来半导体科技发展的重要项目

不同用途的半导体元件,能够使用的最先进半导体制程不尽相同。举例而言,记忆体目前最先进制程为14纳米左....
的头像 我快闭嘴 发表于 09-24 17:22 183次 阅读
小芯片将来半导体科技发展的重要项目

探讨全球首个数据流AI芯片的背后

“为了让用户获得更高的性能,除了持续提高峰值性能以外,芯片利用率的提升会是一个更好的方案,因为这会在....
的头像 我快闭嘴 发表于 09-24 17:10 190次 阅读
探讨全球首个数据流AI芯片的背后

张建伟:人工智能和物联网的汇聚已经成为技术创新的主要驱动力

编 者 按 近日,德国汉堡科学院院士、德国汉堡大学信息学科学系教授、多模态技术研究所所长张建伟发表演....
的头像 机器人峰会 发表于 09-24 17:03 152次 阅读
张建伟:人工智能和物联网的汇聚已经成为技术创新的主要驱动力

物联网的未来是人工智能?

因为人工智能技术——尤其是机器学习——可以帮助识别模式和异常现象,并基于大量数据进行预测,它们被证明....
的头像 我快闭嘴 发表于 09-24 17:00 146次 阅读
物联网的未来是人工智能?

马云:要理解、参与和拥抱数字时代,需要改革教育

9月23日,马云在联合国大会上表示,要理解、参与和拥抱数字时代,需要改革教育。他指出:“今天的教育模....
的头像 如意 发表于 09-24 16:55 110次 阅读
马云:要理解、参与和拥抱数字时代,需要改革教育

2020创交会开幕集中展示一批人工智能、汽车科技、新一代信息技术成果

9月23日,由中国科协、国家发展改革委、中国科学院、中国工程院、九三学社中央和广东省人民政府、广州市....
的头像 科技观察者 发表于 09-24 16:52 166次 阅读
2020创交会开幕集中展示一批人工智能、汽车科技、新一代信息技术成果

浅析智能升级带来的新机遇与挑战

“ 5机”协同让这些挑战得以迎刃而解。侯金龙表示:“产业界正处于从政企上云向政企智能升级、从单场景A....
的头像 我快闭嘴 发表于 09-24 16:26 130次 阅读
浅析智能升级带来的新机遇与挑战

超低功耗人工智能芯片的技术路径剖析

而随着人工智能技术的进一步演进,我们看到它正在进一步和物联网结合,超低功耗人工智能正是这个人工智能继....
的头像 我快闭嘴 发表于 09-24 16:21 188次 阅读
超低功耗人工智能芯片的技术路径剖析

华为4个领域为代表的阶段性新的重点开始浮出水面

联接:各行业数字化进入生产系统,对联接的需求也发生了巨大的变化。比如矿山、港口、工厂,都需要更高的带....
的头像 lhl545545 发表于 09-24 16:18 132次 阅读
华为4个领域为代表的阶段性新的重点开始浮出水面

中国电信与江苏智能交通及智能驾驶研究院完成车路协同云控平台签约

“实际上运营商本身拥有海量数据,中国电信到现在为止,综合下来有5个多亿的用户。为了服务好客户,做好经....
的头像 lhl545545 发表于 09-24 16:02 228次 阅读
中国电信与江苏智能交通及智能驾驶研究院完成车路协同云控平台签约

HMS Core 即将对全球提供开放软硬件和云侧核心服务能力

其中,HMS Core 提供对外开放的软硬件和云侧核心服务能力,是华为HMS开放能力的合集。这些能力....
的头像 lhl545545 发表于 09-24 15:52 80次 阅读
HMS Core 即将对全球提供开放软硬件和云侧核心服务能力

美国厂商收购以色列芯片企业几乎成为“标配”?

英特尔是PC和服务器CPU霸主,英伟达则是GPU和服务器AI算力霸主,近些年,这两家公司的业务和新闻....
的头像 我快闭嘴 发表于 09-24 15:50 382次 阅读
美国厂商收购以色列芯片企业几乎成为“标配”?

中国网络安全市场规模接近500亿元,行业集中度稳步提升

过去,网络安全得不到用户的足够重视,行业发展缓慢。近几年,一方面,工信部和发改委对网络安全行业的政策....
的头像 牵手一起梦 发表于 09-24 15:45 88次 阅读
中国网络安全市场规模接近500亿元,行业集中度稳步提升

京东数科为数字化浪潮提供了多层次全方位数字化解决方案

细数这些公司的身家背景,“to B”服务是主角,覆盖了新一代信息技术、高端装备、新材料、新能源、节能....
的头像 lhl545545 发表于 09-24 15:21 293次 阅读
京东数科为数字化浪潮提供了多层次全方位数字化解决方案

助力加快新型消费推广普及,物联网和人工智能将迎来机遇

近年来,全球科技发展不断加速,新一代信息与通信技术持续走向落地,带动了一大批新业态、新产业的崛起。在....
的头像 如意 发表于 09-24 15:21 211次 阅读
助力加快新型消费推广普及,物联网和人工智能将迎来机遇

人工智能关键技术的发展趋势

新冠疫情影响了商业活动的方方面面,但它并没有减少人工智能对我们生活的影响。事实上,自学算法和智能机器....
发表于 09-24 15:09 163次 阅读
人工智能关键技术的发展趋势

智算中心加速落地,计算力就是生产力

张东表示,浪潮在智算、智联、智用三个方面都有布局和深耕。在智算方面,智算中心将成为智慧时代经济社会运....
的头像 牵手一起梦 发表于 09-24 15:07 63次 阅读
智算中心加速落地,计算力就是生产力

我国发展人工智能面临的挑战及建议

人工智能(AI)的发展已达60余年,涉及范围非常广泛,拥有比一般科技领域更复杂、更丰富的内涵。现阶段....
发表于 09-24 15:05 245次 阅读
我国发展人工智能面临的挑战及建议

当人工智能不再按照自身规律发展,将走向错误的道路

我的这篇文章不是第一篇(也不会是最后一篇)讨论人工智能界如何按自身规律发展的文章。正如不久前汉娜·克....
的头像 如意 发表于 09-24 14:59 135次 阅读
当人工智能不再按照自身规律发展,将走向错误的道路

“5G+天翼云+AI”的融合发展将为新基建夯实底座

基于上述研判,中国电信提出“5G+天翼云+AI”三生万物的概念和发展战略,在自主掌控关键技术的同时,....
的头像 我快闭嘴 发表于 09-24 14:53 136次 阅读
“5G+天翼云+AI”的融合发展将为新基建夯实底座

工业互联网为产业资源整合带来新机遇

对比传统基建,新基建除了国家的战略规划,也因多了一个“新”字而与众不同。那么新基建和传统基建有怎样的....
的头像 我快闭嘴 发表于 09-24 14:53 222次 阅读
工业互联网为产业资源整合带来新机遇

华为云完善混合云的解决方案并在客户数据中心提供10大类70+云服务

华为云业务混合云领域总裁吕阳明分享了“让云无处不在,共建全场景智慧”的主题演讲,他表示:“智能体需要....
的头像 lhl545545 发表于 09-24 14:41 452次 阅读
华为云完善混合云的解决方案并在客户数据中心提供10大类70+云服务

华新不锈钢基于华为云知识计算解决方案,赋能企业打造知识计算平台

“AI作为智能体参考架构的核心,在帮助政企、行业构建全场景智慧上将发挥关键作用。我们总结600多个项....
的头像 lhl545545 发表于 09-24 14:36 83次 阅读
华新不锈钢基于华为云知识计算解决方案,赋能企业打造知识计算平台

AI越来越推广普及,我们需注意机器模型中不断涌现的人类偏见

随着人工智能在企业和社会的应用变得越来越普遍,企业需要注意机器模型中不断涌现的人类偏见。企业可以利用....
的头像 如意 发表于 09-24 14:35 96次 阅读
AI越来越推广普及,我们需注意机器模型中不断涌现的人类偏见

华为云为深圳市气象局推出基于智能网格的新一代超大城市精准预报系统

深圳市政务服务数据管理局副局长王耀文表示:“智慧城市是未来城市发展的新潮流,是推动经济高质量发展的新....
的头像 lhl545545 发表于 09-24 14:32 158次 阅读
华为云为深圳市气象局推出基于智能网格的新一代超大城市精准预报系统

错过云计算将错过什么?

他强调,欧洲不应在数据安全领域依赖“任何欧洲之外的力量”,并且呼吁欧盟国家加大在云计算、AI、5G等....
的头像 我快闭嘴 发表于 09-24 14:30 147次 阅读
错过云计算将错过什么?

25个具有工业互联网典型代表性的案例

8月31日下午,在2020工业互联网大会工业互联网成果发布论坛上,工业互联网产业联盟(简称AII/联....
的头像 工业互联网产业联盟 发表于 09-24 14:26 88次 阅读
25个具有工业互联网典型代表性的案例

光模块DSP内部的光层测试与OSNR测试的区别

而对于城域大容量数据连接或着长距离传输接口,也就是通常所说的线路侧接口,传统的做法是各个设备厂家自行....
的头像 lhl545545 发表于 09-24 14:23 102次 阅读
光模块DSP内部的光层测试与OSNR测试的区别

亨通以新一代安检系统将红外测温设备助力城市“智慧安检”

在主通道及VIP入口处,亨通光电最新推出的高科技智能安检系统吸引了来往嘉宾的目光,这套由亨通太赫兹自....
的头像 lhl545545 发表于 09-24 14:18 76次 阅读
亨通以新一代安检系统将红外测温设备助力城市“智慧安检”

贸泽电子与iWave Systems签订分销协议 在全球范围内分销iWave系统级模块

 iWave的Xilinx ZU19/17/11 Zynq UltraScale+ MPSoC So....
的头像 西西 发表于 09-24 14:12 161次 阅读
贸泽电子与iWave Systems签订分销协议 在全球范围内分销iWave系统级模块

ColorOS 11再次升级“量子动画引擎2.0”?

ColorOS 一直致力于与全球开发者与厂商合作,促进软硬件生态融合。去年OPPO 对外发布了五大系....
的头像 lhl545545 发表于 09-24 14:10 122次 阅读
ColorOS 11再次升级“量子动画引擎2.0”?

基于百度的知识图谱能力和搜索能力,度晓晓计划推出“时光旅行”功能?

百度集团执行副总裁沈抖表示:“度晓晓是一款养成类虚拟助手App,建立在小度助手的能力基础上,具备视觉....
的头像 lhl545545 发表于 09-24 14:06 150次 阅读
基于百度的知识图谱能力和搜索能力,度晓晓计划推出“时光旅行”功能?

华为鹏城智能体正式发布,创建数字经济样板城市

9月24日, HUAWEI CONNECT 2020进入第二天,华为云与计算BG总裁侯金龙与深圳政务....
的头像 牵手一起梦 发表于 09-24 13:56 206次 阅读
华为鹏城智能体正式发布,创建数字经济样板城市

京东物流提供完善的供应链体系,让电商的快速应急“不卡壳”

“有了共配中心后,各家快递企业整合成一家合资公司,共享场地、信息、人力,统一安排订单,每个快递员需要....
的头像 lhl545545 发表于 09-24 13:52 695次 阅读
京东物流提供完善的供应链体系,让电商的快速应急“不卡壳”

中国首款车规级 AI 芯片前装量产背后的故事

5 年前,地平线人满腔热 AI,向 New Horizon 进发;5 年来,他们始终仰望星空,脚踏实....
的头像 地平线HorizonRobotics 发表于 09-24 13:50 133次 阅读
中国首款车规级 AI 芯片前装量产背后的故事

使用无人机和AI技术助理果农完成最大化作物收成

  Outfield Technologies是一家位于剑桥的农业技术初创公司,使用无人机和人工智能....
发表于 09-24 13:49 47次 阅读
使用无人机和AI技术助理果农完成最大化作物收成

人工智能专业该如何建设?实验环境如何建立?人工智能实验如何操作?

AI技术当然不是凭空而来,可预见的AI技术人才现在是多么炙手可热!工信部公布的数据中,中国AI人才的缺口已经超过500万。人...
发表于 09-11 11:32 0次 阅读
人工智能专业该如何建设?实验环境如何建立?人工智能实验如何操作?

【每日资料精选】赛普拉斯微控制器&解决方案资料合集!!!

1.赛普拉斯Arm Cortex 32位微控制器(MCU)PSoC®6介绍! 物联网正在爆炸式增长,预计到2020年将有300亿台设备投入使用...
发表于 09-01 20:09 637次 阅读
【每日资料精选】赛普拉斯微控制器&解决方案资料合集!!!

赛普拉斯AURIX™系列微控制器资料手册!

AURIX™微控制器在一个硅芯片中结合了三项强大的技术,为嵌入式应用实现了新的功率,速度和经济性水平。 AURIX™微控...
发表于 09-01 17:45 202次 阅读
赛普拉斯AURIX™系列微控制器资料手册!

ASIC特殊应用集成电路(ApplicaTIon-Specific Integrated Circuit)

目前,许多公司正在积极开发能实现移动端人工智能的硬件。对于移动端人工智能硬件的实现方法,有两大流派,即 FPGA 派和 AS...
发表于 08-28 15:51 1111次 阅读
ASIC特殊应用集成电路(ApplicaTIon-Specific Integrated Circuit)

未来的AI 深挖谷歌 DeepMind 和它背后的技术

人工智能(AI)的子集已经成倍增长,并完成了只有人类才能完成的各种任务。像机器学习这样的技术可以执行管理任务、人脸识别、下...
发表于 08-26 12:04 202次 阅读
未来的AI 深挖谷歌 DeepMind 和它背后的技术

新型汽车半导体平台助力未来互联汽车发展

随着汽车正迅速朝自动化的方向发展,汽车制造商及配件供应商也在设计新式集成电路(IC)。格芯CMOS业务部高级副总裁Gregg...
发表于 08-20 06:04 101次 阅读
新型汽车半导体平台助力未来互联汽车发展

使用AI进行视觉检测的知识盘点

    什么是深度学习?它是什么因素?     检验中的深度学习     深度学习技术使用包含...
发表于 08-17 15:12 202次 阅读
使用AI进行视觉检测的知识盘点

2020 STM32全国研讨会报名开启,带来基于STM32的最新技术创新

⊙活动背景 : 2020年STM32全国巡回研讨会即将拉开帷幕。自2007年以来,STM32全国研讨会已成为工程师洞悉嵌入式领域最新产...
发表于 08-07 12:05 385次 阅读
2020 STM32全国研讨会报名开启,带来基于STM32的最新技术创新

自动驾驶车的人车交互接口设计方案

随着高精度传感、自动化、人工智能等技术的飞速发展,预计到2021年市场上会出现第一批完全没有方向盘等驾驶控制器的自动驾驶量产...
发表于 07-30 07:57 102次 阅读
自动驾驶车的人车交互接口设计方案

只要6秒 AI人工智能只要听声音就能描绘你的长相

  你相信吗?AI人工智慧最近已经进化到,只要花6秒的时间,听到你的声音除可以分辨出你的性别、年纪与种族外,甚至可以描绘出...
发表于 07-29 15:49 555次 阅读
只要6秒 AI人工智能只要听声音就能描绘你的长相