0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一款AI模型Foley Music,它可以根据演奏手势完美还原乐曲原声!

传感器技术 来源:雷锋网 2020-08-14 14:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

不会乐器也可以玩的很嗨 ”

会玩乐器的人在生活中简直自带光环!

不过,学会一门乐器也真的很难,多少人陷入过从入门到放弃的死循环。

但是,不会玩乐器,就真的不能演奏出好听的音乐了吗?

最近,麻省理工(MIT)联合沃森人工智能实验室(MIT-IBM Watson AI Lab)共同开发出了一款AI模型Foley Music,它可以根据演奏手势完美还原乐曲原声!

而且还是不分乐器的那种,小提琴、钢琴、尤克里里、吉他,统统都可以。

只要拿起乐器,就是一场专业演奏会!如果喜欢不同音调,还可以对音乐风格进行编辑,A调、F调、G调均可。

这项名为《Foley Music:Learning to Generate Music from Videos》的技术论文已被ECCV 2020收录。

接下来,我们看看AI模型是如何还原音乐的?

1

会玩多种乐器的Foley Music

如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样,为乐器演奏者配乐,同样需要知道其手势、动作以及所用乐器。

如果给定一段演奏视频,AI会自动锁定目标对象的身体关键点(Body Keypoints),以及演奏的乐器和声音。

身体关键点:由AI系统中的视觉感知模块(Visual Perception Model)来完成。它会通过身体姿势和手势的两项指标来反馈。一般身体会提取25个关2D点,手指提起21个2D点。

乐器声音提取:采用音频表征模块(Audio Representation Model),该模块研究人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征形式。它是Foley Music区别于其他模型的关键。

研究人员介绍,对于一个6秒中的演奏视频,通常会生成大约500个MIDI事件,这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成信息提取和处理后,接下来,视-听模块(Visual-Audio Model)将整合所有信息并转化,生成最终相匹配的音乐。

我们先来看一下它完整架构图:主要由视觉编码,MIDI解码和MIDI波形图输出三个部分构成。

视觉编码:将视觉信息进行编码化处理,并传递给转换器MIDI解码器。从视频帧中提取关键坐标点,使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI解码器:通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它可以根据人体特征准确的预测MIDI事件的序列。

MIDI输出:使用标准音频合成器将MIDI事件转换为最终的波形。

2

实验结果

研究人员证实Foley Music远优于现有其他模型。在对比试验中,他们采用了三种数据集对Foley Music进行了训练,并选择了9中乐器,与其它GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。

其中,数据集分别为AtinPiano、MUSIC及URMP,涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。乐器则为风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。以下为定量评估结果:

可见,Foley Music模型在贝斯(Bass)乐器演奏的预测性能最高达到了72%,而其他模型最高仅为8%。

另外,从以下四个指标来看,结果更为突出:

正确性:生成的歌曲与视频内容之间的相关性。

噪音:音乐噪音最小。

同步性:歌曲在时间上与视频内容最一致。

黄色为Foley Music模型,它在各项指标上的性能表现远远超过了其他模型,在正确性、噪音和同步性三项指标上最高均超过了0.6,其他最高不足0.4,且9种乐器均是如此。

另外,研究人员还发现,与其他基准系统相比,MIDI事件有助于改善声音质量,语义对齐和时间同步。

说明

GAN模型:它以人体特征为输入,通过鉴别其判定其姿态特征所产生的频谱图是真或是假,经过反复训练后,通过傅立叶逆变换将频谱图转换为音频波形。

SampleRNN:是无条件的端到端的神经音频生成模型,它相较于WaveNet结构更简单,在样本级层面生成语音要更快。

WaveNet:是谷歌Deepmind推出一款语音生成模型,在text-to-speech和语音生成方面表现很好。

另外,该模型的优势还在于它的可扩展性。MIDI表示是完全可解释和透明的,因此可以对预测的MIDI序列进行编辑,以生成AGF调不同风格音乐。如果使用波形或者频谱图作为音频表示形式的模型,这个功能是不可实现的。

最后研究人员在论文中表明,此项研究通过人体关键点和MIDI表示很好地建立视觉和音乐信号之间的相关性,实现了音乐风格的可拓展性。为当前研究视频和音乐联系拓展出了一种更好的研究路径。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41109

    浏览量

    302596
  • 人工智能
    +关注

    关注

    1820

    文章

    50325

    浏览量

    266949
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52268

原文标题:只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型微调企业项目实战课

    自主可控大模型:企业微调实战课,筑牢未来 AI 底座 在人工智能席卷全球商业版图的今天,企业对大模型(LLM)的态度已经从“新奇观望”转变为“全面拥抱”。然而,随着应用层面的不断深入,
    发表于 04-16 18:48

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    , GPIO 。这意味着开发者可以直接驱动伺服电机(通过PWM)、连接激光雷达(通过UART/SPI)、读取各类传感器数据。这使得AI Station不仅是台电脑,更是个 机器人主
    发表于 03-10 14:19

    模型 ai coding 比较

    框架:llm-coding-bench v1.0 统代码执行超时:10秒 统随机种子:42 统裁判模型:DeepSeek-Chat(第三方交叉验证) ? 综合评分公式: scss
    发表于 02-19 13:43

    使用NORDIC AI的好处

    × 在 CPU 上运行时可快 10×、更省电,平均模型体积 <5 KB。[Edge AI 软件页] Axon NPU 对同 TensorFlow Lite 模型:* 推理速度
    发表于 01-31 23:16

    小新AI语音互动礼盒上线啦!正版IP原声对话!启明云端乐鑫代理

    ,搭载智能AI,让经典IP以全新的方式,陪伴在你生活的每刻。经典再现,官方原声我们获得了《蜡笔小新》官方正版IP授权,采用小新原声进行交互录制。从开机问候到日常
    的头像 发表于 01-06 18:03 810次阅读
    小新<b class='flag-5'>AI</b>语音互动礼盒上线啦!正版IP<b class='flag-5'>原声</b>对话!启明云端乐鑫代理

    灵动微电子最新最火热的一款芯片推荐

    希望找一款灵动微电子最新最火热的一款芯片,我们想做个图形化的界面配置,供大家以后直接创建工程,用国产工具McuStudio做,McuStudio支持任何内核任何厂家的芯片,希望大家有推荐的型号
    发表于 10-29 17:15

    【飞凌OK-MX9596-C开发板试用】②体验WIFI、蓝牙、音频、视频,为AI应用打下基础

    大的一款板子,搭载了超强的多核处理器,非常适合开发工业互联、AI应用等,本篇体验下开发板的WIFI、蓝牙、音频、视频模块,为后续开发AI应用打下基础。 第部分:WIFI功能 本机搭载
    发表于 10-21 18:17

    【技术讨论】智能戒指手势交互:如何优化PCBA成本与实现<20ms低延迟?

    我们正在开发一款通过手势实时控制音乐的嵌入式可穿戴设备(架构如图:nRF5340主控 + ICM-42607 IMU)。希望重构听众与音乐之间的关系。在早期小批量生产中,我们面临两个核心挑战,希望
    发表于 10-18 13:04

    AI模型的配置AI模型该怎么做?

    STM32可以AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    传统工业AP搞不定的PROFINET实时传输,为什么它可以

    在工业自动化、智慧矿山、综合能源等领域,稳定的工业通信是设备联动、数据传输的“生命线”。随着工业控制对实时性、可靠性要求的提升,PROFINET作为主流工业以太网协议,其应用占比持续攀升——而一款完美适配PROFINET协议、兼顾高性能无线传输与工业级防护的设备,正成为
    的头像 发表于 10-11 15:43 664次阅读
    传统工业AP搞不定的PROFINET实时传输,为什么<b class='flag-5'>它可以</b>?

    皓丽全球首四摄AI会议平板:AI全视之眼 + AI智会大模型双加持

    2025年,智能会议设备市场迎来里程碑式突破——连续多年蝉联电商销量冠军的皓丽(Horion)正式推出全球首四摄AI会议平板,以“AI全视之眼+AI智会大
    的头像 发表于 09-10 12:36 1132次阅读
    皓丽全球首<b class='flag-5'>款</b>四摄<b class='flag-5'>AI</b>会议平板:<b class='flag-5'>AI</b>全视之眼 + <b class='flag-5'>AI</b>智会大<b class='flag-5'>模型</b>双加持

    OpenAI开源模型登陆IBM watsonx.ai开发平台

    OpenAI 已向公众发布了两 AI 模型,允许开发者和企业可自由下载、运行并进行定制。其中一款模型现已部署在 IBM watsonx.
    的头像 发表于 08-26 15:36 1149次阅读

    新品上线|Maix4-HAT 大模型 AI 加速套件 ,键解锁树莓派多模态 AI 力量!

    还在为边缘端的大模型运行发愁?还在为算力不够、模型太大束手无策?Maix4-HAT,一款专为端侧大模型而生的高性能AI加速模块,现已正式上线
    的头像 发表于 07-18 18:35 2091次阅读
    新品上线|Maix4-HAT 大<b class='flag-5'>模型</b> <b class='flag-5'>AI</b> 加速套件 ,<b class='flag-5'>一</b>键解锁树莓派多模态 <b class='flag-5'>AI</b> 力量!

    AlphaEvolve:一款基于Gemini的编程Agent,用于设计高级算法

    构思创新理念。如今,Google 进步扩展这些能力,将其应用于解决数学基础领域和现代计算中高度复杂的难题。 AlphaEvolve 是一款由大语言模型驱动的进化式编程代理,致力于通用算法的发现与优化。该平台将 Gemini
    的头像 发表于 05-19 11:19 1901次阅读
    AlphaEvolve:<b class='flag-5'>一款</b>基于Gemini的编程Agent,用于设计高级算法