一个可以预测活页乐谱中和目标录音匹配度最高的的位置的AI系统-电子发烧友网

音乐AI技术正在快速发展。

在预印平台Arxiv.org上发布的一项研究中，约翰内斯·开普勒大学林茨计算感知研究所和奥地利人工智能研究所的研究人员介绍了一个可以预测活页乐谱中和目标录音匹配度最高的的位置的AI系统。表面上，其对齐精度高于当前基于图像的最新乐谱追踪器。

乐谱追踪技术是很多应用程序的基础。这些应用包括自动伴奏、翻页以及将现场表演与可视化图像同步等等。现有的系统要么依赖于固定长短的小片段乐谱图像，要么需要光学音乐识别技术所提取出的计算机可读的乐谱。但是这些研究人员的AI系统可以以独特的方式观察整页乐谱，从而从头到尾地追踪任意长度的音乐表演。

这个研究团队将乐谱追踪当作一种图像分割任务。根据特定时间的某个音乐表演，他们的系统针对当前正在播放的音乐相对应的乐谱预测分段蒙版（即小片段）。研究人员说，仅仅利用固定大小音频输入的乐谱追踪器无法在超过特定环境的情况下区分重复的音符，然而他们提出的AI系统在处理较长时间的乐谱时都不会有问题。

在实验过程中，研究人员们从多模型乐谱数据集（MSMD）中获取了一些复音钢琴样本，其中包括巴赫、莫扎特、贝多芬等多个作曲家的作品。在手动识别并且纠正一些对齐上的错误后，他们通过353对乐谱和MIDI音频信息训练了AI系统。

该AI系统的另一位作者说，除了最高的门槛以外（没搞懂highest threshold是啥），他们的系统拥有比基准线更高的性能，并能在时间差方面得出更精确的结果（即对于更严格的容错率，百分比更高）。它偶尔也会产生一些错误，研究人员将其归因于系统可能会在图像纸上 “大幅跳跃”。但是他们断言，种种试验结果都表明这个AI系统在大多数情况下都是“非常精确的”。

“未来的工作会需要对扫描图像或照片进行测试，以评估该AI系统在视觉领域的泛化能力。”研究人员写道，“成就功能更强大的系统的下一步是显式或隐式地结合某种机制来处理乐谱和演奏中重复的音符。尽管我们也怀疑其性能会很大程度上取决于迄今为止音频的隐式编码。举例来说，循环网络中能够存储多大的听觉环境将成为很重要的一个因素，但我们相信，我们所提出的方法能够从合适的（经受过训练的）的数据中很自然地获得这种功能。”

音乐AI技术正在快速发展。OpenAI最近发布了一款叫做Jukebox的机器学习框架，它可以生成包括基本歌曲在内的音乐作为各种音乐类型和音乐风格的原始音频。在2018年末，Google Brain的“Project Magenta”项目致力于“探索机器学习在创作过程中的作用”，提出了一个叫做“Musical Transformer”的模型。该模型能够生成可识别的重复性歌曲。不仅如此，去年三月，谷歌发布了一种算法“Google Doodle”，让用户能够创造向巴赫致敬的旋律。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

音频

音频

+关注

关注
31

文章
3134

浏览量
84915
数据集

数据集

+关注

关注
4

文章
1230

浏览量
26038
ai技术

ai技术

+关注

关注
1

文章
1313

浏览量
25594

原文标题：研究人员的AI技术能够实时匹配活页乐谱与MIDI音频

文章出处：【微信号：livevideostack，微信公众号：LiveVideoStack】欢迎添加关注！文章转载请注明出处。

搜索历史

一个可以预测活页乐谱中和目标录音匹配度最高的的位置的AI系统

评论