一个可以预测活页乐谱中和目标录音匹配度最高的的位置的AI系统-电子发烧友网

音乐AI技术正在快速发展。

在预印平台Arxiv.org上发布的一项研究中，约翰内斯·开普勒大学林茨计算感知研究所和奥地利人工智能研究所的研究人员介绍了一个可以预测活页乐谱中和目标录音匹配度最高的的位置的AI系统。表面上，其对齐精度高于当前基于图像的最新乐谱追踪器。

乐谱追踪技术是很多应用程序的基础。这些应用包括自动伴奏、翻页以及将现场表演与可视化图像同步等等。现有的系统要么依赖于固定长短的小片段乐谱图像，要么需要光学音乐识别技术所提取出的计算机可读的乐谱。但是这些研究人员的AI系统可以以独特的方式观察整页乐谱，从而从头到尾地追踪任意长度的音乐表演。

这个研究团队将乐谱追踪当作一种图像分割任务。根据特定时间的某个音乐表演，他们的系统针对当前正在播放的音乐相对应的乐谱预测分段蒙版（即小片段）。研究人员说，仅仅利用固定大小音频输入的乐谱追踪器无法在超过特定环境的情况下区分重复的音符，然而他们提出的AI系统在处理较长时间的乐谱时都不会有问题。

在实验过程中，研究人员们从多模型乐谱数据集（MSMD）中获取了一些复音钢琴样本，其中包括巴赫、莫扎特、贝多芬等多个作曲家的作品。在手动识别并且纠正一些对齐上的错误后，他们通过353对乐谱和MIDI音频信息训练了AI系统。

该AI系统的另一位作者说，除了最高的门槛以外（没搞懂highest threshold是啥），他们的系统拥有比基准线更高的性能，并能在时间差方面得出更精确的结果（即对于更严格的容错率，百分比更高）。它偶尔也会产生一些错误，研究人员将其归因于系统可能会在图像纸上 “大幅跳跃”。但是他们断言，种种试验结果都表明这个AI系统在大多数情况下都是“非常精确的”。

“未来的工作会需要对扫描图像或照片进行测试，以评估该AI系统在视觉领域的泛化能力。”研究人员写道，“成就功能更强大的系统的下一步是显式或隐式地结合某种机制来处理乐谱和演奏中重复的音符。尽管我们也怀疑其性能会很大程度上取决于迄今为止音频的隐式编码。举例来说，循环网络中能够存储多大的听觉环境将成为很重要的一个因素，但我们相信，我们所提出的方法能够从合适的（经受过训练的）的数据中很自然地获得这种功能。”

音乐AI技术正在快速发展。OpenAI最近发布了一款叫做Jukebox的机器学习框架，它可以生成包括基本歌曲在内的音乐作为各种音乐类型和音乐风格的原始音频。在2018年末，Google Brain的“Project Magenta”项目致力于“探索机器学习在创作过程中的作用”，提出了一个叫做“Musical Transformer”的模型。该模型能够生成可识别的重复性歌曲。不仅如此，去年三月，谷歌发布了一种算法“Google Doodle”，让用户能够创造向巴赫致敬的旋律。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

音频

音频

+关注

关注
28

文章
2598

浏览量
79963
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24348
ai技术

ai技术

+关注

关注
1

文章
1132

浏览量
23702

原文标题：研究人员的AI技术能够实时匹配活页乐谱与MIDI音频

文章出处：【微信号：livevideostack，微信公众号：LiveVideoStack】欢迎添加关注！文章转载请注明出处。

开发者手机 AI - 目标识别 demo

功能简介该应用是在Openharmony 4.0系统上开发的一个目标识别的AI应用，旨在从上到下打通Openharmony

发表于 04-11 16:14

LabVIEW模板匹配位置信息导出

大家好，我在利用ni vision assistant生成的模板匹配界面时，想要将每一个匹配物体的位置信息导出到word或者Excel，但是他这个匹

发表于 03-11 20:22

使用什么录音工具可以将Hexstrug写到TC397中？

我现在有个十六进制乱写文件，其中包含一部分 scr 的内容，但是使用 memtool 无法进行下载 hexfilecendrepentra 的内容是这样的我想问问一下，使用什么录音

发表于 01-25 08:24

ad8346最高结温是多少摄氏度？

ad8346汽车级最高工作环境温度是125度，最高结温是多少摄氏度？

发表于 12-05 07:44

电机轴承温度最高能多少度？

这几天温度有些高达到90度，请问一下轴承温度一般最高能到多少度他的名牌上要求加shell Gadus S2 v100润滑脂，暂时没有，我

发表于 11-21 07:21

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统#2023集创赛#紫光同创#小眼睛科技助力紫光同创高校生态建设@小眼睛科技获奖作品展示：华南理工大学+CR8_Pro队

发表于 11-02 17:51

Nexperia制定到2035年实现碳中和的目标

Nexperia制定了到2035年实现碳中和的目标，展示了对可持续性和创新的承诺。 Nexperia于60多年前在荷兰成立，是一家全球扩张的半导体企业。鉴于该公司每年生产超过1000亿种产品，该公司

发表于 10-13 17:13 •984次阅读

【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

程序。本篇文章我们将会介绍Vitis AI Library，并体验基于Vitis AI Library的YOLOX视频目标检测示例程序。 Vitis AI User Guide中的

发表于 10-06 23:32

【KV260视觉入门套件试用体验】基于Vitis AI的ADAS目标识别

。三、ADAS目标识别 Vitis AI 提供L了许多实例，其中包括一个ADAS目标识别的demo，在Vitis-

发表于 09-27 23:21

Nexperia设定2035年碳中和目标

亿件，Nexperia深知自身对保护环境应承担的社会责任。今年五月，Nexperia发布了其首份可持续发展报告，其中针对公司的环境影响、社会责任、增长目标以及其作为国际行业领导者的重要角色进行了评估。今天，Nexperia自豪地宣布其实现碳中和的预期

发表于 09-21 09:10 •186次阅读

基于机器学习的车位状态预测方法

本发明公开一种基于机器学习的车位状态预测方法，基于历史数据，建立回归决策树模型进而构建改进决策树模型，对每个区域的停车率进行预测，基于停车率和用户喜好度为用户推荐相应的停车区域，获取相

发表于 09-21 07:24

AI智能呼叫中心

可以自动识别和响应来电，通过分析用户的语音、文字和情绪等信息，并给出针对性的应答，与传统的人工处理相比，AI智能呼叫中心能够实现24/7不间断的服务，大幅提高了处理效率和用户满意度。二、个性化服务

发表于 09-20 17:53

【KV260视觉入门套件试用体验】部署vitis-ai环境以及测试demo

桌面后，可以看到一些应用图标。和重要的终端。在ubuntu中测试的模块加载命令smartctl直接在环境中能够找到。本系统自带 smartctl 命令同时包含gcc11和cmake3.21

发表于 08-27 23:35

AI视觉检测在工业领域的应用

、判断和检测生产线上的各种产品，保证产品的质量和一致性。与传统的视觉检测方法相比，工业AI视觉检测系统具有如下几个显著优点： 1.高效性：工业AI视觉检测

发表于 06-15 16:21

利用蜂鸣器演奏简单的乐谱

那么，今天分享的是利用蜂鸣器来演奏一些简单的乐谱。

发表于 05-26 16:04 •1451次阅读

搜索历史

一个可以预测活页乐谱中和目标录音匹配度最高的的位置的AI系统

评论

开发者手机 AI - 目标识别 demo

LabVIEW模板匹配位置信息导出

使用什么录音工具可以将Hexstrug写到TC397中？

ad8346最高结温是多少摄氏度？

电机轴承温度最高能多少度？

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

Nexperia制定到2035年实现碳中和的目标

【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

【KV260视觉入门套件试用体验】基于Vitis AI的ADAS目标识别

Nexperia设定2035年碳中和目标

基于机器学习的车位状态预测方法

AI智能呼叫中心

【KV260视觉入门套件试用体验】部署vitis-ai环境以及测试demo

AI视觉检测在工业领域的应用

利用蜂鸣器演奏简单的乐谱